ギークなエンジニアを目指す男

機械学習系の知識を蓄えようとするブログ

pythonを使ってDynamoDBの複数テーブルから非同期でデータ取得してみる

こんにちは。たかぱい(@takapy0210)です。 DynamoDBの複数テーブルからなるべく高速にデータを取得するために、非同期でデータ取得することはできるのか?を少し調べてみたのですが、あまり事例が無かったのでメモ程度に残しておきます。 ユースケースとし…

DataformをGoogle Cloud上から触ってみる(rawデータから集計テーブルを作るまで)

たかぱい(@takapy0210)です。 正月にGoogle CloudのDataformをゴニョゴニョ触っていたので、その備忘録を残しておこうと思います。 Dataformとは dbtとの違いは...? 使用したデータ 実際に動かしてみる 基本的な設定を記載する「dataform.json」 Dataform…

予期的UXという概念がとてもしっくりきた話

みなさんこんにちは。たかぱい(@takapy0210)です。 最近、UX白書*1で述べられている「予期的UX」という言葉を知り「まさにこのUXを上げるために試行錯誤してるんだよな〜」と、しっくりきたので、まだ完全に理解したフェーズ*2ではありますが、ここに今感…

FastAPIで特定エンドポイント(Path)のログを出力しない方法

最近FastAPIに触る機会があり、ログ周りで少し躓いたので備忘録として残しておきます。 背景 補足 特定エンドポイントのログをフィルタリングする方法 おまけ Uvicornのログをjson形式で出力する方法 エンドポイント毎のレスポンスタイムを計測する方法 背景…

2022年の振り返り

みなさんこんにちは。たかぱい(@takapy0210)です。 年末も近づいてきましたので、久しぶりに今年の振り返りでもしていこうと思います。 この記事はコネヒト Advent Calendarのカレンダー 17日目 の記事です。 お仕事 オンボーディング改善 A/Bテストの標準…

Luigiを使って機械学習パイプラインを構築する3つのメリット

みなさんこんにちは。たかぱい(@takapy0210)です。 本エントリでは、(今更ながら)Luigiを使ってみて感じたメリットをつらつら書いています。 最後にはTitanicのコードを使って実際の機械学習パイプラインを構築してみた例も載せているので、よければ参考…

M1 Macのdocker環境にテクニカル指標計算ライブラリ「TA-Lib」をインストールする方法

みなさんこんにちは。たかぱい(@takapy0210)です 本日はM1 Macの分析コンテナ環境に株価分析ライブラリのTA-Lib*1をインストールする際に結構苦労したので、その備忘です。 Dockerfileの内容とエラー内容 こちらのサイト*2などを参考に以下のようなDockerf…

TensorFlow × HuggingFace Transformers(TFBertModel)を用いたモデルの保存時に発生するエラーの回避方法

みなさんこんにちは。たかぱい(@takapy0210)です。 本日はTensorFlow×Transformers周りでエラーに遭遇した内容とそのWAです。 環境 実装内容 エラー内容 エラーの原因 ワークアラウンド なんでこれで解消できるのか? モデルの保存方法 参考 環境 実行環境…

Google ColabとVSCodeを用いた分析環境運用方法 〜kaggle Tipsを添えて〜

こんにちは。takapy(@takapy0210)です。 本エントリは下記イベントでLTした内容の元に、補足事項やコードスニペットなどをまとめたものになります。 kaggle-friends.connpass.com ちなみに今回LTしようと思ったきっかけは以下のような出来事からだったので…

PandasからBigQueryにデータを保存する際に「Resources exceeded during query execution: UDF out of memory. ..... columns is too large」エラーが出た時の対処方法

こんにちは。takapy(@takapy0210)です。 表題の件で少し困ったので、備忘がてら記事に残しておこうと思います。 やろうとしていたこと エラー内容 該当箇所のコード work around 最後に やろうとしていたこと BigQueryのPython SDKを用いて、Pandasで読み…

【言語処理100本ノック 2020】 8章をPythonで解いた(TensorFlowを使用)

こんにちは。takapy(@takapy0210)です。 本エントリは言語処理100本ノック2020の8章を解いてみたので、それの備忘です。 簡単な解説をつけながら紹介していきます。 ネット上に掲載されている解答例はPytorchによる解法が多かったので、TensorFlowを用いて…

【言語処理100本ノック 2020】 7章をPythonで解いた

こんにちは。takapy(@takapy0210)です。 本エントリは言語処理100本ノック2020の7章を解いてみたので、それの備忘です。 簡単な解説をつけながら紹介していきます。 nlp100.github.io コードはGithubに置いてあります。 github.com 第7章: 機械学習 単語の…

【言語処理100本ノック 2020】 6章をPythonで解いた

こんにちは。takapy(@takapy0210)です。 本エントリは言語処理100本ノック2020の6章を解いてみたので、それの備忘です。 途中まで解いて放置していました()が、続きをやる機会を得たので簡単な解説をつけながら紹介していきます。 nlp100.github.io 例に…

atmaCup振り返り回でLTをしました(word2vecを利用した埋め込み分析と SWEMを用いた比較実験)

概要 2021.02.18に行われた「atmaCup#9 オンサイトデータコンペ振り返り回」*1でLTをしました。 運営の方に許可をいただいたので、発表資料を公開します。 SWEMのサンプルコード スライド中で紹介しているSWEMのコードはGithubにあげていますので、よければ…

【書籍メモ】分析者のためのデータ解釈学入門を読んだ

こんにちは。takapyです。 本日は「分析者のためのデータ解釈学入門」を読んだので、そのメモ書きです。 (完全に自分用の備忘録なので、雑になっています) 分析者のためのデータ解釈学入門 データの本質をとらえる技術作者:江崎貴裕発売日: 2020/12/15メデ…