ギークなエンジニアを目指す男

機械学習系の知識を蓄えようとするブログ

Luigiを使って機械学習パイプラインを構築する3つのメリット

みなさんこんにちは。たかぱい(@takapy0210)です。 本エントリでは、(今更ながら)Luigiを使ってみて感じたメリットをつらつら書いています。 最後にはTitanicのコードを使って実際の機械学習パイプラインを構築してみた例も載せているので、よければ参考…

M1 Macのdocker環境にテクニカル指標計算ライブラリ「TA-Lib」をインストールする方法

みなさんこんにちは。たかぱい(@takapy0210)です 本日はM1 Macの分析コンテナ環境に株価分析ライブラリのTA-Lib*1をインストールする際に結構苦労したので、その備忘です。 Dockerfileの内容とエラー内容 こちらのサイト*2などを参考に以下のようなDockerf…

TensorFlow × HuggingFace Transformers(TFBertModel)を用いたモデルの保存時に発生するエラーの回避方法

みなさんこんにちは。たかぱい(@takapy0210)です。 本日はTensorFlow×Transformers周りでエラーに遭遇した内容とそのWAです。 環境 実装内容 エラー内容 エラーの原因 ワークアラウンド なんでこれで解消できるのか? モデルの保存方法 参考 環境 実行環境…

Google ColabとVSCodeを用いた分析環境運用方法 〜kaggle Tipsを添えて〜

こんにちは。takapy(@takapy0210)です。 本エントリは下記イベントでLTした内容の元に、補足事項やコードスニペットなどをまとめたものになります。 kaggle-friends.connpass.com ちなみに今回LTしようと思ったきっかけは以下のような出来事からだったので…

PandasからBigQueryにデータを保存する際に「Resources exceeded during query execution: UDF out of memory. ..... columns is too large」エラーが出た時の対処方法

こんにちは。takapy(@takapy0210)です。 表題の件で少し困ったので、備忘がてら記事に残しておこうと思います。 やろうとしていたこと エラー内容 該当箇所のコード work around 最後に やろうとしていたこと BigQueryのPython SDKを用いて、Pandasで読み…

【言語処理100本ノック 2020】 8章をPythonで解いた(TensorFlowを使用)

こんにちは。takapy(@takapy0210)です。 本エントリは言語処理100本ノック2020の8章を解いてみたので、それの備忘です。 簡単な解説をつけながら紹介していきます。 ネット上に掲載されている解答例はPytorchによる解法が多かったので、TensorFlowを用いて…

【言語処理100本ノック 2020】 7章をPythonで解いた

こんにちは。takapy(@takapy0210)です。 本エントリは言語処理100本ノック2020の7章を解いてみたので、それの備忘です。 簡単な解説をつけながら紹介していきます。 nlp100.github.io コードはGithubに置いてあります。 github.com 第7章: 機械学習 単語の…

【言語処理100本ノック 2020】 6章をPythonで解いた

こんにちは。takapy(@takapy0210)です。 本エントリは言語処理100本ノック2020の6章を解いてみたので、それの備忘です。 途中まで解いて放置していました()が、続きをやる機会を得たので簡単な解説をつけながら紹介していきます。 nlp100.github.io 例に…

atmaCup振り返り回でLTをしました(word2vecを利用した埋め込み分析と SWEMを用いた比較実験)

概要 2021.02.18に行われた「atmaCup#9 オンサイトデータコンペ振り返り回」*1でLTをしました。 運営の方に許可をいただいたので、発表資料を公開します。 SWEMのサンプルコード スライド中で紹介しているSWEMのコードはGithubにあげていますので、よければ…

【書籍メモ】分析者のためのデータ解釈学入門を読んだ

こんにちは。takapyです。 本日は「分析者のためのデータ解釈学入門」を読んだので、そのメモ書きです。 (完全に自分用の備忘録なので、雑になっています) 分析者のためのデータ解釈学入門 データの本質をとらえる技術作者:江崎貴裕発売日: 2020/12/15メデ…

2021年の目標と行動指針

年末に振り返りやすいように、目標や行動指針をデプロイしておきます。 早寝早起き 適度な運動 音声入力を積極的に使う 行動のログを残す 月末にその月のざっくり振り返りを行う 本を読む 分析コンペのNLP&Tableデータでメダルを取る 統計検定2級を取る 仕事…

分析コンペをチームで戦うための技術

こんにちは。takapy(@takapy0210)です。 本記事はKaggle Advent Calendar 2020 22日目の記事です。 明日は、本エントリで紹介するMoAコンペでチームを組んだsinchir0さんの予定です。 タイトルからしてとても楽しみです!(プレッシャー) qiita.com はじ…

家族としてレベルアップするために行っていること

本記事はコネヒト Advent Calendar 2020の17日目の記事です。 qiita.com こんにちは。takapy(@takapy0210)です。 急に寒くなってきましたね。 在宅勤務していると、どうしても足下が寒くなるので最近は遠赤外線デスクヒーターを買うか迷っています。 みな…

レコメンデーションに用いられるMatrix Factorization(行列分解)をTensorFlow.kerasで実装してみる

Vectorpouch - jp.freepik.com こんにちは。takapy(@takapy0210)です。 本記事はコネヒト Advent Calendar 2020の10日目の記事です。 qiita.com みなさんハイキューという漫画(アニメ)はご存知でしょうか。 高校バレーボールを題材にしたスポーツ青春漫…

Data Engineering Study #1「DWH・BIツールのこれまでとこれから」 参加ログ

こんにちは。takapy(@takapy0210)です。 今回は本日参加したイベントの備忘です。 forkwell.connpass.com どのLTもとても勉強になるイベントでした。 資料は後ほど公開されるものもあるみたいなので、公開され次第追記しようと思います。 Twitterでは #Dat…

ProbSpace「YouTube動画視聴回数予測コンペ」参加メモ 〜MLflow Trackingによる実験管理を添えて〜

こんにちは。takapy(@takapy0210)です。 今回はProbSpaceで開催されていた「YouTube動画視聴回数予測」コンペに参加し、その中でMLflow Trackingで実験管理を行ってみましたので、簡単に振り返りをしようと思います。 ちなみに結果はPrublic 13th → Privat…

自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました

こんにちは。たかぱい(@takapy0210)です。 本日は自然言語の可視化を手軽にできるようにしたパッケージnlplotをPyPIに公開したので、これのご紹介です。 nlplotとは? nlplotで何ができるか 使い方 使用データ 事前準備 ストップワードの計算 N-gram bar c…

PyPIへのアップロード時に「HTTPError: 400 Client Error: The description failed to render in the default format of reStructuredText.」が出る場合の対処方法

こんにちは。takapy(@takapy0210)です。 自作パッケージをPyPIにアップロードしようとしたところ簡易的なミスで数時間溶かしたので、その備忘です。 エラー内容 エラー発生時のsetup.pyの内容 解決方法 やったこと 各種パッケージのアップデート 公式の書…

Podcastをはじめました。

Stories - jp.freepik.com こんにちは。たかぱい(@takapy0210)です。 本日はお知らせっぽい宣伝です。 Podcastをはじめました どんなことを配信するの? なぜはじめたの? 最後に Podcastをはじめました ご縁があり、Yagiさん(@yaginuuun)とPodcastの配…

【言語処理100本ノック 2020】 4章をPythonで解いた

こんにちは。takapy(@takapy0210)です。 本エントリは言語処理100本ノック 2020の4章を解いてみたので、それの備忘です。 nlp100.github.io 例によってコードはGithubに置いてあります。 github.com 第4章: 形態素解析 30. 形態素解析結果の読み込み 31. …

【言語処理100本ノック 2020】 3章をPythonで解いた

こんにちは。たかぱい(@takapy0210)です。 本エントリは言語処理100本ノック 2020の3章を解いてみたので、それの備忘です。 nlp100.github.io 例によってコードはGithubに置いてあります。 github.com 第3章: 正規表現 20. JSONデータの読み込み 21. カテ…

【言語処理100本ノック 2020】 2章をPythonで解いた

こんにちは。たかぱい(@takapy0210)です。 本エントリは言語処理100本ノック 2020の2章を解いてみたので、それの備忘です。 nlp100.github.io 例によってコードはGithubに置いてあります。 github.com 第2章: UNIXコマンド 10. 行数のカウント 11. タブを…

【言語処理100本ノック 2020】 1章をPythonで解いた

こんにちは。たかぱい(@takapy0210)です。 本エントリは言語処理100本ノック 2020の1章を解いてみたので、それの備忘です。 nlp100.github.io コードはGithubに置いてあります。 github.com 第1章: 準備運動 00. 文字列の逆順 01. 「パタトクカシーー」 02…

【書籍メモ】Python実践入門を読了したので機械学習PJにも使えそうなところをメモる

こんにちは。たかぱい(@takapy0210)です。 本日は【Python実践入門】を読了したので、それの備忘です。 はじめに 全体を通して Docstring Docstringの例 ジェネレータ、デコレータ、コンテキストマネージャー ジェネレータ 具体的な使用例 デコレータ 具体…

データ分析コンペで使っているワイの学習・推論パイプラインを晒します

こんにちは!たかぱい(@takapy0210)です。 本記事はKaggle Advent Calendar 2019の14日目の記事です。 昨日はkaggle masterのアライさんのKaggleコード遺産の記事でした! とても参考になり、いくつか自分の遺産にも取り入れさせていただきました。 さて本…

Category Encodersのすゝめ【AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019 10日目】

こんにちは!たかぱい(@takapy0210)です。 本記事は、AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019の10日目の記事です。 今回は、最近よく使用しているCategory Encodersを動かしてみた結果をまとめてみようと思います。 Categ…

atmaCup オンサイトデータコンペ #2に参加してきました!

こんにちは!takapy(@takapy0210)です。 今回は、昨日(11月23日)行われた atmaCup#2に参加してきましたので、振り返りや諸々の感想などを残していければと思います。 このような経験の振り返りに関しては、YWTのフレームワークを使うと良いという噂を聞…

【小ネタ】ipywidgetsを使ってデータフレームのheaderを固定してデータを表示する

こんばんは。takapy(@takapy0210)です。 今日はpythonの小ネタです。 サマリ 手順 ipywidgetsのインストールとjupyterの設定 コード 最後に サマリ 下記のように、headerを固定しながら一覧をスクロールすることができます。 手順 ipywidgetsのインストー…

AWS Lambdaを利用してarXivの論文を(日本語に翻訳して)slack通知する

こんにちは。takapy(@takapy0210)です。 最近下記のような勉強会が賑わっており、論文を読む機運が高まってきているのでは?と思い始めています。 lpixel.connpass.com しかし、そもそも自分の読みたい内容の論文を探すのが難しかったり、時間がかかったり…

GloVeを使って単語の分散表現を取得する

こんにちは。takapy(@takapy0210)です。 コンピュータで自然言語を扱う場合は、単語(文書)を何らかの形で数値表現に変換する必要があります。 単語の分散表現を得る方法の一つとして、gensimのword2vecを使うことはよくあると思うのですが、本日はGloVe…