First Draft

Claudeから利用する準備

Google Cloudの設定

以下の作業が必要です

APIの有効化
OAuthの設定
IAMの作成

APIの有効化

まずはMCPサーバーとBigQueryAPIを有効化していきます。（コンソール上から行なっても大丈夫です）

# ログイン
$ gcloud auth application-default login

# 紐付け
$ gcloud config set project your_project

# BigQuery APIの有効化
$ gcloud services enable bigquery.googleapis.com --project=your_project

# MCPサーバーの有効化
$ gcloud beta services mcp enable bigquery.googleapis.com --project=your_project

OAuthの設定

3つほど設定する必要があります。

①：https://console.cloud.google.com/auth/clients からクライアントの作成を行います。

アプリケーションの種類は ウェブアプリケーション 、リダイレクトURIに https://claude.ai/api/mcp/auth_callback を設定し作成します。
作成すると「クライアント ID」と「クライアントシークレット」が発行されるので、これをメモっておきます。

②：https://console.cloud.google.com/auth/audience からテストユーザーを追加します。
ここに追加するユーザーは、Claudeで利用しているアカウントを追加します。

③：https://console.cloud.google.com/auth/scopes からスコープを追加します。以下の2つを追加すればOKです。

https://www.googleapis.com/auth/bigquery
https://www.googleapis.com/auth/cloud-platform

IAMの作成

Claudeを契約しているアカウントのIAMを作成します。

# 自分のメールアドレスに権限を付与
gcloud projects add-iam-policy-binding your-project \
    --member="user:your-address" \
    --role="roles/bigquery.user"

gcloud projects add-iam-policy-binding your-project \
    --member="user:your-address" \
    --role="roles/bigquery.dataViewer"

gcloud projects add-iam-policy-binding your-project \
    --member="user:your-address" \
    --role="roles/mcp.toolUser"

Claudeの設定

Claudeの設定画面から、コネクタ→カスタムコネクタを追加を押し、以下の値を入力し追加します。

名前：任意
リモートMCPサーバーURL：https://bigquery.googleapis.com/mcp
OAuth Client ID：先ほどメモしたID
OAuthクライアントシークレット：先ほどメモしたシークレット

その後、「連携させる」ボタンを押せばOKです。

参考：

support.claude.com

実際に使ってみた

※ 以降で取得しているデータは、成約価格ではなく 売り出し価格です。 *1

🗣️ BigQueryにはいくつデータセットがありますか？

まずはシンプルに「BigQueryにはいくつデータセットがありますか？」と聞いてみます。

すると、「List dataset ids」を使って検索した結果を返してくれます。うまく動いていそうです。

🗣️ 文京区のマンション売り出し価格の平均坪単価を教えて

今度は自動的に「List table ids」や「Get table info」ツールを使ってテーブルのスキーマ情報などを取得、そこから対象データを保持していそうなテーブルを特定し、クエリを組み立てて「Execute sql」を使ってSELECTを行なっているのが分かります。

実行されたSQLも確認することができます。

🗣️ 2025年の月単位の平均坪単価推移を、間取りごと（1LDK、2LDK、3LDK）に教えて

次は少し複雑なクエリとなるような命令を投げてみます。

するとこちらも難なくデータを抽出してくれました。

お得意のグラフも出してくれますね

🗣️ 他の区と比較して

抽象的な問いを投げると、勝手に比較対象の区を選択して坪単価を計算しつつ、簡単な分析結果も添えてくれました。

実際にマンション検討ユーザーになりきって仮想質問を投げてみた

最後に、実際にマンション購入を検討する際に不動産エージェントに伝えるような条件を伝えて、どのような返信がくるのか見てみます。

## 役割
あなたは東京都のマンションに一番詳しい不動産エージェントです。
今回、東京都内でマンション購入を検討しています。
条件をお伝えするので、現在売りに出ている中でおすすめのマンションを理由を添えて10件ほど教えてください。マンションの売り出しデータはBigQueryにあります。

## 条件
- 現在は都内の江東区にある家賃25万円、2LDKの賃貸マンションで家族3人暮らし（子供は1歳）
- 夫：30歳、妻：27歳
- 世帯年収1500万円（夫：900万円、妻：600万円）
- 3LDK、築浅（築10年未満）、駅近（5分以内）、お互いの職場までドアtoドアで40分以内を希望
- 職場は夫は大手町、妻は有楽町
- できれば資産性のあるエリア、マンションを購入したい（10年後売却したときに、最低でも残債割れしない物件を希望）
  - そのため、同一エリアの周辺マンションと比較して割安な物件が良いと考えている
- 今後も年収は伸びる想定なので、住宅ローンは与信限度最大まで借りることを許容する

先に回答を見ての感想ですが、

与信の計算もしっかりやってくれているし、資産性もしっかり見ていそう
割安かどうか？も駅単位で加味してくれているし、おすすめ理由もざっと見て違和感はない
一部、定期借地権の物件もあるが、これはプロンプトを工夫すれば除外できそう
住宅ローンの借り入れは最大1億2000万円くらいと見積もりつつも、その前後の価格帯まで幅広く推薦してくれている
総戸数のデータがバグっていますが、これはデータ基盤側のデータがおかしそうなので、一旦目を瞑っていただけると...

と、かなり良さげなのでしょうか？~~（この記事を見ている方で属性が似ている方は、とりあえず全部内見行ってみましょう）~~

※ 以下、返ってきたテキストをそのまま貼り付けています

↓↓↓↓↓↓↓↓↓↓↓↓

📊 ご予算・条件の整理

項目	内容
住宅ローン借入可能額	約1億500万〜1億2000万円（年収の7〜8倍）
通勤エリア	大手町・有楽町へドアtoドア40分以内
物件条件	3LDK、築10年未満、駅徒歩5分以内
重視点	資産性、周辺相場より割安

🏆 おすすめマンション厳選10件

【第1位】プライムパークス品川シーサイド・ザレジデンス

品川区・品川シーサイド ⭐割安度No.1

項目	詳細
価格	1億2,480万円
平米単価	177万円/㎡（駅相場より約20%割安）
広さ	70.33㎡・3LDK
築年数	7年
階数/向き	4階/南東向き
総戸数	42戸（15階建）
通勤	りんかい線→大崎→JR 約25分で大手町

📍 おすすめ理由

駅相場より約20%割安で最大の割安率
南東向きで日当たり良好
りんかい線で大崎乗り換え、JR山手線・埼京線で都心直結
品川シーサイドは商業施設併設で生活利便性◎

【第2位】プラウド東陽町サウス

江東区・東陽町 ⭐ブランド力◎

項目	詳細
価格	1億1,880万円
平米単価	174万円/㎡（駅相場より約7.5%割安）
広さ	68.25㎡・3LDK
築年数	7年
階数/向き	2階/西向き
総戸数	1,152戸（48階建タワー）
通勤	東西線→大手町直通約10分

📍 おすすめ理由

野村不動産「プラウド」ブランドで資産価値維持に期待
東西線で大手町直通10分は通勤最強
1,152戸の超大規模で管理体制・共用施設充実
現在の江東区居住なら土地勘もあり安心

【第3位】シティテラス東陽町

江東区・東陽町 ⭐通勤最優先

項目	詳細
価格	1億1,800万円
平米単価	176万円/㎡（駅相場より約6.7%割安）
広さ	67.2㎡・3LDK
築年数	9年
階数/向き	8階/東向き
総戸数	125戸（14階建）
通勤	東西線→大手町直通約10分

📍 おすすめ理由

住友不動産の安心ブランド
東西線で大手町直通、有楽町も乗り換え1回
木場公園も近く、お子様の遊び場に最適
複数部屋が売出中で比較検討可能

【第4位】ル・サンク東京森下

墨田区・森下 ⭐広さ重視

項目	詳細
価格	1億3,480万円
平米単価	168万円/㎡（駅相場より約6.4%割安）
広さ	80.05㎡・3LDK
築年数	8年
階数/向き	3階/西向き
総戸数	297戸（28階建タワー）
通勤	都営新宿線→大手町約15分

📍 おすすめ理由

80㎡超の広さで3人家族にゆとり
都営新宿線・大江戸線の2路線利用可
清澄白河・門前仲町エリアに近く下町情緒◎
タワーマンションで眺望・資産性期待

【第5位】リビオシティ南砂町ステーションサイト（10階）

江東区・南砂町 ⭐コスパ最強

項目	詳細
価格	7,780万円
平米単価	107万円/㎡
広さ	72.45㎡・3LDK
築年数	2年
階数/向き	10階/南西向き
総戸数	152戸（10階建）
通勤	東西線→大手町直通約15分

📍 おすすめ理由

築2年で7,780万円は圧倒的コスパ
最上階10階・南西向きで日当たり・眺望◎
手元資金を残せる＝将来の住み替え余力
日鉄興和不動産の大規模物件で資産性安定

【第6位】グランドメゾン品川シーサイドの杜

品川区・品川シーサイド ⭐積水ブランド

項目	詳細
価格	1億5,000万円
平米単価	209万円/㎡（駅相場より約5.5%割安）
広さ	71.68㎡・3LDK
築年数	6年
階数/向き	5階/東向き
総戸数	18戸（7階建低層）
通勤	りんかい線→大崎→JR 約25分

📍 おすすめ理由

積水ハウス「グランドメゾン」ブランド
低層マンションは希少価値あり
品川シーサイドは再開発で将来性◎

【第7位】プライムパークス品川シーサイドザ・タワー

品川区・品川シーサイド ⭐高層階

項目	詳細
価格	1億4,700万円
平米単価	210万円/㎡（駅相場より約5.3%割安）
広さ	70.1㎡・3LDK
築年数	6年
階数/向き	15階/南向き
総戸数	363戸（26階建タワー）
通勤	りんかい線→大崎→JR 約25分

📍 おすすめ理由

15階・南向きで眺望・日当たり抜群
363戸の大規模タワーで資産価値安定
高層階は売却時も人気が高い

【第8位】アスコットパーク森下

墨田区・森下 ⭐2路線利用

項目	詳細
価格	1億1,980万円
平米単価	186万円/㎡
広さ	64.57㎡・3LDK
築年数	8年
階数/向き	6階/東向き
総戸数	279戸（21階建）
通勤	都営新宿線/大江戸線→大手町約15分

📍 おすすめ理由

都営新宿線・大江戸線の2路線利用可
大手町へ15分、有楽町へも乗り換え1回
下町エリアで子育て環境◎

【第9位】HARUMI FLAG SUN VILLAGE T棟

中央区・晴海 ⭐新築同様

項目	詳細
価格	1億5,500万円〜
平米単価	約217万円/㎡
広さ	71〜83㎡・3LDK
築年数	0年（新築）
階数/向き	7〜31階/各方位
総戸数	733戸（50階建タワー）
通勤	BRT→新橋→JR 約30分

📍 おすすめ理由

東京五輪選手村跡地の話題物件
新築で最新設備・共用施設充実
中央区アドレスで資産性期待
複数部屋が売出中で選択肢豊富

【第10位】パレステージ大島

江東区・西大島 ⭐駅近2分

項目	詳細
価格	1億480万円
平米単価	171万円/㎡
広さ	61.38㎡・3LDK
築年数	6年
階数/向き	14階/南向き
総戸数	183戸（13階建）
通勤	都営新宿線→大手町約20分

📍 おすすめ理由

駅徒歩2分の抜群のアクセス
14階・南向きで日当たり・眺望◎
1億円台前半で予算に余裕

*1:https://www.rehouse.co.jp/relifemode/column/at/at_0225/

📈 割安度ランキング

順位	物件名	割安度	価格
1	プライムパークス品川シーサイド・ザレジデンス	-19.8%	1億2,480万円
2	プラウド東陽町サウス	-7.5%	1億1,880万円
3	シティテラス東陽町	-6.7%	1億1,800万円
4	ル・サンク東京森下	-6.4%	1億3,480万円
5	グランドメゾン品川シーサイドの杜	-5.5%	1億5,000万円

💡 総合アドバイス

ご家族構成を踏まえたベスト3

優先事項	おすすめ物件	理由
通勤時間最優先	プラウド東陽町サウス	東西線で大手町直通10分
コスパ最優先	リビオシティ南砂町	築2年で7,780万円
資産性最優先	プライムパークス品川シーサイド	駅相場より20%割安

住宅ローンシミュレーション

借入額	月々返済額（35年・変動0.5%）	返済負担率
8,000万円	約20.8万円	約17%
1億円	約26万円	約21%
1.2億円	約31.2万円	約25%

→ 1.2億円借入でも返済負担率25%で適正範囲内です。

所感

データ基盤側でメタ情報などをしっかり定義していれば、正しいクエリを投げて結果を取得してくれそう
今回はテーブル数が少ない & JOINしなくても分析しやすいデータだったのでうまくいった可能性がある。これが大規模データだとどのように振る舞うのかは検証してみたい。
- とはいえ、AIフレンドリーなデータ基盤を構築するのはとても大事そうだと改めて実感した

育休の振り返り

2025-12-05T11:57:37+09:00

先日、第1子が誕生し、約3ヶ月間の育休を取得しました。

普段仕事で「家族」や「ママ・パパ」に向き合っている僕ですが、ついに自分自身がその当事者となりました。

この3ヶ月間育児に携わって感じたこと、体験、気づきについて簡単に振り返ってみようと思います。

本記事はコネヒト Advent Calendar 2025の5日目のエントリーです

出産
3ヶ月間のスプリント（時系列の過ごし方）
子育てをして改めて気づいたこと
「静」の疲労と「動」の回復
かわいいは正義
最後に

出産

出産は計画無痛分娩でした。出産予定日の数日前からお休みをもらっていたこともあり、無事、出産にも立ち会うことができました。

子供が産まれた瞬間、大袈裟ではなく、本当に「後光」が差して見えました。「感動」という言葉はこの日のためにあるんじゃないか？と思うほど感情が揺さぶられました。

その日は帰りの時間が遅くなり電車がなかったので、タクシーで帰りました。

その足で「日高屋」に入りひとりでビールを煽りました。この時のビールの味は一生忘れないと思います。（ちなみに、日高屋で1人祝杯をあげていたことは妻に話していません。この記事が公開されるとバレると思います）

至高の一杯

3ヶ月間のスプリント（時系列の過ごし方）

育休期間をざっくりフェーズ分けすると、以下のような感じでした。

振り返ってみると一瞬でしたが、この3ヶ月ですら子供の成長は凄まじいです。昨日までできなかったことが急にできるようになったり、買ったばかりの服がもうパツパツになったり・・・嬉しいと同時に寂しさと、一瞬一瞬の大切さ、みたいなものをしみじみと感じました。

1ヶ月目

最初の1ヶ月は外出も最低限。妻と2交代制のシフトを組みました。

僕はAM5〜6時頃まで起きている「夜勤担当」。そこから妻にバトンタッチして就寝し、昼12時頃に起きる生活をしていました。

Nano Banana作

深夜の孤独な時間は、Netflixが相棒でした。

主に海外ドラマを見ていたのですが、「ペーパー・ハウス」というドラマが面白かったです。（「プリズン・ブレイク」などが好きな方は楽しめると思うので、ぜひ！）

2ヶ月目

子供が夜に結構寝てくれるようになり、家族3人で寝られるようになりました。

とはいえ深夜に一度は空腹アラート（泣き声）が鳴るので、そのタイミングでミルクをあげるのが僕の役目でした。

ほぼ母乳育児だったこともあり、2ヶ月を過ぎてから僕がミルクをあげられるのはこの深夜の1回きりでした。眠気で白目になりつつも必死にミルクを吸う子供の姿を見るのが密かな楽しみでした。

この頃になるとタミータイム（うつ伏せ練習）で首も少しずつですが安定し始めました。

ただ、寝かしつけは結構ハードモードで、寝かそうとベッドに連れていくと黄昏泣きが30分〜1時間ほど続きました。

Nano Banana作

3ヶ月目

子供が自分の体を認識し始め、手をじっと見たり、おもちゃを掴んだりし始めました。

特に「ぞうきんのうた（ラ・ラ・ラぞうきん）」への反応が異常に良く、手遊びをするとニコッーーーっと笑うのが最高でした。手遊びは妻が積極的に調べて実践してくれていたので、そのおかげだと思います。

この頃には寝かしつけも比較的楽になり、母乳を飲んだらベッドに連れていき、メリーを付けて数分経つと自分で寝てくれることが増えてきました。（たまにぐずるときもありますが）

Nano Banana作

子育てをして改めて気づいたこと

外出のハードルが上がる

大人だけなら「出かけよう」と思ってから30分もあれば家を出られると思います。

しかし、子供がいるとそうはいきません。

前回のミルクは何時間前か？（外出中にお腹減らないかな？）
おでかけバックのおむつの在庫はある？
着替えなどは荷物にちゃんと入ってる？
移動手段は抱っこ紐かベビーカーか？

などなど・・・

これらが自分の準備にプラスαされるので、家を出発するまでにいくつもハードルがあります。（準備中に子供のおむつ替えが発生する、なんてこともありました）

上下移動が大変

ベビーカーでの移動において電車を使用する場合は、必然的にエレベーターを探す必要があります。

僕が体験した中で一番大変だったのが日比谷駅でした。

千代田線から日比谷線への乗り換え。これがもう鬼畜レベルの難易度で、乗り換えだけで15分はかかりました。（普通なら3分くらいで乗り換えられます）

漫然と「エレベーター移動って大変だろうな」とは思っていましたが、めちゃくちゃ解像度があがりました。普通に生活していたら絶対気づかない視点だったと思います。

ワンオペ外出の課題

積極的に子供と2人きりでの外出にもトライしてみましたが、いろんな課題がありました。

中でも以下2点は結構困りました。

トイレに行きずらい問題

ベビーカーだと多目的トイレが必須です。また、抱っこ紐の場合、抱っこ紐を装着したまま個室でギリギリ可能か…!?という温度感です。親が2人いればどちらかが見ていれば良いのですが、1人だと結構ハードル高いなと思いました。

もしこれから子供と2人で外出しようとしている方がいたら「自宅で抱っこ紐を付けたまま用を足す練習（リハーサル）」をしておくことをおすすめします。現場でのぶつけ本番はそこそこリスクがありそうです。

ゆっくり休める場所が少ない

子供はいつ泣き出すか分からないランダム要素の塊です。

散歩で少し疲れたからカフェでも入って休もうかな〜と思い入店するも、静かなカフェで泣かれた時のプレッシャーは凄まじく、10分で撤退したこともありました。その時は熱いコーヒーを一気に飲んで退店しました。

「乳幼児連れ限定カフェ〜子供は泣き放題！〜」みたいな場所があれば、間違いなく頻繁に利用していたと思います。

外食における「海鮮丼」最強説

以前、仕事でのユーザーインタビューで「なぜ外食時のテーブルで、子供はママの横に座るのか？」という話を聞き、「確かに」と思ったことがありました。

そこで、3人で外食に行く際は、意図的に僕の隣に子供を配置してみました。

そこで分かったこととしては

温かいものを頼んではいけない（冷める可能性が高い）
料理を味わう余裕が少ない（常に子供の挙動監視に脳のCPUを持っていかれる）

ということです。

子供がグズると食事は中断され、復帰した頃には料理は冷めきっています。

そんな中でおすすめな料理としては「海鮮丼」です。冷めても味の劣化が少なく、スプーンでかき込めます。栄養バランスも良いので、30半ばの僕としては最高の料理だと思いました。

「静」の疲労と「動」の回復

1ヶ月検診までの生後1ヶ月間は、変な菌を持ち込んだら大変ということもあり、ほぼ外出せずに自宅に引きこもって生活していました。その結果、僕のメンタルに異変が生じました。

「何をしても楽しくない」という状態になり、妻にも「表情が『無』だよ」と心配される始末。

今振り返ってみると、いわゆる「産後うつ」に近い状態だったのかも？しれません。（産後うつは男女ともになる可能性があります*1）

妻が「飲みに行っておいでよ」と背中を押してくれたということもあり、1ヶ月検診が過ぎてからは定期的に外に出るようにしました。ここで変に意地を張って「大丈夫」と言わなくて良かったと思います。自分が壊れたら一番被害を受けるのは妻と子供なので。

また、育児は「静」の疲労が溜まりがちかなと思います。（少なくとも僕はそうでした）

「静」の疲労は「動」で回復するのが良いという噂だったので、毎日のランニングや自重トレーニングを取り入れました。これで徐々に元気を取り戻せました。

育児はキャリアと同じで長距離走です。短距離走のペースで走るとどこかで息切れするタイミングがあります。

自分に合った回復方法（リカバリー策）を見つけ、パートナーとお互いにフォローし合う体制が何より重要だと実感しました。

かわいいは正義

赤ちゃんはすごいです。（突然

「かわいいだけで全部許せる」という強力な機能を実装して誕生してきます。

人類を作った何者かは、賢い奴だなと思いました。脳が赤ちゃんを「守りたい」と思うように設計していると思います。

それと同時に、これほど可愛く素晴らしい存在が減っていく「少子化」という現象は、できればどうにかしたいな、と思う気持ちも強まりました。

最後に

3ヶ月の育休最終日、妻に「どうだった？」と聞いたところ、「助かった、ありがとう」と言ってもらえました。子供と妻が元気でいてくれる。それだけで、育休を取って良かったと心から思いました。

快く育休を承諾してくれた会社にも感謝しています。（ありがたいことに、本当に3ヶ月で良いの？という話もしてくれました）

この3ヶ月で得た体験も元に、PdM・エンジニアとして、これからも家族を支えるプロダクト作りに励みたいと思います。

*1:https://kokoro-therapy.clinic/blog/%E5%A4%AB%E3%82%82%E3%81%AA%E3%82%8B%E3%80%8C%E7%94%A3%E5%BE%8C%E3%81%86%E3%81%A4%E3%80%8D%E3%81%A8%E3%81%AF%EF%BC%9F

2024年振り返り〜PdM/データ基盤/ハーフマラソン/マンションダッシュボード/ソファなど〜

2024-12-31T23:21:10+09:00

2024年はどんな年だったかざっくり記録に残しておこうと思います。

お仕事
プライベート
買ってよかったもの

お仕事

今年はいろいろ変化があった年でした。

PdMをやりはじめた

10月からEM業は後任の方にバトンパスし、アプリのPdMをやりはじめました。

エンジニアとの兼務は脳みその使い方がそこそこ違うので正直大変ではあるのですが、新しい発見や学習ができていると同時に、一定のストレスがあり良い状態だと思っています。

会社のビジョンとつながりを持たせたプロダクトの戦略・KPIを考え、そこに向かってどのような戦術でアプローチするのか？など、脳みそに汗をかきながらやっていました。

戦略やその実行については、有名どころではあると思うのですが以下のような書籍を再度読み返したりしました。

Lean Analytics ―スタートアップのためのデータ解析と活用法 (THE LEAN SERIES)

作者:アリステア・クロール,ベンジャミン・ヨスコビッツ
オライリージャパン

良い戦略、悪い戦略 (日本経済新聞出版)

作者:リチャード・Ｐ・ルメルト
日経BP

ジョブ理論　イノベーションを予測可能にする消費のメカニズム

作者:クレイトン・Ｍ・クリステンセン
ハーパーコリンズ・ジャパン

INSPIRED 熱狂させる製品を生み出すプロダクトマネジメント

作者:マーティ・ケーガン,佐藤真治,関満徳
日本能率協会マネジメントセンター

また、MVPについても深く考える機会もありました。

MVPについて語られる時によく見る絵は以下だと思います。

ですが、僕が思っているMVPは以下の方がニュアンスが近いな、ということを認識できたことは大きな収穫でした。

MVPは名前の通り、最低限実用可能なものを作って届けないとダメだと思っており、先の例のスケートボードは自動車のMVPではなく、手動車（自分が動力となって動かせる車）のMVPの方が近いよな、と思うなどしていました。

車のMVPなら、最低限 "自動"で動く何かしらは最初から体験としてないと、それが本当に価値があるかどうか検証するの難しいよなと。

データ基盤

今まではMLや検索周りエンジニアリングを中心に仕事をしていましたが、今年はデータ基盤構築もコツコツと実施しました。

ほぼ0からの構築でしたが、MLエンジニア人格とPdM人格といった、データが肝となる2つの目線から、「使われるデータ基盤を作ることを優先する」ができたのは良かったです。

ただ、アウトプットはあまりできなかったので、2025年はデータ基盤周りのアウトプットもしていきたいと思います。

アウトプットまわり

ありがたいことに幾つかのイベントで登壇の機会をいただきました。

PyCon JP 2024

Recommendation Industry Talks #3

[オン] ランニングシューズ Cloudmonster 2 Black | Frost メンズ 27.0 cm

プライベート

仕事以外では、学生の時ぶりに20km以上走ったり、趣味のマンション探しを楽しくするダッシュボードを作ったりしていました。

ハーフマラソン

10月に実施された横浜マラソンに、会社の同僚とペアマラソンという枠で出場しました。

自分が前半の走者で21km時点でバトンを同僚に渡す形だったのですが、なんとか完走できて良かったです。

完走したぞおおお
（右膝と左足親指爪はお亡くなりになりました、、、）#横浜マラソン pic.twitter.com/YSVz2rUO3A
— takapy | たかぱい (@takapy0210) 2024年10月27日

ただ、目標の2時間切りはできなかったので、来年3月に実施される立川ハーフマラソンでリベンジしようと思います。

マラソンにあたり以下のシューズを購入したのですが、マラソンシューズの常識が変わったので、これからマラソンしようとしている方はぜひ検討してみてください！

On(オン)

De'Longhi (デロンギ) 全自動コーヒーマシンマグニフィカS ECAM22112B コーヒーメーカー全2メニューカフェジャポーネ搭載アイスコーヒー豆から挽きたて簡単お手入れ手動ミルクフロッサーブラックデロンギファミリー登録で3年保証

マンション探しダッシュボード

僕はマンションが趣味の1つなのですが、関東圏でマンション探しているユーザーが使えるダッシュボードを作ったりしていました。

現在は知人に使ってもらってFBを集めていたりします。
そして2025年中にはwebサービスとして公開したいなぁと思っています。

もし開発周りで興味がある方いれば、ぜひご連絡ください・・・！
絶賛マンション探しています！という方で「ダッシュボード使ってみたいぞ」という方の連絡もお待ちしております。

ワイBQに貯めているデータから、築15年以内の3LDK中古マンション引っ張って坪単価別にマッピングしてみた

都心が赤いのはもちろんだけど、それ以外に色が濃い地域にも一定の納得感ある（※成約価格ではなく、売り出し価格）

Looker Studioだとこの辺シュッと可視化できて便利だ（しかも無料 pic.twitter.com/PEOPK1ruXv
— takapy | たかぱい (@takapy0210) 2024年7月15日

軽井沢旅行

軽井沢のちょっといい旅館？に泊まりました。焚き火が最高でした。

料理に出てきた檜ジュース？は樹液の味がしました（）

遅めの夏休み pic.twitter.com/0NbYd3z4a6
— takapy | たかぱい (@takapy0210) 2024年9月19日

www.fufukaruizawa.jp

舞台

ハリーポッターの舞台や、美女と野獣の劇団四季の舞台を見にいきました。
舞台は役者さんと同じ空気が吸えるので、個人的には映画より好きです。（値段がそこそこするので頻繁には行けませんが・・・）

どちらの舞台も最高でした！来年もいくつか観に行きたい。

ハリーポッターの舞台見てきた
楽しかった🪄 pic.twitter.com/1hUL6kVq7n
— takapy | たかぱい (@takapy0210) 2024年8月10日

買ってよかったもの

最後に恒例買って良かったものを紹介します。
総じて、毎日使うものは多少高くても良いものを買うとQOLが爆上がりするな、と思いました（n番煎じ）

デロンギのコーヒーマシン。エスプレッソを毎朝飲めるので最高。

De'Longhi(デロンギ)

HUAWEI FreeClip ワイヤレスイヤホン Bluetooth オープンイヤーイヤーカフ型 3段階音量調整耳を塞がないイヤホン軽量約5.6g(本体) 音漏れ防止マイク付き通話ノイズリダクション 36時間再生左右自動認識 IP54防塵防滴ワイヤレス/急速充電マルチポイント接続ブラック

リーン・ロゼのソファー。クソ高かったけど、毎日座るので最高。（気に入りすぎて2人用と1人用の2種類買ってしまった） www.ligne-roset.jp

HUAWEIのワイヤレスイヤホン。オープンイヤー型だし、軽いし、左右の概念がないし、毎日使うので最高。

HUAWEI(ファーウェイ)

NULL ボディーソープメンズ体臭背中ニキビを防ぎ加齢臭を抑える柿渋エキス配合 400mL

ボディソープと洗顔。総じて匂いや肌の調子が良い気がするし、毎日使うので最高。

ＭＥＮＳＮＵＬＬ

【医薬部外品】 Mr. オルビスミスターフォーミングウォッシュオイルコントロールメンズ男性用 120g 2.医薬部外品 1.洗顔単品

アンビークオールインワンプロテインホエイヨーグルト風味ビタミン11種配合ミネラル4種配合国産 1kg (ヨーグルト, 1kg×1個)

何種類か試したが一番美味しかったプロテイン。毎日飲むので最高。

AMBiQUE

Anker 733 Power Bank (GaNPrime PowerCore 65W) (10000mAh 30W出力モバイルバッテリー搭載 USB充電器)【独自技術Anker GaNPrime採用/USB Power Delivery対応/PSE技術基準適合/USB-C入力対応 / 65W出力】iPhone 16 / 15 MacBook iPad その他機器対応 (ブラック)

モバイルバッテリー一体型の充電器。PC持ち歩く時にモバイルバッテリーと充電器1つずつ持っていたが、これを購入したことで1つで済む（その分少し大きめだが）毎日は使わないけど、最高。

Anker

それではみなさん良いお年を！！！

pythonを使ってDynamoDBの複数テーブルから非同期でデータ取得してみる

2024-03-16T20:39:19+09:00

こんにちは。たかぱい（@takapy0210）です。

DynamoDBの複数テーブルからなるべく高速にデータを取得するために、非同期でデータ取得することはできるのか？を少し調べてみたのですが、あまり事例が無かったのでメモ程度に残しておきます。

ユースケースとしては、例えば user_id をkeyとしたテーブルが複数あり、それぞれからデータを取得し、最終的なレスポンスを生成したい場合などに使えるかと思います。

一般的なデータ取得方法
boto3のAPIを非同期で使えるaioboto3ライブラリ
非同期でDynamoDBからデータ取得する

一般的なデータ取得方法

まず初めに、boto3を使ってDynamoDBからデータを取得する方法をみていきます。

後述する非同期処理の恩恵が分かりやすいように、sleepを入れて意図的に時間がかかるようにしています。

import time
import boto3

dynamodb = boto3.resource("dynamodb")

def get_item_from_table_sync(table_name, key, delay):
    """DynamoDBからデータを取得する"""
    time.sleep(delay)  # 意図的にsleepを入れている
    table = dynamodb.Table(table_name)
    response = table.get_item(Key=key)
    return response.get('Item')

def main_sync():
    user_id = xxxx
    results = []
    start_time = time.time()

    # 1つ目のテーブルから取得
    dynamo_response = get_item_from_table_sync(
        table_name="dynamo_tableA",
        key={"user_id": user_id},
        delay=10
    )
    results.append(dynamo_response)

    # 2つ目のテーブルから取得
    dynamo_response = get_item_from_table_sync(
        table_name="dynamo_tableB",
        key={"user_id": user_id},
        delay=7
    )
    results.append(dynamo_response)
    
    print("Total time:", time.time() - start_time)
    return results

result = main_sync()

# >>> Total time: 17.16487693786621

上記処理は各テーブルからデータ取得する際に10s、7sのディレイを入れているので、合計の処理時間は17秒ほどかかります。

次に、これを非同期処理に書き換えてみます。

boto3のAPIを非同期で使えるaioboto3ライブラリ

探してみると、aiboto3というboto3 と aiobotocore を組み合わせたaioboto3というラッパーがあったので、これを利用していきます。

今回はDynamoDBしか使用していませんが、READMEを読む限りS3やAthenaなども非同期で扱うことができるようです。

非同期でDynamoDBからデータ取得する

以下ではpythonのasyncioという標準ライブラリを使って非同期処理（並行処理）をしていきますが、asyncioそのものについては触れませんので、気になる方は公式ドキュメントなどを参照してみてください。

docs.python.org

import time

import asyncio
import aioboto3


async def get_item_from_table_async(dynamo_resource, table_name, key, delay):
    """DynamoDBからデータを取得する"""
    await asyncio.sleep(delay)
    table = await dynamo_resource.Table(table_name)
    response = await table.get_item(Key=key)
    return response.get('Item')

async def main_async():
    user_id = xxxx
    start_time = time.time()
    
    session = aioboto3.Session()
    async with session.resource('dynamodb', region_name='ap-northeast-1') as dynamo_resource:
        # 同時に実行する非同期タスクのリスト
        tasks = [
            get_item_from_table_async(dynamo_resource, 'dynamo_tableA', {'user_id': user_id}, 10),
            get_item_from_table_async(dynamo_resource, 'dynamo_tableB', {'user_id': user_id}, 7),
        ]
 
        # asyncio.gatherを使用して複数のタスクを同時に実行し、結果を取得
        results = await asyncio.gather(*tasks)

    print("Total time:", time.time() - start_time)
    return results
    
# jupyterなどから実行する場合は関数に直接 await をつけて実行する必要があります
# .pyで実行する場合は. asyncio.run(main_async())のように記述します
result = await main_async()

# >>> Total time: 10.13998532295227

上記処理を実行すると、処理時間は10秒ほどになり、うまく非同期処理ができていることが分かります。

DataformをGoogle Cloud上から触ってみる（rawデータから集計テーブルを作るまで）

2024-01-04T17:43:21+09:00

たかぱい（@takapy0210）です。

正月にGoogle CloudのDataformをゴニョゴニョ触っていたので、その備忘録を残しておこうと思います。

Dataformとは
- dbtとの違いは...？
使用したデータ
実際に動かしてみる
おわりに

Dataformとは

SQL likeなコード（SQLX）でテーブルやビュー作成クエリを記述することで、テーブル間の依存関係を管理することができるデータモデリングツールです。同じようなツールではdbt*1が有名だと思います。

Dataformは、以前は独立したSaaS サービスでしたが、2020年12月にGoogle傘下に加わり、2023年6月6日にGAになりました。 cloud.google.com

2024/01 現在はBigQueryデータのモデリングツールとして、Google Cloud 管理コンソールから実行できるようになっています。

dbtとの違いは...？

Googleで検索するといくつか記事がヒットすると思いますが、

dbtは機能が豊富でコミュニティも大きいが、学習コストがそこそこ高い
Dataformは学習コストや運用コストは低い（Google Cloud上であれば無料で実行できる）が、dbtと比べると機能面で劣る

ということが言われているかと思います。

今回は個人開発で使用する目的なので、学習コストと運用コストが低いDataformを導入しました。

使用したデータ

今回は僕が趣味で集めている都内のマンション情報のデータが既にBigQueryにあるので、そのRawデータから区ごとの平均坪単価などをDataformで集計して、データマートに自動的に保存するところまでやってみます。

データのイメージ

実際に動かしてみる

以下のクイックスタート通りに動かしてみると、全体的な動きがある程度理解できるかと思います。

実際の開発画面

基本的な設定を記載する「dataform.json」

開発ワークスペースを初期化するとデフォルトでいくつかファイルが生成されますが、基本的な設定は dataform.json に記述されています。

{
  "defaultSchema": "dataform",
  "assertionSchema": "dataform_assertions",
  "warehouse": "bigquery",
  "defaultDatabase": "hoge",
  "defaultLocation": "asia-northeast1"
}

defaultSchema: Dataform がアセットを作成する BigQuery データセットを指定する
assertionSchema: Dataform がアサーション結果を含むビューを作成する BigQuery データセットを指定する
warehouse: Dataform がアセットを作成する BigQuery へのポインタ。”bigquery” を指定する
defaultDatabase: Dataform がアセットを作成する Google Cloud プロジェクトIDを指定する
defaultLocation: デフォルトの BigQuery データセットのロケーションを指定する

Dataformのディレクトリ構成はどうするのが良いのか

買収前の従来のDataformのドキュメント*2には、definitions ディレクトリ配下に「Sources」、「Staging」、「Reporting」を用意することが推奨されていますが、Google Cloudのドキュメントには、ベストプラクティスとして以下のような構成が推奨されています。

sources: データソース宣言を格納
intermediate: データ変換ロジックを格納
outputs: 出力テーブルの定義を格納
extras - 追加のファイルを格納（省略可）

今回はGoogle Cloudのベスプラに倣い、以下の構成で開発しました。

Google Cloud上の開発画面から見るディレクトリ構成

実際に記述するsqlxのコード

今回は以下の2つを追加しています。

definitions/sources/mansion.sqlx
definitions/outputs/day_aggregated_by_city.sqlx

definitions/sources/mansion.sqlx

ここではDataformで管理するテーブルを定義します。declarationを使ってテーブルを定義するのみで集計クエリなどは記載しません。

config {
    type: "declaration",
    database: "hoge",
    schema: "lake",
    name: "mansion"
}

Dataformのクエリで直接 SELECT * FROM project-id.dataset.table のように書くことはできますが、直接参照だとデータリネージで自動的に可視化されないので利用するテーブルはここで定義することをお勧めします。

declarationで定義しておくと SELECT * FROM ${ref(test_table)} という書き方で参照できます。

definitions/outputs/day_aggregated_by_city.sqlx

ここでは、データレイク（マンション情報）からデータを集計して、データマートに新しいテーブルを作成するクエリを定義します。

前述した通り、前提となるテーブルを「${ref("mansion")} 」という記法で参照できます。Dataform におけるテーブル間の依存関係管理はこれを書くだけでOKです。

パーティションやクラスタ*3の指定も configで行えます。

config {
    type: "table",
    database: "hoge",
    schema: "mart",
    columns: {
        city: "市区町村ラベル（e.g. chuoku）",
        count: "レコード数",
        avg_price: "物件価格（万円） - 平均",
        avg_price_per_unit: "坪単価（万円） - 平均",
        avg_price_per_square_meter: "平米単価（万円） - 平均",
        stddev_price: "物件価格（万円） - 標準偏差",
        stddev_price_per_unit: "坪単価（万円） - 標準偏差",
        stddev_price_per_square_meter: "平米単価（万円） - 標準偏差",
        meta_execution_date: "処理実行日（yyyy-mm-dd）",
    },
    bigquery: {
        partitionBy: "meta_execution_date",
        clusterBy: ["city"]
    },
}

SELECT
  city,
  COUNT(*) AS count,
  ROUND(AVG(price_yen/10000), 2) AS avg_price,
  ROUND(AVG(price_per_unit/10000), 2) AS avg_price_per_unit,
  ROUND(AVG(price_per_square_meter/10000), 2) AS avg_price_per_square_meter,
  ROUND(STDDEV(price_yen/10000), 2) AS stddev_price,
  ROUND(STDDEV(price_per_unit/10000), 2) AS stddev_price_per_unit,
  ROUND(STDDEV(price_per_square_meter/10000), 2) AS stddev_price_per_square_meter,
  meta_execution_date,
FROM
  ${ref("mansion")}
WHERE
  0 = 0
  AND city IS NOT NULL
GROUP BY
  city,
  meta_execution_date

ここまでで、手動で新規テーブルを作成する準備は終わりです。コンソール上から手動実行すれば、BigQueryの mart 配下にテーブルができます。

テーブルが作成されている様子

作成されたデータ

スケジュール実行する

以下の手順に沿って設定し、自動化を行います。

手順は大きく分けて「リリース構成」の作成と、「ワークフロー構築」の2ステップあります。

リリース構成とは、リポジトリを定期的にコンパイルしてリリースする頻度を指定するものです。
ワークフロー構築とは、実際に動くワークフローを指定するものです。

注意点として、公式ドキュメント*4にも記載されているように、リリース構成で指定した時間より、ワークフロー構築で指定する実行時間を、最短でも1h開けておく必要があるようです。

Dataform が対応するリリース構成で最新のコンパイル結果を確実に実行するには、コンパイル結果の作成時刻とスケジュールされた実行時刻の間に少なくとも 1 時間の間隔を設けます。

実際の設定画面

設定後、時間が過ぎると正しく動いていることが確認できました。
ワークフロー実行のログも、コンソール上から確認できます。

ワークフロー実行のログ

Githubと連携してコード管理する

最後にGithubとの連携を行い、コードをリポジトリで管理できるようにします。

こちらも公式ドキュメントが出ているので、基本的にはこの通りに設定すれば問題なく動くと思います。

おわりに

触ってみた感じ、WebUIでの開発環境がとっつきやすく、自動フォーマットもボタン1つで行なってくれるので開発効率は良さそうに感じました。

増分モデルなども簡単に実装できそうなので、この辺もいじっていきたいと思います。

*1:https://www.getdbt.com/

*2:https://docs.dataform.co/best-practices/start-your-dataform-project

*3:https://cloud.google.com/dataform/docs/partitions-clusters?hl=ja

*4:https://cloud.google.com/dataform/docs/quickstart-schedule-production-executions?hl=ja#create-workflow-config

予期的UXという概念がとてもしっくりきた話

2023-12-17T08:27:33+09:00

みなさんこんにちは。たかぱい（@takapy0210）です。

最近、UX白書*1で述べられている「予期的UX」という言葉を知り「まさにこのUXを上げるために試行錯誤してるんだよな〜」と、しっくりきたので、まだ完全に理解したフェーズ*2ではありますが、ここに今感じていることをメモしておこうと思います。
（ちなみに色々調べてみると、すでに素晴らしい記事が公開されていましたので、こちらを見ていただいた方が理解は進むと思います）

この記事はコネヒト Advent Calendarのカレンダー 16日目の記事です。

adventar.org

UX白書とは
予期的UXを紐解く
- ユーザーエクスペリエンスの期間図を解釈する
- つまるところ、予期的UXとは何者なのか？
おわりに
参考文献

UX白書とは

2010年にドイツでUX概念の議論が行われ、その内容が「UX白書」として世に広まったらしいです。

このUX白書では、『UXは「現象( phenomenon)として」「研究分野( afield of study)として」「実践( practice)として」などの異なった視点から捉えることができる』と述べられており、その中でも「現象としてのUX」と「実践としてのUX」にフォーカスして記されています。

また、UXとは何か、UXではないものは何か、といったUXの基礎的なな部分から、UXに影響を与える要素は何か？など、発展的な内容まで幅広く記されています。

その中でも特に印象的だったのが、商品やサービスの「利用前」から「利用後」と「全体」を期間別に分類する手法である「ユーザエクスペリエンスの期間」という概念でした。これは時間軸でUXを認識することで、「どの期間のUXなのか？」の認識合わせや相互理解を行うことができるものとなっており、この時間軸の最初に登場するのが、タイトルにもある「予期的UX」という言葉でした。

UX白書より引用

UX白書の原文はこちらから読むことができます。
ありがたいことに日本語訳されたものも公開されています。

予期的UXを紐解く

そもそもこの予期的UXってなんぞ？という話なのですが、僕は最初にみた時、サービス初回利用以前の期間の「どこでサービスを知り、どんな期待値を持ってサービスを使い始めるのか」という、いわゆる広告やプロモーション領域の話を指していると思いました。

ところが、UX白書を読んでみると以下のような記述があります。

「経験する」と「ある経験」の間にある差とは、 UXに焦点を当てるときに適切な期間の差なのかという疑問が生じます。極端に言えば、誰かが非常に短い一瞬に何を経験するか、例えば利用中の直感的な反応などに焦点を当てることも可能でしょう。またその一方で、何ヶ月かのもしくはそれ以上におよぶ体験の中で、利用中のエピソードや利用していない時間を通して形成される、累積された経験に焦点を当てることも可能でしょう。その結果、UXは、インタラクション中に感じる感情の特定の変化 (一時的UX )、ある特定の利用エピソードに関する評価 (エピソード的UX )、特定のシステムをしばらくの期間利用した後の見方(累積的UX)で表されます。 予期的UXとは、ユーザーにとっての初めての利用よりも前の期間、あるいは上述の3つのUXの期間よりも以前のことだと言えます。 なぜなら、人はインタラクション中のある特定の瞬間、利用エピソード、システムの利用経験後の生活を想像するかも知れないからです。

なので、予期的UXは

サービスの初回利用以前の期間
「一時的UX」「エピソード的UX」「累積的UX」といった各UX期間の前

のことを指していることが分かります。

ユーザーエクスペリエンスの期間図を解釈する

ここでもう一度先に挙げた図を見てみます。

これを見てみると、いくつか矢印が出ていることが分かります。

矢印は「自身からループしている矢印」と「前の区分から出ている矢印」の2種類があります。

ここで注目したいのは、予期的UXには自身からのループ以外に、別の区分それぞれから3本の矢印が向かってきているということです。

Webサービスに限らず、日常的に、ある体験の前には必ず予期的な体験（いわゆる期待値的なもの）があり、それは、それ以前の体験から影響を受けるという感覚は自然に感じます。

例えば、Youtubeを開くときは以前の体験から期待する予期的UXがあり起動という行動を起こしますし、そこでまた新しい体験をすることで、次回の予期的UXが創られているんだと思います。
「またディズニーランドに行きたい！」と思うのは、過去の体験が素晴らしいものであり、あのアトラクションに乗りたい、あのショーが見たい、日常を忘れたい、など「あの体験をもう一度」みたいなことを思う方が多いのではないでしょうか。

UX白書の中でも以下のように述べられています。

UXはライフサイクルや旅のようなものとして構造化することもできます。例えば、初めての出会いから、何度か使ってみた時のエピソードを経て、使っていた時のことを思い返すという構造です。これまでに使ってきた経験はこれからの使い方に影響をおよぼします。例えば、何かを使ってみた一回の経験を思い返し、それを語ることによって、今後の使い方が予測されるでしょう。さまざまな経験がいろいろな順番で互いに幾重にも重なり合い、利用前に想像していた状態から利用後にあれこれ思い返す状態まで、UXに決まった流れはないのです。

利用と非利用の期間からなる、時の経過につれたUX

そう言った意味でも、「サービス初回利用以前の期間」だけでなく、サービスを継続的に利用している中でも、この「予期的UX」は必ず通る道となっていそうです。

つまるところ、予期的UXとは何者なのか？

予期的UXは体験の中でも唯一行動（サービスの利用）に影響を及ぼせるものだと言えそうです。

サービス内での素晴らしい成功体験（一時的UX・エピソード的UX）や、長期的に構築したブランド（累積的UX）なども、予期的UXを通して影響するものと言えそうです。

そう考えると、何事もこの予期的UXにフォーカスして設計するのが大事そうです。

おわりに

僕はこの概念を知る前までは「サービスを起動する前の期待値を上げる」みたいな言い方をしていましたが、それがまさに今回の予期的UXなのでは？と感じています。

予期的UXも結局のところ考え方の1つで、「予期的UXを上げるための体験ってどういうものがあるのかな？」とか、「こういう予期的UXがあると行動してくれそうだよね」という会話の一部として使っていくのが良いのではないかと思いました。

参考文献

*1:https://site.hcdvalue.org/docs

*2:https://jp.quora.com/%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9E%E3%83%BC%E3%81%8C%E4%BD%BF%E3%81%A3%E3%81%A6%E3%81%84%E3%82%8B%E7%8B%AC%E7%89%B9%E3%81%AA%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%9E%E3%83%BC%E7%94%A8%E8%AA%9E

FastAPIで特定エンドポイント（Path）のログを出力しない方法

2023-07-31T18:13:15+09:00

最近FastAPIに触る機会があり、ログ周りで少し躓いたので備忘録として残しておきます。

背景
- 補足
特定エンドポイントのログをフィルタリングする方法
おまけ
- Uvicornのログをjson形式で出力する方法
- エンドポイント毎のレスポンスタイムを計測する方法

背景

UvicornでFastAPIアプリケーションを実行する場合、デフォルトではリクエストごとにログを出力し続けます。

実際に、AWS ECSにデプロイしたFastAPI サービスでCloudwatch へログ出力してみると、ALBがヘルスチェック用のエンドポイントにリクエストを送る度に、"200 OK "と出力されてしまい、ログの可読性がなかなか辛い感じになりました。

そこで、ヘルスチェックに使用するエンドポイントなど、出力したくないログをフィルタリングできないかな？と思い色々調べました。

補足

Uvicornは以下のように起動することができます。

# portryで実行する例
poetry run uvicorn app.api:app --host 0.0.0.0 --port 9010 --reload

この状態でFastAPIの特定エンドポイントにアクセスすると、以下のようなログがデフォルトで出力されます。

INFO:     127.0.0.1:34954 - "GET /ping HTTP/1.1" 200 OK

特定エンドポイントのログをフィルタリングする方法

以下のように、フィルタするクラスを作成します。

import logging


class EndpointFilter(logging.Filter):

    def __init__(self, excluded_endpoints: list[str]) -> None:
        self.excluded_endpoints = excluded_endpoints

    def filter(self, record: logging.LogRecord) -> bool:
        """
        Filter関数
        record.argsには ('127.0.0.1:51632', 'GET', '/ping', '1.1', 200) のような内容が入っています
        """
        return record.args and len(record.args) >= 3 and record.args[2] not in self.excluded_endpoints

あとは、loggerを作成するタイミングで以下のようにフィルタを追加するだけでOKです。
これで /ping にアクセスがあった場合はログ出力されず、 /testへアクセスがあった場合はログ出力されます。

import logging
from fastapi import FastAPI
from log_filters import EndpointFilter

app = FastAPI()

# 除外したいエンドポイントを指定
excluded_endpoints = ["/ping"]

# フィルターを追加
logging.getLogger("uvicorn.access").addFilter(EndpointFilter(excluded_endpoints))

@app.get('/ping')
def ping():
    print('ping endpoint')

@app.get('/test')
def test():
    print('test endpoint')

おまけ

ログ周りで今後使えそうなTipsもついでに残しておきます。

Uvicornのログをjson形式で出力する方法

以下のようにログフォーマットファイルをyamlで定義しておくことで、json形式で出力することができます。
Amazon CloudWatchなどにログ出力する場合、CloudWatchのコンソール上でjsonをいい感じにパースして見ることができるので、（場合にもよりますが）jsonで定義しておくとメリットが大きいと思います。

pythonjsonlogger.jsonlogger.JsonFormatter を使用するには、python-json-logger のインストールが必要なので、あらかじめインストールしておきます。

version: 1
disable_existing_loggers: false

formatters:
  json:
    format: "%(asctime)s %(levelname)s %(message)s %(filename)s %(module)s %(funcName)s %(lineno)d"
    class: pythonjsonlogger.jsonlogger.JsonFormatter

handlers:
  console:
    class: logging.StreamHandler
    level: INFO
    formatter: json

root:
  level: INFO
  handlers: [console]

この状態で--log-configオプションをつけて実行することで、Uvicornのログもjson形式で出力されます。

# portryで実行する例
poetry run uvicorn app.api:app --host 0.0.0.0 --port 9010 --reload --log-config ./app/loggers/logger_config.yaml

エンドポイント毎のレスポンスタイムを計測する方法

FastAPIにはミドルウェアという概念があり、すべてのリクエストに対して、それがあらゆる特定のPath Operationによって処理される前に機能する関数を定義することができます。

これを使い、以下のように記述することで、レスポンスタイムやその他の情報をログに出力しておくことができます。

from fastapi import FastAPI


app = FastAPI()


@app.middleware("http")
async def process_time(request: Request, call_next):
    """リクエストの処理時間などを表示するミドルウェア関数
    /pingエンドポイントは除外している
    """
    start_time = time.time()
    response = await call_next(request)
    request_log = {
        "method": request.method,
        "url": request.url.path,
        "query_params": request.query_params,
        "path_params": request.path_params,
        "status_code": response.status_code,
        "response_time": time.time() - start_time,
        "client": request.client,
    }
    logger.info("Response Log", extra=request_log)
    return response

ちなみに、FastAPIを学ぶ際に以下の本に大変お世話になったので、これからFastAPIを触ってみるかたにはおすすめです！

動かして学ぶ！Python FastAPI開発入門

作者:中村翔
翔泳社

おわり

2022年の振り返り

2022-12-19T01:52:30+09:00

みなさんこんにちは。たかぱい（@takapy0210）です。

年末も近づいてきましたので、久しぶりに今年の振り返りでもしていこうと思います。

この記事はコネヒト Advent Calendarのカレンダー 17日目の記事です。

お仕事
プライベート
2023年は？

お仕事

夏頃まではガッツリ開発しつつ、ここ2ヶ月くらいは今までとは少し異なる働き方にチャレンジしてみています。

オンボーディング改善

上半期は主にレコメンデーションの改善に取り組んでいましたが、中でもオンボーディングには力を入れて取り組んでいました。

この施策は数値的にもポジティブでしたが、より良いプロダクトにしていくためにも改善を続けていこうと思います。

tech.connehito.com

A/Bテストの標準化

開発以外の部分で言うと、社内のABテスト標準化へ向けた取り組みも行いました。
今ではこの標準化ドキュメントがたくさん蓄積されており、未来への資産がどんどん溜まっていっています。

tech.connehito.com

機械学習の取り組みを見える化

仕事で扱っているデータや機械学習タスクについてイメージしやすくするために、紹介資料を作ったりもしました。
実際に「この資料見て、カジュアル面談申し込みました！」など、いくつか反響も頂き嬉しかったです。

tech.connehito.com

新しい役割へのチャレンジ

冒頭でも触れましたが、直近2〜3ヶ月は、プロダクトマネジメントやピープルマネジメントといった役割にチャレンジしています。
とはいえ、どちらもまだまだヒヨっ子なので、チームメンバーや先人の知恵をお借りしながら、トライ&エラーの精神で取り組んでいたりします。

書籍で言うと、有名なものもありますがこの辺を読みました。

amzn.to

登壇

振り返ると、2つのイベントで登壇の機会をいただきました。

みんなのPython勉強会#85

ありがたいことに、運営の方にお声がけいただきお話をしました！オンライン登壇でしたが、運営の方のおかげでストレスなく話すことができました。参加者の方々含めてありがとうございました。

startpython.connpass.com

資料はこちらです

PyConJP 2022

昨年に引き続き機会に恵まれたので、PyConJPでもお話ししてきました。

僕自身、数年ぶりのオフラインイベントということもあり、お久しぶりの方はもちろん、初めましての方やいろんな企業の方と対面でコミュニケーションを取ることができて、とても良い体験でした。（この時のご縁で、新しいイベントをやる機運に恵まれたりしました・・・詳しくは年明けに発表できると思います！）

2022.pycon.jp

こういうの、オフラインイベントみがありますよね〜

2等当たった#pycon_findy pic.twitter.com/cYWRUp7y2O
— takapy | たかぱい (@takapy0210) 2022年10月14日

プライベート

最後に少しプライベートなことも

Podcastのエピソード数が100を超えた

友人と 2020年5月から軽い気持ちで始めたPodcastも、気づけば2年継続し、合計のエピソード数も100を超えました。

\ #podcast 更新しました🎙 /
エピソード：#100 100回記念！過去エピソードを振り返りながらこれからの話とか

お便りはこちら↓からお待ちしております！
📮 https://t.co/N2VsZ8XdWS
🔖 #wipfm https://t.co/zfVeeims03
— Work In Progress / wip.fm 🎙 (@wipfm0509) 2022年8月28日

ゲスト出演も大募集中ですので、「ちょっと話してみたいな〜」と言う方がいましたら、TwitterのDMまでご連絡お待ちしております！

ポケモンユナイトというゲームにハマった

ポケモンユナイトというMOBAジャンルのゲームハマり、いくつか大会もでたりしました。

とある大会では準優勝したりもできました。決勝戦の緊張や興奮は、高校時代の部活を思い出してとても楽しかったです・・・！

準優勝でした🥈
対戦ありがとうございました！GG！#ポケモンユナイト pic.twitter.com/IvA7wDZZS8
— takapy | たかぱい (@takapy0210) 2022年8月28日

不動産を買った

おそらく人生で一番大きな支出となるであろう、不動産を買いました。

元々は賃貸派だったのですが、会社のマンション大好きな人の意見や、いんたーねっとのマンションクラスタの方々の意見を参考に、半住半投の気持ちで購入しました（とはいえ今の市況的に実需寄りではあります）

この辺はいろいろ試行錯誤したので、気が向いたらブログにでも書こうと思います。

2023年は？

お仕事では、いろいろなご縁から楽しみなことがいくつか決まっていたりするので、今から楽しみです（本当に周りの人に恵まれているなぁとつくづく思います）

あとは、いい加減に痩せようと思います。

Luigiを使って機械学習パイプラインを構築する3つのメリット

2022-03-22T17:04:13+09:00

みなさんこんにちは。たかぱい（@takapy0210）です。

本エントリでは、（今更ながら）Luigiを使ってみて感じたメリットをつらつら書いています。
最後にはTitanicのコードを使って実際の機械学習パイプラインを構築してみた例も載せているので、よければ参考にしてみてください。

Luigiとは
Luigiを使うメリット
使用する上でのTips
- requiresはデコレータを用いる
- 任意のフォーマットでログ出力する
ブラウザからパイプラインの実行結果の可視化をしてみる
実際のコンペデータをLuigiフレームワークに載せてみる
最後に
参考資料

本ブログで記載しているコードはGithubにもあげています。

Luigiとは

Luigiとは、SpotifyがOSSとして開発しているpythonのバッチ処理フレームワークです。
データ処理をTaskという単位で定義していき、依存関係の記述やワークフローの可視化などを行うことができます。

以下、READMEから転記

Luigi is a Python (3.6, 3.7, 3.8, 3.9 tested) package that helps you build complex pipelines of batch jobs. It handles dependency resolution, workflow management, visualization, handling failures, command line integration, and much more.

基本的に各Taskには以下3つのメソッドを実装する必要があります。

requires：自身の処理に依存する上位Taskを記述
output：自身の出力ファイルを記述
run：自身の処理内容を記述

処理のイメージとしては

outputメソッドがTrueを返す（そのTaskが既に実行済み）場合は、runメソッドを実行しない。
outputメソッドがFalseを返す（そのTaskが実行されていない）場合は、runメソッドを実行して、出力を作成する。
→この機構により、既に実行済みのTaskを再実行しなくて済むので、実験回数を向上させることができる
requiresメソッドで依存TaskのoutputがFalseを返す（依存Taskが実行されていない）場合は、先に依存Taskのrunを実行する。

という流れです。

詳細は後述しますが、記述イメージはざっくり以下のようになります。
（このタスクは依存する上位タスクが存在しないので、requiresは定義していません。）

class LoadDataset(luigi.Task):
    """データセットをロードするクラス"""

    def output(self):
        # return luigi.LocalTarget("data/titanic.csv")  # csvで出力する場合
        return luigi.LocalTarget("data/titanic.pkl", format=luigi.format.Nop)

    def run(self):
        # titanicデータの読み込み
        df = datasets.fetch_openml("titanic", version=1, as_frame=True, return_X_y=False).frame
        logger.info(f'Data shape: {df.shape}')

        # pklで出力する
        with self.output().open('w') as f:
            f.write(pickle.dumps(df, protocol=pickle.HIGHEST_PROTOCOL))

ドキュメントはこちらです。

luigi.readthedocs.io

Luigiを使うメリット

実際に使ってみて3つほどメリットを感じました。

コードのメンテナンス性向上
再現性の向上
実験回数の向上

コードのメンテナンス性向上

フレームワークに則ることでコーディングがある程度強制されるので、誰が書いても同じようなコードになります。

これはコードの保守性の観点から考えても非常に良いことだと思いました。

再現性の向上

notebookなどで処理を書いていると、セルの実行順によって処理結果が異なって発狂したことがある人も多いと思います。

この辺りはスクリプト化することである程度回避できる + Luigiフレームワークに則ることでより一層堅牢になると感じました。

実験回数の向上

言葉で説明してもわかりづらいと思うので、図を書いてみました。

下図は、TaskA（データの前処理）→TaskB（データの前処理）→TaskC（モデルの学習処理）とうパイプラインを表したものです。
この場合processing_A.pklというデータが存在しているので（TaskAは過去に実行済みと判断され）TaskAの実行はスキップされ、TaskB→TaskCという順に処理されます。

このようにoutput()に定義したオブジェクトの存在有無により、自動的にTaskを実行すべきかを判断してくれます。
例えば、TaskAの処理が数十分〜数時間かかるような場合、パイプラインを実行するたびにTaskAから実行されるのは本意ではないと思います。（もちろん、TaskAの処理を変更した場合は再実行してほしいと思うので、その場合は該当のオブジェクトを削除して再実行する必要があります）

そういった場合において、不要なTaskは自動的にスキップしてくれるので、いろいろ実験する際には役立ちそうです。

使用する上でのTips

実際に使用する際に使えそうなTipsをいくつか紹介します

requiresはデコレータを用いる

冒頭で紹介したrequires()メソッドですが以下で紹介するようにデコレートすることができます。

例えば以下のような処理を

import luigi

class TaskA(luigi.Task):

    def run(self):
        hoge...

class TaskB(luigi.Task):

    def requires(self):
        return TaskA()

    def run(self):
        hoge...

こんな感じで記述できます。ちょっとスッキリしますね！

import luigi
from luigi.util import requires

class TaskA(luigi.Task):

    def run(self):
        hoge...

@requires(TaskA)
class TaskB(luigi.Task):

    def run(self):
        hoge...

任意のフォーマットでログ出力する

冒頭で紹介したリポジトリにあるように、実行時に luigi.configuration.LuigiConfigParser.add_config_path('./luigi.cfg') という形で設定ファイルを読み込んでいます。

この中にloggerのconfigファイルを指定することで、任意のフォーマットでログ出力ができます。

サンプルとして、リポジトリに上がっている例を載せておきます。

luigi.cfg

[core]
# 不要なログを出力しないための設定
log_level=INFO
logging_conf_file=logging.conf

[retcode]
already_running=10
missing_data=20
not_run=25
task_failed=30
scheduling_error=35
unhandled_exception=40

エラー通知の設定はドキュメントにもサンプルが載っています。

luigi.readthedocs.io

logging.conf

[loggers]
keys=root

[handlers]
keys=streamHandler

[logger_root]
level=INFO
handlers=streamHandler

[formatters]
keys=simpleFormatter

[handler_streamHandler]
class=logging.StreamHandler
level=INFO
formatter=simpleFormatter

[formatter_simpleFormatter]
format=[%(asctime)s] [%(levelname)5s] %(message)s
datefmt=%Y-%m-%d %H:%M:%S

ブラウザからパイプラインの実行結果の可視化をしてみる

実行時のコマンドで、local_schedulerを使わないようにすると、ブラウザからhttp://localhost:8082/にアクセスすることで、パイプラインの実行結果を可視化することができます。

if __name__ == '__main__':
    # 設定ファイルの読み込み
    luigi.configuration.LuigiConfigParser.add_config_path('./luigi.cfg')
    # 実行
    # luigi.build([MyInvokerTask()], local_scheduler=True)
    luigi.build([MyInvokerTask()], local_scheduler=False)  # ブラウザからチェックしたい場合はこちら

可視化1

可視化2

今回の処理だと一瞬で終了してしまうので、実行中の動作は見れませんが、興味がある人は少し重い処理を実行してみると、パイプラインのステータスが変わっていく様子が見れると思うので、試してみてはいかがでしょうか。

実際のコンペデータをLuigiフレームワークに載せてみる

有名なTitanicデータを用いてデータの読み込み・前処理〜学習までのコードをLuigiのフレームワークに則って記述してみます。

コメントしているように、csvでの入出力もできたり、複数ファイルの入出力にも対応しています。（csvは型が崩れる可能性があるので非推奨ではありそうです）

import pickle
import warnings
import logging

import pandas as pd
import luigi
from luigi.util import requires
from sklearn import datasets
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score

warnings.filterwarnings("ignore")
logger = logging.getLogger()


class LoadDataset(luigi.Task):
    """データセットをロードするクラス"""
    task_namespace = 'titanic_tasks'

    def output(self):
        # return luigi.LocalTarget("data/titanic.csv")  # csvで出力する場合
        return luigi.LocalTarget("data/titanic.pkl", format=luigi.format.Nop)

    def run(self):
        # titanicデータの読み込み
        df = datasets.fetch_openml("titanic", version=1, as_frame=True, return_X_y=False).frame
        logger.info(f'Data shape: {df.shape}')

        # pklで出力する
        with self.output().open('w') as f:
            f.write(pickle.dumps(df, protocol=pickle.HIGHEST_PROTOCOL))

        # csvで出力したい場合は普通にpandasで出力する
        # 型が崩れる可能性があるので非推奨ではある
        # df.to_csv("data/titanic.csv", index=False)


@requires(LoadDataset)
class Processing(luigi.Task):
    """データの加工を行う"""
    task_namespace = 'titanic_tasks'

    def output(self):
        # return luigi.LocalTarget("data/processing_titanic.csv")  # csvで出力する場合
        return luigi.LocalTarget("data/processing_titanic.pkl", format=luigi.format.Nop)

    def run(self):
        # データの読み込み
        with self.input().open() as f:
            # df = pd.read_csv(f)  # pandasで読み込むパターン
            df = pickle.load(f)  # pickleで読み込むパターン
        logger.info(f'Before Data shape: {df.shape}')

        # 欠損値処理
        df.loc[:, 'age'] = df['age'].fillna(df['age'].mean())
        df.loc[:, 'fare'] = df['fare'].fillna(df['fare'].mean())

        # カテゴリエンコード
        categorical_cols = ["pclass", "sex", "embarked"]
        df = self.sklearn_oh_encoder(df=df, cols=categorical_cols, drop_col=True)
        logger.info(f'After Data shape: {df.shape}')

        # 学習に使用するカラムのみを出力
        use_cols = [
            'survived',
            'age',
            'sibsp',
            'parch',
            'fare',
            'pclass_1.0',
            'pclass_2.0',
            'pclass_3.0',
            'sex_female',
            'sex_male',
            'embarked_C',
            'embarked_Q',
            'embarked_S',
            'embarked_nan'
        ]
        df = df[use_cols]

        # 保存
        with self.output().open('w') as f:
            f.write(pickle.dumps(df, protocol=pickle.HIGHEST_PROTOCOL))

    def sklearn_oh_encoder(self, df, cols, drop_col=False):
        """カテゴリ変換
        sklearnのOneHotEncoderでEncodingを行う
        Args:
            df: カテゴリ変換する対象のデータフレーム
            cols (list of str): カテゴリ変換する対象のカラムリスト
            drop_col (bool): エンコード対象のカラムを削除するか否か
        Returns:
            pd.Dataframe: dfにカテゴリ変換したカラムを追加したデータフレーム
        """
        output_df = df.copy()
        for col in cols:
            ohe = OneHotEncoder(sparse=False, handle_unknown='ignore')
            ohe_df = pd.DataFrame((ohe.fit_transform(output_df[[col]])), columns=ohe.categories_[0])
            ohe_df = ohe_df.add_prefix(f'{col}_')
            # 元のDFに結合
            output_df = pd.concat([output_df, ohe_df], axis=1)
            if drop_col:
                output_df = output_df.drop(col, axis=1)
        return output_df


@requires(Processing)
class TrainTestSplit(luigi.Task):
    """データを学習データと検証データに分割する"""
    task_namespace = 'titanic_tasks'

    def output(self):
        return [luigi.LocalTarget("data/processing_titanic_train.pkl", format=luigi.format.Nop),
                luigi.LocalTarget("data/processing_titanic_test.pkl", format=luigi.format.Nop)]

    def run(self):
        # データの読み込み
        with self.input().open() as f:
            df = pickle.load(f)  # pickleで読み込むパターン

        train, test = train_test_split(df, test_size=0.3, shuffle=True, stratify=df['survived'], random_state=42)
        logger.info(f'Train shape: {train.shape}')
        logger.info(f'Test shape: {test.shape}')

        with self.output()[0].open('w') as f:
            f.write(pickle.dumps(train, protocol=pickle.HIGHEST_PROTOCOL))

        with self.output()[1].open('w') as f:
            f.write(pickle.dumps(test, protocol=pickle.HIGHEST_PROTOCOL))


@requires(TrainTestSplit)
class Training(luigi.Task):
    """学習"""
    task_namespace = 'titanic_tasks'

    def output(self):
        return luigi.LocalTarget("model/random_forest.model", format=luigi.format.Nop)

    def run(self):
        # データの読み込み
        with self.input()[0].open() as f:
            train = pickle.load(f)

        logger.info(f'Train shape: {train.shape}')

        target_col = 'survived'
        X_train = train.drop(target_col, axis=1)
        y_train = train[target_col]

        model = RandomForestClassifier(random_state=1)
        model.fit(X_train, y_train)

        # 保存
        with self.output().open('w') as f:
            f.write(pickle.dumps(model, protocol=pickle.HIGHEST_PROTOCOL))


@requires(TrainTestSplit, Training)
class Predict(luigi.Task):
    """推論"""
    task_namespace = 'titanic_tasks'

    def output(self):
        return luigi.LocalTarget("data/predict_data.csv")

    def run(self):
        # データの読み込み
        with self.input()[0][1].open() as f:
            valid = pickle.load(f)

        # モデルの読み込み
        with self.input()[1].open() as f:
            model = pickle.load(f)

        logger.info(f'Valid data shape: {valid.shape}')

        target_col = 'survived'
        X_valid = valid.drop(target_col, axis=1)
        y_valid = valid[target_col]

        # 予測
        y_pred = model.predict(X_valid)
        logger.info(f'Accuracy Score: {accuracy_score(y_valid, y_pred)}')
        logger.info('\n' + classification_report(y_valid, y_pred))

        # # 保存
        valid.loc[:, 'y_pred'] = y_pred
        valid.to_csv('data/predict_data.csv', index=False)


@requires(Predict)
class MyInvokerTask(luigi.WrapperTask):
    task_namespace = 'titanic_tasks'
    pass


if __name__ == '__main__':

    # 設定ファイルの読み込み
    luigi.configuration.LuigiConfigParser.add_config_path('./luigi.cfg')
    # 実行
    luigi.build([MyInvokerTask()], local_scheduler=True)
    # luigi.build([MyInvokerTask()], local_scheduler=False)  # ブラウザからチェックしたい場合はこちら

最後に

Luigiフレームワークに則ることで、いろいろなメリットを享受することができそうでした。

個人的には実験回数の向上が一番のメリットかなぁとも感じたので、コンペや実務で積極的に使っていこうと思いました。

参考資料

M1 Macのdocker環境にテクニカル指標計算ライブラリ「TA-Lib」をインストールする方法

2021-12-19T16:34:41+09:00

みなさんこんにちは。たかぱい（@takapy0210）です

本日はM1 Macの分析コンテナ環境に株価分析ライブラリのTA-Lib*1をインストールする際に結構苦労したので、その備忘です。

Dockerfileの内容とエラー内容

こちらのサイト*2などを参考に以下のようなDockerfileを記述してインストールしてみましたが、M1 Mac環境だとエラーが発生します。（Intel版 Macでは問題なくインストールできました）

Dockerfile

...

RUN wget http://prdownloads.sourceforge.net/ta-lib/ta-lib-0.4.0-src.tar.gz
RUN tar -zxvf ta-lib-0.4.0-src.tar.gz && \
    cd ta-lib && \
    ./configure --prefix=/usr && \
    make && \
    sudo make install
RUN python3 -m pip install TA-Lib
...

エラー内容

Could not build wheels for Ta-Lib, which is required to install pyproject.toml-based projects

回避方法

Dockerfileの記述方法を以下のように変更します

...

RUN wget http://prdownloads.sourceforge.net/ta-lib/ta-lib-0.4.0-src.tar.gz
RUN tar -zxvf ta-lib-0.4.0-src.tar.gz && \
    cd ta-lib && \
    cp /usr/share/automake-1.16/config.guess . && \
    ./configure --prefix=/usr && \
    make && \
    sudo make install
RUN python3 -m pip install TA-Lib
...

これでimportすれば使用できるようになると思います。

おまけ：「numpy.ndarray size changed, may indicate binary incompatibility. Expected 88 from C header, got 80 from PyObject」エラーが発生する場合

この場合はnumpyのバージョンを上げると回避できる可能性があります。

pip3 install numpy==1.20.0

参考

※以下を参考に試行錯誤しましたが、結局この中に解決できる方法はありませんでした

*2:https://qiita.com/kainogen/items/4b587a8dad830dea03fb

mrjbq7.github.io

*1:https://ta-lib.org/

TensorFlow × HuggingFace Transformers（TFBertModel）を用いたモデルの保存時に発生するエラーの回避方法

2021-12-11T14:57:51+09:00

みなさんこんにちは。たかぱい（@takapy0210）です。

本日はTensorFlow×Transformers周りでエラーに遭遇した内容とそのWAです。

環境
実装内容
エラー内容
- エラーの原因
ワークアラウンド
- なんでこれで解消できるのか？
- モデルの保存方法
参考

環境

実行環境は以下の通りです

python 3.7.10
transformers 4.12.5
tensorflow 2.3.0

実装内容

一部抜粋ですが、TransformersのTFBertModel*1に、独自のレイヤーをいくつか追加した2値分類モデルの学習を行いました。

import tensorflow as tf
from tensorflow import keras
from transformers import TFBertModel


def build_model(model_name, num_classes, max_length):
    
    # BERTへ入力する情報
    input_shape = (max_length, )
    input_ids = tf.keras.layers.Input(input_shape, dtype=tf.int32)
    attention_mask = tf.keras.layers.Input(input_shape, dtype=tf.int32)
    token_type_ids = tf.keras.layers.Input(input_shape, dtype=tf.int32)
    inputs = [input_ids, attention_mask, token_type_ids]
    
    # BERTモデル
    bert_model = TFBertModel.from_pretrained(model_name)
    # 2種類の出力がある。今回使用するのはTFBertForSequenceClassificationにならってpooler_outputを使用
    base_output = bert_model(inputs)
    sequence_output, pooler_output = base_output[0], base_output[1]
    
    output = tf.keras.layers.Dense(num_classes, activation="sigmoid")(pooler_output)
    model = tf.keras.Model(inputs=inputs, outputs=output)
    optimizer = tf.keras.optimizers.Adam(learning_rate=3e-5, epsilon=1e-08, clipnorm=1.0)
    model.compile(optimizer=optimizer, loss="binary_crossentropy", metrics=["acc"])
    return model


# データの前処理
# （省略）
...

# 学習
model.fit(
    X_train,
    y_train,
    validation_data=(X_valid, y_valid),
    batch_size=batch_size,
    epochs=epochs,
    callbacks=callbacks
)

model.save('bert_model.h5')

エラー内容

model.save('bert_model.h5') の部分で以下のようなエラーが発生します。

（省略）
/usr/local/lib/python3.7/site-packages/transformers/modeling_tf_utils.py in input_processing(func, config, input_ids, **kwargs)
    408                     output[tensor_name] = input
    409                 else:
--> 410                     output[parameter_names[i]] = input
    411             elif isinstance(input, allowed_types) or input is None:
    412                 output[parameter_names[i]] = input

IndexError: list index out of range

エラーの原因

コードを見てみると、inputsとして配列が想定されていないからかな〜と思います（多分）

ワークアラウンド

BERTモデルを読み込む部分の処理を以下のように修正すればOKです。

# エラーになるコード
base_output = bert_model(inputs)

# WA
base_output = bert_model.bert(inputs)

なんでこれで解消できるのか？

実装されているコード*2をみると、bert layerというのは TFBertMainLayer*3 というクラスです。
これを直接呼ぶことで、Save時も TFBertMainLayer.call が呼び出され、LayerCall.__call__(args, **kwargs) が呼び出されることを回避することができるので、保存処理がうまくいくのだと思います。

モデルの保存方法

保存するときはcallback関数に設定しても、model.save() メソッドを用いても、どちらでも問題なく保存できました。

# callback関数を使う場合
checkpoint = tf.keras.callbacks.ModelCheckpoint(
    'bert_model.h5',
    monitor='val_loss',
    verbose=2,
    save_best_only=True,
    mode='auto'
)
result = model.fit(
    X_train,
    y_train,
    validation_data=(X_valid, y_valid),
    batch_size=batch_size,
    epochs=epochs,
    callbacks=[checkpoint]
)

# saveメソッドで保存する場合
model.save('bert_model.h5')

保存したモデルを読み込む際は普通に load_model() を使えば読み込めます。

from tensorflow.keras.models import load_model

model = load_model('bert_model.h5')
pred = model.predict(test, verbose=1)

参考

*1:https://huggingface.co/docs/transformers/model_doc/bert#transformers.TFBertModel

*2:https://github.com/huggingface/transformers/blob/32e94cff64ea87cb2df2699bca960962fe676b62/src/transformers/modeling_tf_bert.py#L699

*3:https://github.com/huggingface/transformers/blob/32e94cff64ea87cb2df2699bca960962fe676b62/src/transformers/modeling_tf_bert.py#L494

Google ColabとVSCodeを用いた分析環境運用方法〜kaggle Tipsを添えて〜

2021-08-17T18:50:47+09:00

こんにちは。takapy（@takapy0210）です。

本エントリは下記イベントでLTした内容の元に、補足事項やコードスニペットなどをまとめたものになります。

kaggle-friends.connpass.com

ちなみに今回LTしようと思ったきっかけは以下のような出来事からだったので、みなさんのTipsなども教えていただけると嬉しいです！

情報出回ってる感あるけど、colab pro × vscode ssh のオレオレ運用方法を晒すことにより、もっと良い方法のフィードバックもらえるのではドリブンでLTするのはありなのかもしれない・・・？
— takapy | たかぱい (@takapy0210) 2021年8月1日

LT資料
当日みなさんから頂いたコメント
環境構築手順
- ngrokアカウント作成と認証キーの取得
- ColabにGoogleドライブを接続、ngrok、sshサーバー起動
運用Tips
- setup.shスクリプトを作る
- kaggleで使う場合のTips（コードコンペを例に）
  - 学習/推論スクリプト内での工夫ポイント
最後に

LT資料

こちらからご覧いただけます。

https://speakerdeck.com/takapy/googlecolabtovscodewoyong-itafen-xi-huan-jing-yun-yong-tips

当日みなさんから頂いたコメント

反応いただいた方ありがとうございました！
当日Twitterで頂いたコメントをいくつかこちらにまとめておこうと思います。

#分析コンペLT
ngrokはセキュリティリスクあるので自己責任でhttps://t.co/4xWvIV3oqF
— しんちろ (@sinchir0) 2021年8月17日

使用する場合はしんちろさんのおっしゃるとおり、自己責任でお願いできればと思います🙏

推論スクリプトをデータセットに入れているとのことですが、最終サブでもそうしてますか?
自分も同じようなことをしてるのですが、external dataset のルールが曖昧なせいで最終サブだけ Kaggle Notebook にベタ書きしてるんですよね。。#分析コンペLT
— oɹɐʇuǝʞ (@cfiken) 2021年8月17日

たしかにちょっと不安な部分ではありますね...
CommonLitコンペ*1は大丈夫でした（が、安全策をとるならnotebookにちゃんと移行した方がよいかもしれません）

以下のような事例も共有いただきました。ありがとうございます！

ノウハウというほどではないけど、notebookから.py呼ぶ方式でcolab使った時は、keepsakeで実験管理したら.py一式を自動でgcsに保存&いつでもcheckoutでロールバックできて体験が良かった #分析コンペLT
— Nomi (@nyanp) 2021年8月17日

踏み台をawsやgcpに立てて、colabから踏み台にsshアクセス(ポートフォワードあり)→ローカルからsshで踏み台にアクセス（ポートフォワードあり）→別sshでフォワードされたポートにアクセス
ってやってる#分析コンペLT
— K-NKSM (@KNKSM5) 2021年8月17日

colab proにcolab-sshで接続してる
データの解答とか接続とか諸々設定書いたnotebook用意しておいてrun-allして接続してる。毎回コンテナ変わるからgitのconfigとかパッケージのインストールとかMakefileにまとめておいて何回かコマンド叩くだけで環境できるようにしてる
#分析コンペLT
— 名無し。 (@496_nnc) 2021年8月17日

全てのツイートは以下から見れます↓

https://twitter.com/search?q=%23%E5%88%86%E6%9E%90%E3%82%B3%E3%83%B3%E3%83%9ALT%20since%3A2021-08-17_20%3A00%3A00_JST%20until%3A2021-08-17_20%3A33%3A00_JST&src=typeahead_click&f=live

ここからは、スライドの補足やサンプルコードの紹介をしていきます。

環境構築手順

資料内にある環境構築手順について、コードを交えながら補足していきます。

LT資料の冒頭にも記載していますが、ここで紹介する方法はGoogle側が推奨している使用方法ではないので、あらかじめご了承ください。（急に使えなくなったりする可能性もあると思っていますので、使用する際は自己責任でお願いします）

ngrokアカウント作成と認証キーの取得

ngrokというサービスに無料アカウントを作成します。

このサービスを使用することで、ローカルIPアドレスしか持たないホストに、外部のネットワークからアクセスすることができるようになったりします。また、SSHのトンネルとしても使用することができるサービスです。

Colabを使用する際にはGoogleアカウントが必要となりますので、Googleアカウントで紐づけるのが無難かと思います。

ngrok.com

アカウントが作成できたら、ログインし、Your Authtoken の値をコピーしておきます。（次に説明するsshサーバーを起動する部分で使用します）

ColabにGoogleドライブを接続、ngrok、sshサーバー起動

Colabを起動し、GPU接続ON、Googleドライブ接続を行ったあと、下記手順に沿ってnotebook上でコードを実行していきます。
このnotebookは一度作ってしまえば、2回目以降は同じnotebookを実行すればOKです。

まずはGPUがうまく接続できているかチェックしておきます（これはやらなくてもOKです）

!cat /etc/lsb-release
!nvcc -V
!nvidia-smi

# 出力結果例
>> 
DISTRIB_ID=Ubuntu
DISTRIB_RELEASE=18.04
DISTRIB_CODENAME=bionic
DISTRIB_DESCRIPTION="Ubuntu 18.04.5 LTS"
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2020 NVIDIA Corporation
Built on Wed_Jul_22_19:09:09_PDT_2020
Cuda compilation tools, release 11.0, V11.0.221
Build cuda_11.0_bu.TC445_37.28845127_0
Mon Aug 16 13:49:54 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 470.42.01    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla P100-PCIE...  Off  | 00000000:00:04.0 Off |                    0 |
| N/A   37C    P0    27W / 250W |      0MiB / 16280MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

ngrokのインストール・設定

!apt-get -y update

!wget -q -c -nc https://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip
!unzip -qq -n ngrok-stable-linux-amd64.zip

# sshの設定
!apt-get install -qq -o=Dpkg::Use-Pty=0 openssh-server pwgen > /dev/null

sshサーバーの起動

import random, string, urllib.request, json, getpass

# Generate root password
password = ''.join(random.choice(string.ascii_letters + string.digits) for i in range(20))

# Set root password
!echo root:$password | chpasswd
!mkdir -p /var/run/sshd
!echo "PermitRootLogin yes" >> /etc/ssh/sshd_config
!echo "PasswordAuthentication yes" >> /etc/ssh/sshd_config
!echo "LD_LIBRARY_PATH=/usr/lib64-nvidia" >> /root/.bashrc
!echo "export LD_LIBRARY_PATH" >> /root/.bashrc

# Run sshd
get_ipython().system_raw('/usr/sbin/sshd -D &')

# アクセストークンの設定
# https://dashboard.ngrok.com/auth/your-authtoken
authtoken="上記で取得したYour Authtokenの値"

# Create tunnel
get_ipython().system_raw('./ngrok authtoken $authtoken && ./ngrok tcp 22 &')

Colabサーバーの環境設定

下記設定を行うことで、VSCodeから接続した際にローカル環境と同等の環境を実現することができます。
この例ではzshを使っていますが、ここはお好きなシェル（ローカルで日常的に使っている物が良い）をインストールしてください。

シェルの設定ファイルも、ローカルのものをGoogle Driveにアップロードしておき、それをコピーしておくことで同じ環境を構築できます。

# シンボリックリンクを作成
!ln -sfn /content/drive/MyDrive/workspace /root/workspace

# zshのインストール
!sudo apt-get install zsh

# oh-my-zshのインストール
!wget https://github.com/robbyrussell/oh-my-zsh/raw/master/tools/install.sh -O - | zsh || true

# zshをデフォルトに設定
!chsh -s /usr/bin/zsh

# bashファイルの作成
!echo 'export PATH=/usr/local/cuda/bin:$PATH' >> /root/.bash_profile
!echo 'export LD_LIBRARY_PATH=/usr/lib64-nvidia' >> /root/.bash_profile
!echo 'export PROMPT_COMMAND="history -a"' >> /root/.bash_profile
!echo 'export HISTFILE=/root/.zsh-history' >> /root/.bash_profile
!echo 'export PYTHONDONTWRITEBYTECODE=1' >> /root/.bash_profile
!echo 'export TF_CPP_MIN_LOG_LEVEL=2' >> /root/.bash_profile

# ファイルをgoogle driveからサーバーへコピー
!cp /content/drive/MyDrive/workspace/.gitconfig .gitconfig
!cp /content/drive/MyDrive/workspace/.zshrc .zshrc

接続情報の取得

最後に、VSCodeからssh接続するために必要な情報を取得します。
Calabの接続が切れてしまうと、このホスト名とポート番号も変わってしまうので、その場合はconfig情報も更新した後、再度VSCodeからssh接続する必要があります。

# Get public address and print connect command
with urllib.request.urlopen('http://localhost:4040/api/tunnels') as response:
  data = json.loads(response.read().decode())
  (host, port) = data['tunnels'][0]['public_url'][6:].split(':')

print(f"""Host google-colab-ssh
HostName {host}
Port {port}
User root
""")

# Print root password
print(f'Root password: {password}')

# 出力結果例
>>
Host google-colab-ssh
HostName 0.tcp.ngrok.io
Port 9999
User root

Root password: HOGEHOGE

以下は実際の接続手順となっています。（LT資料から抜粋）

手順

運用Tips

最後に、ここまでで構築した環境を、より快適に運用するためのTipsをご紹介します。

setup.shスクリプトを作る

VSCodeの拡張機能やpipでインストールしたいpythonのライブラリを1つのスクリプトにまとめておくといろいろ捗ります。

自分はsetup.shという名前でGoogle Driveのworkspaceディレクトリ（ssh接続先ディレクトリ）に保存しています。

#!/bin/bash

# pip install
python3 -m pip install -r requirements.txt

# Visual Studio Code :: Package list
pkglist=(
ms-python.python
tabnine.tabnine-vscode
njpwerner.autodocstring
oderwat.indent-rainbow
)
for i in ${pkglist[@]}; do
  code --install-extension $i
done

requirements.txtの中身は以下のようになっていて、Colabにはプリインストールされていないpythonライブラリを記載しています。

kaggle
transformers
texthero
flake8

このようなスクリプトを用意しておくことで、VSCodeからssh接続した後、

$ bash setup.sh

を実行するだけで、毎回同じ環境を構築することができます。（便利！）

kaggleで使う場合のTips（コードコンペを例に）

学習/推論スクリプトの中に、”スクリプト本体”と”学習済みモデル”をkaggle Datasetにアップロードする処理を仕込んでおきます。
実際にコンペにsubmitする時は、kaggleのnotebook上からアップロードしたスクリプトを実行するだけで推論処理が行われるようになります。（kaggleのnotebookから!python3 exp001.py みたいな形で実行するイメージです）
後述していますが、このスクリプト内部も若干工夫が必要です。

こうすることで以下のようなメリットを享受できると思っています。

Colabで作ったモデルを都度手動でDatasetsにアップロードしなくて良い
Colabでモデルは作ったけど、推論専用のnotebookが無いから0から作らなきゃ…という事態を回避できる
推論処理のコードもGithubで管理できる
kaggleのDatasetsをうまく使うことで、「モデル」と「そのモデルを生成したスクリプト」をセットで管理することもできる（このモデル、どのスクリプトで作ったやつだっけ・・・みたいなことが無くなる）

kaggleのデータセットにアップロードする処理は以下のように実装することができます。
下記のサンプルだと、upload_target_dirに対象のGoogle Driveのパスを指定して実行するイメージです。

def upload_kaggle_dataset(user_id, exp_no, upload_target_dir, logger):
    """kaggleのデータセットにデータをuploadする関数"""

    from kaggle.api.kaggle_api_extended import KaggleApi

    _id = f'{user_id}/{exp_no}'

    dataset_metadata = {}
    dataset_metadata['id'] = _id
    dataset_metadata['licenses'] = [{'name': 'CC0-1.0'}]
    dataset_metadata['title'] = f'{exp_no}'

    with open(upload_target_dir + '/dataset-metadata.json', 'w') as f:
        json.dump(dataset_metadata, f, indent=4)

    api = KaggleApi()
    api.authenticate()

    # データセットがない場合
    if _id not in [str(d) for d in api.dataset_list(user=user_id, search=exp_no)]:
        logger.info('No data set, so create a new one.')
        logger.info(f'URL: https://www.kaggle.com/{_id}')
        api.dataset_create_new(folder=upload_target_dir,
                               convert_to_csv=False,
                               dir_mode='skip')
    # データセットがある場合
    else:
        logger.info('Generate a new version because of the data set.')
        logger.info(f'URL: https://www.kaggle.com/{_id}')
        api.dataset_create_version(folder=upload_target_dir,
                                   version_notes='update',
                                   convert_to_csv=False,
                                   delete_old_versions=True,
                                   dir_mode='skip')

    return None

学習/推論スクリプト内での工夫ポイント

実際のスクリプト（上図でいうところのexp001.py）の中身ですが、以下のように条件分岐をしておくことで、kaggleのnotebook上では推論処理のみを、その他の環境の時は学習→推論といった一連の処理を行うコードを書くことができます。（場合によってはtestデータ含めて学習し直すケースもあると思いますが）

このようにすることで、学習/推論処理を1つのスクリプトで管理できます。

import os


if __name__ == '__main__':

    # 学習
    if 'KAGGLE_URL_BASE' not in set(os.environ.keys()):
        # kaggleのnotebook上では学習しない
        train = load_data(DATA_DIR + 'train.csv')
        train = preprocessing(train)
        training(train)

    # 推論
    test = load_data(DATA_DIR + 'test.csv')
    test = preprocessing(test, is_train=False)
    submit_df = inference(test)

    submit_df.to_csv('submission.csv', index=False)

最後に

今回は私が行っているColabとVSCodeの運用方法についてまとめてみました。
もっといい感じの環境にできるのでは？と思っていたりするので、みなさんのColab Tipsも教えていただけると嬉しいです！

そして、本エントリが「Colabうまく使いこなせないなぁ」と思っていた人の一助になれば嬉しいです。

参考資料

*1:https://www.kaggle.com/c/commonlitreadabilityprize

PandasからBigQueryにデータを保存する際に「Resources exceeded during query execution: UDF out of memory. ..... columns is too large」エラーが出た時の対処方法

2021-08-10T21:02:36+09:00

こんにちは。takapy（@takapy0210）です。

表題の件で少し困ったので、備忘がてら記事に残しておこうと思います。

やろうとしていたこと
エラー内容
該当箇所のコード
- work around
最後に

やろうとしていたこと

BigQueryのPython SDKを用いて、Pandasで読み込んだデータをBigQueryのテーブルに保存する処理で、後述するエラーが発生しました。

ちなみに下記のBigQueryクライアントライブラリ（google-cloud-bigquery）を使っています。

*1:https://github.com/GoogleCloudPlatform/python-docs-samples/blob/HEAD/bigquery/pandas-gbq-migration/samples_test.py

エラー内容

以下のようなエラーが発生しました。

400 Resources exceeded during query execution: UDF out of memory.; Failed to read Parquet file /bigstore/hogehoge. This might happen if the file contains a row that is too large, or if the total size of the pages loaded for the queried columns is too large.

ファイルに大きすぎる行が含まれている場合などに発生するエラーのようです。
今回のデータ全体のサイズが大き過ぎるため発生したと思われます。（詳細は不明...）

ちなみに今回BigQueryに保存しようとしていたデータは、CSVファイルのサイズが3GBくらい、データ件数が300万件ほどのテキストデータを含むDataFrameになっています。

該当箇所のコード

基本的には公式サンプル*1通りの実装です。

下記コードの job.result() の処理で今回のエラーが発生していました。

# データをimportする関数例
def import_to_bigquery(df, schema, schema_definition):
    """BQにデータを保存する"""

    client = bigquery.Client()
    table_id = f'{schema.project}.{schema.dataset_id}.{schema.table_id}'

    job_config = bigquery.LoadJobConfig(
        write_disposition=bigquery.WriteDisposition.WRITE_TRUNCATE,  # 上書き
        schema=schema_definition, 
    )
    job = client.load_table_from_dataframe(
        df,
        table_id,
        location='US',
        job_config=job_config,
    )
    job.result()  # ここでエラー発生
    table = client.get_table(table_id)
    LOGGER.info(f'Imported data: {table.num_rows}rows and {len(table.schema)}columns to {schema.table_id}')

work around

試しにデータ件数を10000サンプルで実行してみると問題なく動いたので、DataFrameをchunk化しながらBigQueryに保存すればいけるのでは？ということで下記のような修正して実行したところ、期待する動作になりました。

def import_to_bigquery(df, schema, schema_definition):
    """BQにデータを保存する"""

    client = bigquery.Client()
    table_id = f'{schema.project}.{schema.dataset_id}.{schema.table_id}'

    for index, df_chunk in enumerate(np.array_split(df, 10)):
        # 10分割しながらBigQueryにimportする. 最初の1回は上書きをし、残りは追加を行う.
        if index == 0:
            job_config = bigquery.LoadJobConfig(
                write_disposition=bigquery.WriteDisposition.WRITE_TRUNCATE,  # 上書き
                schema=schema_definition,
            )
        else:
            job_config = bigquery.LoadJobConfig(
                write_disposition=bigquery.WriteDisposition.WRITE_APPEND,  # 追加
                schema=schema_definition,
            )
        job = client.load_table_from_dataframe(
            df_chunk,
            table_id,
            location='US',
            job_config=job_config,
        )
        job.result()

    table = client.get_table(table_id)
    LOGGER.info(f'Imported data: {table.num_rows}rows and {len(table.schema)}columns to {schema.table_id}')

コードを見てわかるように、chunk化にはnumpy.array_split*2 を使用しました。
read_csv()のchunksize 引数を指定しても良かったのですが、前処理を行っている都合もあり今回は不採用としました。

最後に

公式リポジトリのISSUE*3 などを漁っても解決方法が見つからなかったので、現状はこのようにデータを分割しながら回避するしかなさそうです。

*2:https://numpy.org/doc/stable/reference/generated/numpy.array_split.html

*3:https://github.com/googleapis/python-bigquery/issues

【言語処理100本ノック 2020】 8章をPythonで解いた（TensorFlowを使用）

2021-07-03T12:59:11+09:00

こんにちは。takapy（@takapy0210）です。

本エントリは言語処理100本ノック2020の8章を解いてみたので、それの備忘です。
簡単な解説をつけながら紹介していきます。

ネット上に掲載されている解答例はPytorchによる解法が多かったので、TensorFlowを用いて解いてみました。

コードはGithubに置いてあります。

第8章: ニューラルネット

第6章で取り組んだニュース記事のカテゴリ分類を題材として，ニューラルネットワークでカテゴリ分類モデルを実装する．なお，この章ではPyTorch, TensorFlow, Chainerなどの機械学習プラットフォームを活用せよ

70. 単語ベクトルの和による特徴量
71. 単層ニューラルネットワークによる予測
72. 損失と勾配の計算
73. 確率的勾配降下法による学習
74. 正解率の計測
75. 損失と正解率のプロット / 76. チェックポイント / 77. ミニバッチ化
79. 多層ニューラルネットワーク

70. 単語ベクトルの和による特徴量

SWEMを用いて単語の平均ベクトルを計算しています.
SWEMのコード部分にはこちらのGithubに掲載しています.

"""
70. 単語ベクトルの和による特徴量
問題50で構築した学習データ，検証データ，評価データを行列・ベクトルに変換したい．
i番目の事例の記事見出しを，その見出しに含まれる単語のベクトルの平均で表現したものがxiである．今回は単語ベクトルとして，問題60でダウンロードしたものを用いればよい．
以下の行列・ベクトルを作成し，ファイルに保存せよ．
学習データの特徴量行列: Xtrain∈ℝNt×d
学習データのラベルベクトル: Ytrain∈ℕNt
検証データの特徴量行列: Xvalid∈ℝNv×d
検証データのラベルベクトル: Yvalid∈ℕNv
評価データの特徴量行列: Xtest∈ℝNe×d
評価データのラベルベクトル: Ytest∈ℕNe
"""

import pandas as pd
from gensim.models import KeyedVectors
import texthero as hero

from swem import SWEM


def load_data() -> dict:
    """データの読み込み"""
    # 読み込むファイルを定義
    inputs = {
        'train': '../chapter6/train.txt',
        'valid': '../chapter6/valid.txt',
        'test': '../chapter6/test.txt',
    }
    dfs = {}
    use_cols = ['title', 'category']
    for k, v in inputs.items():
        dfs[k] = pd.read_csv(v, sep='\t')
        dfs[k] = dfs[k][use_cols]

    return dfs


def preprocess(text) -> str:
    """前処理"""
    clean_text = hero.clean(text, pipeline=[
        hero.preprocessing.fillna,
        hero.preprocessing.lowercase,
        hero.preprocessing.remove_digits,
        hero.preprocessing.remove_punctuation,
        hero.preprocessing.remove_diacritics,
        hero.preprocessing.remove_stopwords
    ])

    return clean_text


if __name__ == "__main__":

    # chapter6で生成したデータを読み込む
    dfs = load_data()

    # 事前学習済みモデルのロード
    # ref. https://radimrehurek.com/gensim/models/word2vec.html#usage-examples
    model = KeyedVectors.load_word2vec_format('../chapter7/GoogleNews-vectors-negative300.bin.gz', binary=True)

    # 前処理
    dfs['train']['title'] = dfs['train'][['title']].apply(preprocess)
    dfs['valid']['title'] = dfs['valid'][['title']].apply(preprocess)
    dfs['test']['title'] = dfs['test'][['title']].apply(preprocess)

    # 説明変数の生成（SWEMの計算）
    swem = SWEM(model)
    X_train = swem.calculate_emb(df=dfs['train'], col='title', window=3, swem_type=1)
    X_valid = swem.calculate_emb(df=dfs['valid'], col='title', window=3, swem_type=1)
    X_test = swem.calculate_emb(df=dfs['test'], col='title', window=3, swem_type=1)

    # 目的変数の生成
    y_train = dfs['train']['category'].map({'b': 0, 'e': 1, 't': 2, 'm': 3})
    y_valid = dfs['valid']['category'].map({'b': 0, 'e': 1, 't': 2, 'm': 3})
    y_test = dfs['test']['category'].map({'b': 0, 'e': 1, 't': 2, 'm': 3})

    # 保存
    X_train.to_pickle('X_train.pkl')
    X_valid.to_pickle('X_valid.pkl')
    X_test.to_pickle('X_test.pkl')
    y_train.to_pickle('y_train.pkl')
    y_valid.to_pickle('y_valid.pkl')
    y_test.to_pickle('y_test.pkl')

71. 単層ニューラルネットワークによる予測

TensorFlowを用いて、単層ニューラルネットワークを構築し、指示された内容を計算しています.

"""
71. 単層ニューラルネットワークによる予測
問題70で保存した行列を読み込み，学習データについて以下の計算を実行せよ．

ŷ 1=softmax(x1W),Ŷ =softmax(X[1:4]W)
ただし，softmaxはソフトマックス関数，X[1:4]∈ℝ4×dは特徴ベクトルx1,x2,x3,x4を縦に並べた行列である．

X[1:4]=⎛⎝⎜⎜⎜⎜x1x2x3x4⎞⎠⎟⎟⎟⎟
行列W∈ℝd×Lは単層ニューラルネットワークの重み行列で，ここではランダムな値で初期化すればよい（問題73以降で学習して求める）．
なお，ŷ 1∈ℝLは未学習の行列Wで事例x1を分類したときに，各カテゴリに属する確率を表すベクトルである．
同様に，Ŷ ∈ℝn×Lは，学習データの事例x1,x2,x3,x4について，各カテゴリに属する確率を行列として表現している．
"""

import pandas as pd
import tensorflow as tf


class SimpleNet:

    def __init__(self, feature_dim, target_dim):
        self.input = tf.keras.layers.Input(shape=(feature_dim), name='input')
        self.output = tf.keras.layers.Dense(target_dim, activation='softmax', name='output')

    def build(self):
        input_layer = self.input
        output_layer = self.output(input_layer)
        model = tf.keras.models.Model(inputs=input_layer, outputs=output_layer)
        return model


if __name__ == "__main__":

    X_train = pd.read_pickle('X_train.pkl')
    model = SimpleNet(X_train.shape[1], 4).build()

    print(model(X_train.values[:1]))
    print(model(X_train.values[:4]))

実行結果

tf.Tensor([[0.2661007  0.25712514 0.2329659  0.2438082 ]], shape=(1, 4), dtype=float32)
tf.Tensor(
[[0.2661007  0.25712514 0.23296592 0.2438082 ]
 [0.27437785 0.25097498 0.23388673 0.24076048]
 [0.27228996 0.25715688 0.234876   0.23567708]
 [0.27745858 0.25357178 0.22825074 0.24071899]], shape=(4, 4), dtype=float32)

72. 損失と勾配の計算

損失の計算にはtf.keras.losses.CategoricalCrossentropy()を使っています.

"""
72. 損失と勾配の計算
学習データの事例x1と事例集合x1,x2,x3,x4に対して，クロスエントロピー損失と，行列Wに対する勾配を計算せよ．なお，ある事例xiに対して損失は次式で計算される．

li=−log[事例xiがyiに分類される確率]
ただし，事例集合に対するクロスエントロピー損失は，その集合に含まれる各事例の損失の平均とする．
"""

import pandas as pd
import tensorflow as tf
from tensorflow.keras.utils import to_categorical


class SimpleNet:

    def __init__(self, feature_dim, target_dim):
        self.input = tf.keras.layers.Input(shape=(feature_dim), name='input')
        self.output = tf.keras.layers.Dense(target_dim, activation='softmax', name='output')

    def build(self):
        input_layer = self.input
        output_layer = self.output(input_layer)
        model = tf.keras.models.Model(inputs=input_layer, outputs=output_layer)
        return model


if __name__ == "__main__":

    # データのロード
    X_train = pd.read_pickle('X_train.pkl')
    y_train = pd.read_pickle('y_train.pkl')

    # モデル構築
    model = SimpleNet(X_train.shape[1], len(y_train.unique())).build()
    preds = model(X_train.values[:4])

    # 目的変数をone-hotに変換
    y_true = to_categorical(y_train)
    y_true = y_true[:4]

    # 計算
    cce = tf.keras.losses.CategoricalCrossentropy()
    print(cce(y_true, preds.numpy()).numpy())

実行結果

1.4818511

73. 確率的勾配降下法による学習

ラベルはone-hotに変換していないので、lossにはSparseCategoricalCrossentropy()を用いています.

"""
73. 確率的勾配降下法による学習
確率的勾配降下法（SGD: Stochastic Gradient Descent）を用いて，行列Wを学習せよ．なお，学習は適当な基準で終了させればよい（例えば「100エポックで終了」など）
"""

import pandas as pd
import tensorflow as tf


class SimpleNet:

    def __init__(self, feature_dim, target_dim):
        self.input = tf.keras.layers.Input(shape=(feature_dim), name='input')
        self.output = tf.keras.layers.Dense(target_dim, activation='softmax', name='output')

    def build(self):
        input_layer = self.input
        output_layer = self.output(input_layer)
        model = tf.keras.models.Model(inputs=input_layer, outputs=output_layer)
        return model


if __name__ == "__main__":

    # データのロード
    X_train = pd.read_pickle('X_train.pkl')
    y_train = pd.read_pickle('y_train.pkl')

    # モデル構築
    model = SimpleNet(X_train.shape[1], len(y_train.unique())).build()
    opt = tf.optimizers.SGD()
    model.compile(
        optimizer=opt,
        loss=tf.keras.losses.SparseCategoricalCrossentropy()
    )

    # 学習
    tf.keras.backend.clear_session()
    model.fit(
        X_train,
        y_train,
        epochs=50,
        batch_size=32,
        verbose=1
    )

    # モデルの保存
    model.save("tf_model.h5")

実行結果

Epoch 1/50
334/334 [==============================] - 0s 1ms/step - loss: 1.1319
Epoch 2/50
334/334 [==============================] - 0s 1ms/step - loss: 1.1315
...

Epoch 48/50
334/334 [==============================] - 0s 1ms/step - loss: 1.1124
Epoch 49/50
334/334 [==============================] - 1s 2ms/step - loss: 1.1121
Epoch 50/50
334/334 [==============================] - 0s 1ms/step - loss: 1.1118

74. 正解率の計測

推論結果に関しては、そのままだと各クラスの確率が返却されるので、np.argmaxで一番確率の高いクラスを取得して正解率を計算しています.

"""
74. 正解率の計測
問題73で求めた行列を用いて学習データおよび評価データの事例を分類したとき，その正解率をそれぞれ求めよ．
"""

import pandas as pd
import numpy as np
import tensorflow as tf
from sklearn.metrics import accuracy_score


class SimpleNet:

    def __init__(self, feature_dim, target_dim):
        self.input = tf.keras.layers.Input(shape=(feature_dim), name='input')
        self.output = tf.keras.layers.Dense(target_dim, activation='softmax', name='output')

    def build(self):
        input_layer = self.input
        output_layer = self.output(input_layer)
        model = tf.keras.models.Model(inputs=input_layer, outputs=output_layer)
        return model


if __name__ == "__main__":

    # データのロード
    X_train = pd.read_pickle('X_train.pkl')
    y_train = pd.read_pickle('y_train.pkl')
    X_valid = pd.read_pickle('X_valid.pkl')
    y_valid = pd.read_pickle('y_valid.pkl')

    # モデルのロード
    model = tf.keras.models.load_model("tf_model.h5")

    # 推論
    y_train_preds = model.predict(X_train, verbose=1)
    y_valid_preds = model.predict(X_valid, verbose=1)

    # 一番確率の高いクラスを取得
    y_train_preds = np.argmax(y_train_preds, 1)
    y_valid_preds = np.argmax(y_valid_preds, 1)

    # 正解率を出力
    print(f'Train Accuracy: {accuracy_score(y_train, y_train_preds)}')
    print(f'Valid Accuracy: {accuracy_score(y_valid, y_valid_preds)}')

実行結果

334/334 [==============================] - 0s 695us/step
42/42 [==============================] - 0s 680us/step
Train Accuracy: 0.5493815592203898
Valid Accuracy: 0.5374812593703149

75. 損失と正解率のプロット / 76. チェックポイント / 77. ミニバッチ化

3つ一気に実装しています.

"""
75. 損失と正解率のプロット
問題73のコードを改変し，各エポックのパラメータ更新が完了するたびに，訓練データでの損失，正解率，検証データでの損失，正解率をグラフにプロットし，学習の進捗状況を確認できるようにせよ．

76. チェックポイント
問題75のコードを改変し，各エポックのパラメータ更新が完了するたびに，チェックポイント（学習途中のパラメータ（重み行列など）の値や最適化アルゴリズムの内部状態）をファイルに書き出せ．

77. ミニバッチ化
問題76のコードを改変し，B事例ごとに損失・勾配を計算し，行列Wの値を更新せよ（ミニバッチ化）．Bの値を1,2,4,8,…と変化させながら，1エポックの学習に要する時間を比較せよ．
"""

import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf


class SimpleNet:

    def __init__(self, feature_dim, target_dim):
        self.input = tf.keras.layers.Input(shape=(feature_dim), name='input')
        self.output = tf.keras.layers.Dense(target_dim, activation='softmax', name='output')

    def build(self):
        input_layer = self.input
        output_layer = self.output(input_layer)
        model = tf.keras.models.Model(inputs=input_layer, outputs=output_layer)
        return model


if __name__ == "__main__":

    # データのロード
    X_train = pd.read_pickle('X_train.pkl')
    y_train = pd.read_pickle('y_train.pkl')

    # モデル構築
    model = SimpleNet(X_train.shape[1], len(y_train.unique())).build()
    opt = tf.optimizers.SGD()
    model.compile(
        optimizer=opt,
        loss=tf.keras.losses.SparseCategoricalCrossentropy(),
        metrics=['accuracy']
    )

    # チェックポイント
    checkpoint_path = 'ck_tf_model.h5'
    cb_checkpt = tf.keras.callbacks.ModelCheckpoint(
        checkpoint_path,
        monitor='loss',
        save_best_only=True,
        mode='min',
        verbose=1
    )
    # 学習
    tf.keras.backend.clear_session()
    history = model.fit(
        X_train,
        y_train,
        epochs=100,
        batch_size=32,
        callbacks=[cb_checkpt],
        verbose=1
    )

    # 学習曲線の保存
    pd.DataFrame(history.history).plot(figsize=(10, 6))
    plt.grid(True)
    plt.savefig("learning_curves.png")

実行結果

Epoch 1/100
334/334 [==============================] - 1s 918us/step - loss: 1.2599 - accuracy: 0.4254

Epoch 00001: loss improved from inf to 1.21570, saving model to ck_tf_model.h5
Epoch 2/100
334/334 [==============================] - 0s 968us/step - loss: 1.1667 - accuracy: 0.4256

Epoch 00002: loss improved from 1.21570 to 1.16557, saving model to ck_tf_model.h5
...

Epoch 00098: loss improved from 1.11229 to 1.11196, saving model to ck_tf_model.h5
Epoch 99/100
334/334 [==============================] - 0s 1ms/step - loss: 1.1190 - accuracy: 0.5538

Epoch 00099: loss improved from 1.11196 to 1.11144, saving model to ck_tf_model.h5
Epoch 100/100
334/334 [==============================] - 0s 1ms/step - loss: 1.1135 - accuracy: 0.5518

Epoch 00100: loss improved from 1.11144 to 1.11131, saving model to ck_tf_model.h5

学習曲線

79. 多層ニューラルネットワーク

単層のときより、若干スコアが改善しました.

"""
79. 多層ニューラルネットワーク

問題78のコードを改変し，バイアス項の導入や多層化など，ニューラルネットワークの形状を変更しながら，高性能なカテゴリ分類器を構築せよ．
"""

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import tensorflow as tf
from sklearn.metrics import accuracy_score


class MLPNet:

    def __init__(self, feature_dim, target_dim):
        self.input = tf.keras.layers.Input(shape=(feature_dim), name='input')
        self.hidden1 = tf.keras.layers.Dense(128, activation='relu', name='hidden1')
        self.hidden2 = tf.keras.layers.Dense(32, activation='relu', name='hidden2')
        self.dropout = tf.keras.layers.Dropout(0.2, name='dropout')
        self.output = tf.keras.layers.Dense(target_dim, activation='softmax', name='output')

    def build(self):
        input_layer = self.input
        hidden1 = self.hidden1(input_layer)
        dropout1 = self.dropout(hidden1)
        hidden2 = self.hidden2(dropout1)
        dropout2 = self.dropout(hidden2)
        output_layer = self.output(dropout2)
        model = tf.keras.models.Model(inputs=input_layer, outputs=output_layer)
        return model


if __name__ == "__main__":

    # データのロード
    X_train = pd.read_pickle('X_train.pkl')
    y_train = pd.read_pickle('y_train.pkl')
    X_valid = pd.read_pickle('X_valid.pkl')
    y_valid = pd.read_pickle('y_valid.pkl')

    # モデル構築
    model = MLPNet(X_train.shape[1], len(y_train.unique())).build()
    opt = tf.optimizers.SGD()
    model.compile(
        optimizer=opt,
        loss=tf.keras.losses.SparseCategoricalCrossentropy(),
        metrics=['accuracy']
    )

    # チェックポイント
    checkpoint_path = 'ck_tf_model.h5'
    cb_checkpt = tf.keras.callbacks.ModelCheckpoint(
        checkpoint_path,
        monitor='loss',
        save_best_only=True,
        mode='min',
        verbose=1
    )
    # 学習
    tf.keras.backend.clear_session()
    history = model.fit(
        X_train,
        y_train,
        epochs=100,
        batch_size=32,
        callbacks=[cb_checkpt],
        verbose=1
    )

    # 推論
    y_train_preds = model.predict(X_train, verbose=1)
    y_valid_preds = model.predict(X_valid, verbose=1)

    # 一番確率の高いクラスを取得
    y_train_preds = np.argmax(y_train_preds, 1)
    y_valid_preds = np.argmax(y_valid_preds, 1)

    # 正解率を出力
    print(f'Train Accuracy: {accuracy_score(y_train, y_train_preds)}')
    print(f'Valid Accuracy: {accuracy_score(y_valid, y_valid_preds)}')

    # 学習曲線の保存
    pd.DataFrame(history.history).plot(figsize=(10, 6))
    plt.grid(True)
    plt.savefig("learning_curves.png")

実行結果

...

Train Accuracy: 0.5812406296851574
Valid Accuracy: 0.5704647676161919

学習曲線

【言語処理100本ノック 2020】 7章をPythonで解いた

2021-06-20T19:16:06+09:00

こんにちは。takapy（@takapy0210）です。

本エントリは言語処理100本ノック2020の7章を解いてみたので、それの備忘です。
簡単な解説をつけながら紹介していきます。

コードはGithubに置いてあります。

*1:https://adjusttext.readthedocs.io/en/latest/Examples.html

第7章: 機械学習

単語の意味を実ベクトルで表現する単語ベクトル（単語埋め込み）に関して，以下の処理を行うプログラムを作成せよ．

60. 単語ベクトルの読み込みと表示
61. 単語の類似度
62. 類似度の高い単語10件
63. 加法構成性によるアナロジー
64. アナロジーデータでの実験
65. アナロジータスクでの正解率
66. WordSimilarity-353での評価
67. k-meansクラスタリング
68. Ward法によるクラスタリング
69. t-SNEによる可視化

60. 単語ベクトルの読み込みと表示

"""
60. 単語ベクトルの読み込みと表示
Google Newsデータセット（約1,000億単語）での学習済み単語ベクトル（300万単語・フレーズ，300次元）をダウンロードし，
”United States”の単語ベクトルを表示せよ．ただし，”United States”は内部的には”United_States”と表現されていることに注意せよ．
"""

from gensim.models import KeyedVectors


if __name__ == "__main__":
    # ref. https://radimrehurek.com/gensim/models/word2vec.html#usage-examples
    model = KeyedVectors.load_word2vec_format('./GoogleNews-vectors-negative300.bin.gz', binary=True)
    print(model['United_States'])

実行結果

[-3.61328125e-02 -4.83398438e-02  2.35351562e-01  1.74804688e-01
 -1.46484375e-01 -7.42187500e-02 -1.01562500e-01 -7.71484375e-02
 ......
 -8.49609375e-02  1.57470703e-02  7.03125000e-02  1.62353516e-02
 -2.27050781e-02  3.51562500e-02  2.47070312e-01 -2.67333984e-02]

61. 単語の類似度

"""
61. 単語の類似度
“United States”と”U.S.”のコサイン類似度を計算せよ．
"""

from gensim.models import KeyedVectors


if __name__ == "__main__":
    # ref. https://radimrehurek.com/gensim/models/word2vec.html#usage-examples
    model = KeyedVectors.load_word2vec_format('./GoogleNews-vectors-negative300.bin.gz', binary=True)
    print(model.similarity('United_States', 'U.S.'))

実行結果

0.73107743

62. 類似度の高い単語10件

"""
62. 類似度の高い単語10件
“United States”とコサイン類似度が高い10語と，その類似度を出力せよ．
"""

from gensim.models import KeyedVectors


if __name__ == "__main__":
    # ref. https://radimrehurek.com/gensim/models/word2vec.html#usage-examples
    model = KeyedVectors.load_word2vec_format('./GoogleNews-vectors-negative300.bin.gz', binary=True)
    print(model.most_similar('United_States', topn=10))

most_similar関数で類似度が高いTopN個の単語を取得できます。
以下の結果を見る限り、typoが多いようです。

実行結果

[('Unites_States', 0.7877248525619507), 
('Untied_States', 0.7541370987892151), 
('United_Sates', 0.7400724291801453), 
('U.S.', 0.7310774326324463), 
('theUnited_States', 0.6404393911361694), 
('America', 0.6178410053253174), 
('UnitedStates', 0.6167312264442444), 
('Europe', 0.6132988929748535), 
('countries', 0.6044804453849792), ('Canada', 0.601906955242157)]

63. 加法構成性によるアナロジー

実行結果を見ると、Greece（ギリシャ）がTOPにきており、直感的に良いベクトルが計算できていそうです。

"""
63. 加法構成性によるアナロジー
“Spain”の単語ベクトルから”Madrid”のベクトルを引き，”Athens”のベクトルを足したベクトルを計算し，
そのベクトルと類似度の高い10語とその類似度を出力せよ
"""

from gensim.models import KeyedVectors


if __name__ == "__main__":
    # ref. https://radimrehurek.com/gensim/models/word2vec.html#usage-examples
    model = KeyedVectors.load_word2vec_format('./GoogleNews-vectors-negative300.bin.gz', binary=True)
    print(model.most_similar(positive=['Spain', 'Athens'], negative=['Madrid'], topn=10))

実行結果

[('Greece', 0.6898480653762817),
 ('Aristeidis_Grigoriadis', 0.560684859752655),
 ('Ioannis_Drymonakos', 0.5552908778190613),
 ('Greeks', 0.545068621635437),
 ('Ioannis_Christou', 0.5400862097740173),
 ('Hrysopiyi_Devetzi', 0.5248445272445679),
 ('Heraklio', 0.5207759737968445),
 ('Athens_Greece', 0.516880989074707),
 ('Lithuania', 0.5166865587234497),
 ('Iraklion', 0.5146791338920593)]

1つ疑問に思ったこととして、ベクトルを別で計算してmost_similarで見てみると上記と結果が違いました。
これはなぜだろう...

vec = model['Spain'] - model['Madrid'] + model['Athens'] 
print(model.most_similar([vec], topn=10))

実行結果

[('Athens', 0.7528455853462219), 
('Greece', 0.6685472130775452), 
('Aristeidis_Grigoriadis', 0.5495778322219849), 
('Ioannis_Drymonakos', 0.5361457467079163), 
('Greeks', 0.5351786017417908), 
('Ioannis_Christou', 0.5330225825309753), 
('Hrysopiyi_Devetzi', 0.5088489055633545), 
('Iraklion', 0.5059264302253723), 
('Greek', 0.5040615797042847), 
('Athens_Greece', 0.5034108757972717)]

64. アナロジーデータでの実験

ここでダウンロードしたアナロジー評価データには、(Athens-Greece, Tokyo-Japan)のように、意味的アナロジーを評価するための組と、(walk-walks, write-writes)のように文法的アナロジーを評価する組が含まれます。

txtファイルの中身をみると分かりますが、gramという単語が入っている行以降は文法的アナロジーを評価する組が含まれているデータになっています。

"""
64. アナロジーデータでの実験
単語アナロジーの評価データをダウンロードし，vec(2列目の単語) - vec(1列目の単語) + vec(3列目の単語)を計算し，
そのベクトルと類似度が最も高い単語と，その類似度を求めよ．求めた単語と類似度は，各事例の末尾に追記せよ．
"""

from gensim.models import KeyedVectors


if __name__ == "__main__":
    # ref. https://radimrehurek.com/gensim/models/word2vec.html#usage-examples
    model = KeyedVectors.load_word2vec_format('./GoogleNews-vectors-negative300.bin.gz', binary=True)

    with open('./questions-words.txt', 'r') as f1, open('./questions-words-add.txt', 'w') as f2:
        for line in f1:  # f1から1行ずつ読込み、求めた単語と類似度を追加してf2に書込む
            line = line.split()
            if line[0] == ':':
                category = line[1]
            else:
                word, cos = model.most_similar(positive=[line[1], line[2]], negative=[line[0]], topn=1)[0]
                f2.write(' '.join([category] + line + [word, str(cos) + '\n']))

65. アナロジータスクでの正解率

"""
65. アナロジータスクでの正解率
64の実行結果を用い，意味的アナロジー（semantic analogy）と文法的アナロジー（syntactic analogy）の正解率を測定せよ．
"""

from gensim.models import KeyedVectors


if __name__ == "__main__":
    # ref. https://radimrehurek.com/gensim/models/word2vec.html#usage-examples
    model = KeyedVectors.load_word2vec_format('./GoogleNews-vectors-negative300.bin.gz', binary=True)

    with open('./questions-words-add.txt', 'r') as f:
        sem_cnt = 0
        sem_cor = 0
        syn_cnt = 0
        syn_cor = 0
        for line in f:
            line = line.split()
            if not line[0].startswith('gram'):
                sem_cnt += 1
            if line[4] == line[5]:
                sem_cor += 1
            else:
                syn_cnt += 1
            if line[4] == line[5]:
                syn_cor += 1

    print(f'意味的アナロジー正解率: {sem_cor/sem_cnt:.3f}')
    print(f'文法的アナロジー正解率: {syn_cor/syn_cnt:.3f}')

66. WordSimilarity-353での評価

相関係数は約0.7くらいになりました。

"""
66. WordSimilarity-353での評価
The WordSimilarity-353 Test Collectionの評価データをダウンロードし，単語ベクトルにより計算される類似度のランキングと，
人間の類似度判定のランキングの間のスピアマン相関係数を計算せよ．
"""

import numpy as np
import pandas as pd
from gensim.models import KeyedVectors
from tqdm import tqdm
tqdm.pandas()


def cos_sim(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))


def calc_cos_sim(row):
    w1v = model[row['Word 1']]
    w2v = model[row['Word 2']]
    return cos_sim(w1v, w2v)


if __name__ == "__main__":

    global model
    # ref. https://radimrehurek.com/gensim/models/word2vec.html#usage-examples
    model = KeyedVectors.load_word2vec_format('./GoogleNews-vectors-negative300.bin.gz', binary=True)
    combined_df = pd.read_csv('combined.csv')
    combined_df['cos_sim'] = combined_df.progress_apply(calc_cos_sim, axis=1)
    spearman_corr = combined_df[['Human (mean)', 'cos_sim']].corr(method='spearman')
    print(f'spearman corr: {spearman_corr}')

実行結果

spearman corr:
               Human (mean)   cos_sim
Human (mean)      1.000000  0.700017
cos_sim           0.700017  1.000000

67. k-meansクラスタリング

"""
67. k-meansクラスタリング
国名に関する単語ベクトルを抽出し，k-meansクラスタリングをクラスタ数k=5として実行せよ．
"""

import numpy as np
import pandas as pd
from gensim.models import KeyedVectors
from sklearn.cluster import KMeans
from tqdm import tqdm
tqdm.pandas()


if __name__ == "__main__":

    # ref. https://www.worldometers.info/geography/alphabetical-list-of-countries/
    countries_df = pd.read_csv('countries.tsv', sep='\t')

    # ref. https://radimrehurek.com/gensim/models/word2vec.html#usage-examples
    model = KeyedVectors.load_word2vec_format('./GoogleNews-vectors-negative300.bin.gz', binary=True)

    # モデルに含まれる国だけを抽出
    conclusion_model_countries = [country for country in countries_df['Country'].tolist() if country in model]
    countries_df = countries_df[countries_df['Country'].isin(conclusion_model_countries)].reset_index(drop=True)

    # 国ベクトルの取得
    countries_vec = [model[country] for country in countries_df['Country'].tolist()]

    # k-meansクラスタリング
    n = 5
    kmeans = KMeans(n_clusters=n, random_state=42)
    kmeans.fit(countries_vec)
    for i in range(n):
        cluster = np.where(kmeans.labels_ == i)[0]
        print(f'cluster: {i}')
        print(countries_df.iloc[cluster]["Country"].tolist())

実行結果

cluster: 0
['Algeria', 'Angola', 'Benin', 'Botswana', 'Burundi', 'Cameroon', 'Chad', 'Comoros', 'Djibouti', 'Egypt', 'Eritrea', 'Ethiopia', 'Gabon', 'Gambia', 'Ghana', 'Guinea', 'Kenya', 'Lesotho', 'Liberia', 'Libya', 'Madagascar', 'Malawi', 'Mali', 'Mauritania', 'Morocco', 'Mozambique', 'Namibia', 'Niger', 'Nigeria', 'Rwanda', 'Senegal', 'Somalia', 'Sudan', 'Tanzania', 'Togo', 'Tunisia', 'Uganda', 'Yemen', 'Zambia', 'Zimbabwe']
cluster: 1
['Australia', 'Bahamas', 'Bahrain', 'Bangladesh', 'Barbados', 'Belize', 'Bhutan', 'Brunei', 'Cambodia', 'Dominica', 'Fiji', 'Grenada', 'Guyana', 'Indonesia', 'Jamaica', 'Kiribati', 'Laos', 'Malaysia', 'Maldives', 'Mauritius', 'Micronesia', 'Nauru', 'Nepal', 'Oman', 'Palau', 'Philippines', 'Qatar', 'Samoa', 'Seychelles', 'Singapore', 'Suriname', 'Thailand', 'Tonga', 'Tuvalu', 'Vanuatu']
cluster: 2
['Afghanistan', 'Argentina', 'Bolivia', 'Brazil', 'Canada', 'Chile', 'China', 'Colombia', 'Cuba', 'Ecuador', 'Guatemala', 'Haiti', 'Honduras', 'India', 'Iraq', 'Japan', 'Jordan', 'Kuwait', 'Lebanon', 'Mexico', 'Mongolia', 'Nicaragua', 'Pakistan', 'Panama', 'Paraguay', 'Peru', 'Uruguay', 'Venezuela', 'Vietnam']
cluster: 3
['Armenia', 'Azerbaijan', 'Belarus', 'Georgia', 'Iran', 'Israel', 'Kazakhstan', 'Kyrgyzstan', 'Moldova', 'Russia', 'Syria', 'Tajikistan', 'Turkey', 'Turkmenistan', 'Ukraine', 'Uzbekistan']
cluster: 4
['Albania', 'Andorra', 'Austria', 'Belgium', 'Bulgaria', 'Croatia', 'Cyprus', 'Denmark', 'Estonia', 'Finland', 'France', 'Germany', 'Greece', 'Hungary', 'Iceland', 'Ireland', 'Italy', 'Latvia', 'Liechtenstein', 'Lithuania', 'Luxembourg', 'Malta', 'Monaco', 'Montenegro', 'Netherlands', 'Norway', 'Poland', 'Portugal', 'Romania', 'Serbia', 'Slovakia', 'Slovenia', 'Spain', 'Sweden', 'Switzerland']

68. Ward法によるクラスタリング

"""
68. Ward法によるクラスタリング
国名に関する単語ベクトルに対し，Ward法による階層型クラスタリングを実行せよ．さらに，クラスタリング結果をデンドログラムとして可視化せよ．
"""

import numpy as np
import pandas as pd
from gensim.models import KeyedVectors
from sklearn.cluster import KMeans
from matplotlib import pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage


if __name__ == "__main__":

    # ref. https://www.worldometers.info/geography/alphabetical-list-of-countries/
    countries_df = pd.read_csv('countries.tsv', sep='\t')

    # ref. https://radimrehurek.com/gensim/models/word2vec.html#usage-examples
    model = KeyedVectors.load_word2vec_format('./GoogleNews-vectors-negative300.bin.gz', binary=True)

    # モデルに含まれる国だけを抽出(195ヵ国→155ヵ国になる)
    conclusion_model_countries = [country for country in countries_df['Country'].tolist() if country in model]
    countries_df = countries_df[countries_df['Country'].isin(conclusion_model_countries)].reset_index(drop=True)

    # 国ベクトルの取得
    countries_vec = [model[country] for country in countries_df['Country'].tolist()]

    # Ward法によるクラスタリング
    Z = linkage(countries_vec, method='ward')
    dendrogram(Z, labels=countries_df['Country'].tolist())

    plt.figure(figsize=(15, 5))
    plt.show()

実行結果

69. t-SNEによる可視化

通常の可視化と、adjust_text*1を用いてちょっと見やすくした可視化を比較してみました。
最後に前項で行ったクラスタ情報で色分けもしています。それなりに良い圧縮ができていそうです。

"""
69. t-SNEによる可視化
ベクトル空間上の国名に関する単語ベクトルをt-SNEで可視化せよ．
"""

import numpy as np
import pandas as pd
from gensim.models import KeyedVectors
from sklearn.cluster import KMeans
from sklearn.manifold import TSNE
from matplotlib import pyplot as plt
from adjustText import adjust_text


if __name__ == "__main__":

    # ref. https://www.worldometers.info/geography/alphabetical-list-of-countries/
    countries_df = pd.read_csv('countries.tsv', sep='\t')

    # ref. https://radimrehurek.com/gensim/models/word2vec.html#usage-examples
    model = KeyedVectors.load_word2vec_format('./GoogleNews-vectors-negative300.bin.gz', binary=True)

    # モデルに含まれる国だけを抽出(195ヵ国→155ヵ国になる)
    conclusion_model_countries = [country for country in countries_df['Country'].tolist() if country in model]
    countries_df = countries_df[countries_df['Country'].isin(conclusion_model_countries)].reset_index(drop=True)

    # 国ベクトルの取得
    countries_vec = [model[country] for country in countries_df['Country'].tolist()]

    # 圧縮
    tsne = TSNE(random_state=42, n_iter=15000, metric='cosine')
    embs = tsne.fit_transform(countries_vec)

    # プロット
    plt.figure(figsize=(10, 10))
    plt.scatter(np.array(embs).T[0], np.array(embs).T[1])
    for (x, y), name in zip(embs, countries_df['Country'].tolist()):
        plt.annotate(name, (x, y))
    plt.show()

    # adjust_textを用いてちょっとみやすくプロット
    texts = []
    fig, ax = plt.subplots(figsize=(10, 10))
    for x, y, name in zip(np.array(embs).T[0], np.array(embs).T[1], countries_df['Country'].tolist()):
        ax.plot(x, y, marker='o', linestyle='', ms=10, color='blue')
        plt_text = ax.annotate(name, (x, y), fontsize=10, color='black')
        texts.append(plt_text)
    adjust_text(texts, arrowprops=dict(arrowstyle='->', color='red'))
    plt.show()

    # クラスタごとに色分けして出力
    n = 5
    kmeans = KMeans(n_clusters=n, random_state=42)
    kmeans.fit(countries_vec)
    countries_df.loc[:, 'cluster'] = kmeans.labels_
    texts = []
    fig, ax = plt.subplots(figsize=(10, 10))
    for x, y, name, cluster in zip(np.array(embs).T[0], np.array(embs).T[1],
                                   countries_df['Country'].tolist(), countries_df['cluster'].tolist()):
        if cluster == 0:
            ax.plot(x, y, marker='o', linestyle='', ms=10, color='g')
            plt_text = ax.annotate(name, (x, y), fontsize=10, color='g')
        elif cluster == 1:
            ax.plot(x, y, marker='o', linestyle='', ms=10, color='b')
            plt_text = ax.annotate(name, (x, y), fontsize=10, color='b')
        elif cluster == 2:
            ax.plot(x, y, marker='o', linestyle='', ms=10, color='m')
            plt_text = ax.annotate(name, (x, y), fontsize=10, color='m')
        elif cluster == 3:
            ax.plot(x, y, marker='o', linestyle='', ms=10, color='c')
            plt_text = ax.annotate(name, (x, y), fontsize=10, color='c')
        else:
            ax.plot(x, y, marker='o', linestyle='', ms=10, color='y')
            plt_text = ax.annotate(name, (x, y), fontsize=10, color='y')
        texts.append(plt_text)
    adjust_text(texts, arrowprops=dict(arrowstyle='->', color='r'))
    plt.show()

実行結果

左：通常のプロット / 右：adjust_textを用いたプロット

青色とピンク色のクラスタが若干ばらついていますが、それ以外は良さそうです。

クラスタ情報も付与したプロット

【言語処理100本ノック 2020】 6章をPythonで解いた

2021-06-06T09:55:12+09:00

こんにちは。takapy（@takapy0210）です。

本エントリは言語処理100本ノック2020の6章を解いてみたので、それの備忘です。
途中まで解いて放置していました（）が、続きをやる機会を得たので簡単な解説をつけながら紹介していきます。

例によってコードはGithubに置いてあります。

*2:https://github.com/optuna/optuna

第6章: 機械学習

第6章: 機械学習

本章では，Fabio Gasparetti氏が公開しているNews Aggregator Data Setを用い，ニュース記事の見出しを「ビジネス」「科学技術」「エンターテイメント」「健康」のカテゴリに分類するタスク（カテゴリ分類）に取り組む．

50. データの入手・整形

"""
News Aggregator Data Setをダウンロードし、以下の要領で学習データ（train.txt），検証データ（valid.txt），評価データ（test.txt）を作成せよ．
1. ダウンロードしたzipファイルを解凍し，readme.txtの説明を読む．
"""

import zipfile

with zipfile.ZipFile('NewsAggregatorDataset.zip') as existing_zip:
    existing_zip.extractall()

zipfileを用いて解凍します。

"""
News Aggregator Data Setをダウンロードし、以下の要領で学習データ（train.txt），検証データ（valid.txt），評価データ（test.txt）を作成せよ．

2. 情報源（publisher）が”Reuters”, “Huffington Post”, “Businessweek”, “Contactmusic.com”, “Daily Mail”の事例（記事）のみを抽出する．
3. 抽出された事例をランダムに並び替える．
4. 抽出された事例の80%を学習データ，残りの10%ずつを検証データと評価データに分割し，それぞれtrain.txt，valid.txt，test.txtというファイル名で保存する．
   ファイルには，１行に１事例を書き出すこととし，カテゴリ名と記事見出しのタブ区切り形式とせよ（このファイルは後に問題70で再利用する）．

学習データと評価データを作成したら，各カテゴリの事例数を確認せよ
"""

import pandas as pd
from sklearn.model_selection import train_test_split

# 2.
df = pd.read_csv('newsCorpora.csv', header=None, sep='\t',
                 names=['id', 'title', 'url', 'publisher', 'category', 'story', 'hostname', 'timestamp'])
cols = ['Reuters', 'Huffington Post', 'Businessweek', 'Contactmusic.com', 'Daily Mail']
df = df[df['publisher'].isin(cols)]

# 3.
df = df.sample(frac=1, random_state=42).reset_index(drop=True)
print(df.head())

# 4.
# カテゴリに分類するタスク（カテゴリ分類）に取り組む．とあるので、カテゴリで層化抽出する.
train, test = train_test_split(df, test_size=0.2, random_state=42, stratify=df['category'])
valid, test = train_test_split(test, test_size=0.5, random_state=42, stratify=test['category'])

# データの保存
train.to_csv('train.txt', sep='\t', index=False)
valid.to_csv('valid.txt', sep='\t', index=False)
test.to_csv('test.txt', sep='\t', index=False)

print('train ---- ', train.shape)
print(train['category'].value_counts())
print('valid ---- ', valid.shape)
print(valid['category'].value_counts())
print('test ----', test.shape)
print(test['category'].value_counts())

カテゴリを予測するモデルを生成するので、train_test_splitのstratifyにカテゴリを指定して分割しています。

実行結果

       id                                              title  ...              hostname      timestamp
0  173934  Taco Bell reveals 'secret' ingredients of myst...  ...   www.dailymail.co.uk  1398870059991
1   41713  RPT-UPDATE 2-Carlyle hires JPMorgan's Cavanagh...  ...       www.reuters.com  1395771699595
2  322477  Argentina Deposits $1 Billion For June 30 Bond...  ...  www.businessweek.com  1403853546347
3  114448  Banksy art work showing government agents spyi...  ...   www.dailymail.co.uk  1397518333460
4  178913  An acrobatic stunt went horribly wrong on Sund...  ...   www.dailymail.co.uk  1399320829491

[5 rows x 8 columns]
train ----  (10672, 8)
b    4502
e    4223
t    1219
m     728
Name: category, dtype: int64
valid ----  (1334, 8)
b    562
e    528
t    153
m     91
Name: category, dtype: int64
test ---- (1334, 8)
b    563
e    528
t    152
m     91
Name: category, dtype: int64

51. 特徴量抽出

"""
51. 特徴量抽出
学習データ，検証データ，評価データから特徴量を抽出し，それぞれtrain.feature.txt，valid.feature.txt，test.feature.txtというファイル名で保存せよ． 
なお，カテゴリ分類に有用そうな特徴量は各自で自由に設計せよ．記事の見出しを単語列に変換したものが最低限のベースラインとなるであろう．
"""

import pandas as pd
import pickle
import texthero as hero
from sklearn.feature_extraction.text import TfidfVectorizer


def load_data() -> dict:
    """データの読み込み"""
    # 読み込むファイルを定義
    inputs = {
        'train': 'train.txt',
        'valid': 'valid.txt',
        'test': 'test.txt',
    }

    dfs = {}
    for k, v in inputs.items():
        dfs[k] = pd.read_csv(v, sep='\t')

    # データチェック
    for k in inputs.keys():
        print(k, '---', dfs[k].shape)
        print(dfs[k].head())

    return dfs


def preprocess(text) -> str:
    """前処理"""
    clean_text = hero.clean(text, pipeline=[
        hero.preprocessing.fillna,
        hero.preprocessing.lowercase,
        hero.preprocessing.remove_digits,
        hero.preprocessing.remove_punctuation,
        hero.preprocessing.remove_diacritics,
        hero.preprocessing.remove_stopwords
    ])

    return clean_text


class FeatureExtraction():

    def __init__(self, min_df=1, max_df=1) -> None:
        self.tfidf_vec = TfidfVectorizer(min_df=min_df, max_df=max_df, ngram_range=(1, 2))

    def fit(self, input_text) -> None:
        self.tfidf_vec.fit(input_text)

    def transform(self, input_text) -> pd.DataFrame:
        tfidf_vec = self.tfidf_vec.transform(input_text)
        return tfidf_vec


if __name__ == "__main__":

    dfs = load_data()

    # trainとtestを生成
    train = pd.concat([dfs['train'], dfs['valid']], axis=0).reset_index(drop=True)
    test = dfs['test']

    # 前処理
    train['clean_title'] = train[['title']].apply(preprocess)
    test['clean_title'] = test[['title']].apply(preprocess)

    # 特徴量抽出
    feat = FeatureExtraction(min_df=10, max_df=0.1)
    feat.fit(train['clean_title'])
    X_train = feat.transform(train['clean_title'])
    X_test = feat.transform(test['clean_title'])
    pickle.dump(feat.tfidf_vec, open('tfidf_vec.pkl', 'wb'))  # 推論時にも使用するため、保存

    # DFに変換
    X_train = pd.DataFrame(X_train.toarray(), columns=feat.tfidf_vec.get_feature_names())
    X_test = pd.DataFrame(X_test.toarray(), columns=feat.tfidf_vec.get_feature_names())

    # 分割して保存
    X_valid = X_train[len(dfs['train']):].reset_index(drop=True)
    X_train = X_train[:len(dfs['train'])].reset_index(drop=True)

    X_train.to_csv('X_train.txt', sep='\t', index=False)
    X_valid.to_csv('X_valid.txt', sep='\t', index=False)
    X_test.to_csv('X_test.txt', sep='\t', index=False)

    print('X_train ---- ', X_train.shape)
    print('X_valid ---- ', X_valid.shape)
    print('X_test ---- ', X_test.shape)

texthere*1を用いてテキストの前処理を行っています。

特徴量抽出はシンプルにTFIDFを使いました。
FeatureExtractionクラスを生成して、fit()とtrainform()を分けることで、検証データに含まれるテキストは含まれないようにしています。
また、TfidfVectorizerのオブジェクトは以降のコードで使用するため、pkl形式で出力しています。

実行結果

train --- (10672, 8)
       id                                              title  ...                hostname      timestamp
0  104130  UPDATE 1-Outkast goes back to 1990s hip hop at...  ...         www.reuters.com  1397300285495
1  353755  China's Stocks Head for Weekly Gain on Economi...  ...    www.businessweek.com  1404455149471
2   10240  Rare Diamond Shows Earth's Interior Is All Wet...  ...  www.huffingtonpost.com  1394715425065
3  208228  China Credit Gauge Declines as Officials Seek ...  ...    www.businessweek.com  1399970872744
4  288066  Angelina Jolie, Daniel Day Lewis & Dame Maggie...  ...    www.contactmusic.com  1402817031792

[5 rows x 8 columns]
valid --- (1334, 8)
       id                                              title  ...              hostname      timestamp
0  230506  PRECIOUS-Gold ends flat as S&P 500 rises; plat...  ...        in.reuters.com  1400683341700
1    8444  CORRECTED-China Premier Li calls for relevant ...  ...        in.reuters.com  1394707522801
2  132330  Asia stocks subdued, Nikkei weak on profit taking  ...  www.businessweek.com  1397825631720
3   74570  Is 'How I Met Your Mother' The Best Ensemble C...  ...  www.contactmusic.com  1396349515070
4   56261  Russia says Ukrainian troops loyal to Kiev hav...  ...       www.reuters.com  1396011284905

[5 rows x 8 columns]
test --- (1334, 8)
       id                                              title  ...              hostname      timestamp
0  306565  T-Mobile Just Did What Amazon's Fire Phone Cou...  ...  www.businessweek.com  1403198584880
1  228972          Seth McFarlane takes aim at western genre  ...   www.dailymail.co.uk  1400653319735
2   62224  Home > Kim Kardashian > Kim Kardashian To Try ...  ...  www.contactmusic.com  1396074886259
3  322698   GoPro's IPO priced at $24 per share: underwriter  ...       www.reuters.com  1403854662724
4   76854  Facebook's Mark Zuckerberg earned $3.3billion ...  ...   www.dailymail.co.uk  1396367931628

X_train ----  (10672, 2364)
X_valid ----  (1334, 2364)
X_test ----  (1334, 2364)

52. 学習

"""
52. 学習
51で構築した学習データを用いて，ロジスティック回帰モデルを学習せよ．
"""

import pandas as pd
import pickle
from sklearn.linear_model import LogisticRegression


def load_data() -> dict:
    """データの読み込み"""
    # 読み込むファイルを定義
    inputs = {
        'train': 'train.txt',
        'X_train': 'X_train.txt',
    }

    dfs = {}
    for k, v in inputs.items():
        dfs[k] = pd.read_csv(v, sep='\t')

    return dfs


if __name__ == "__main__":

    # データのロード
    dfs = load_data()
    assert dfs['train'].shape[0] == dfs['X_train'].shape[0], '長さが不正です'

    # モデルの学習
    lg = LogisticRegression(random_state=42, max_iter=10000)
    lg.fit(dfs['X_train'], dfs['train']['category'])

    # モデルの保存
    pickle.dump(lg, open('logreg.pkl', 'wb'))

ここは特に工夫点はないです。素直に学習させています。

53. 予測

"""
53. 予測
52で学習したロジスティック回帰モデルを用い，与えられた記事見出しからカテゴリとその予測確率を計算するプログラムを実装せよ．
"""

import pickle
import numpy as np
import pandas as pd
import texthero as hero


class PredictAPI():

    def __init__(self):
        self.tfidf = pickle.load(open('tfidf_vec.pkl', 'rb'))
        self.logreg = pickle.load(open('logreg.pkl', 'rb'))

    def preprocess(self, input_text):
        """前処理"""
        clean_text = hero.clean(input_text, pipeline=[
            hero.preprocessing.fillna,
            hero.preprocessing.lowercase,
            hero.preprocessing.remove_digits,
            hero.preprocessing.remove_punctuation,
            hero.preprocessing.remove_diacritics,
            hero.preprocessing.remove_stopwords
        ])
        return clean_text

    def transform(self, input_text):
        clean_text = self.preprocess(input_text)
        tfidf_vec = self.tfidf.transform(clean_text)
        return tfidf_vec

    def predict(self, input_text):
        tfidf_vec = self.transform(input_text)
        # 推論
        predict = [np.max(self.logreg.predict_proba(tfidf_vec), axis=1), self.logreg.predict(tfidf_vec)]
        return predict


def load_data() -> dict:
    """データの読み込み"""
    # 読み込むファイルを定義
    inputs = {
        'train': 'train.txt',
    }

    dfs = {}
    for k, v in inputs.items():
        dfs[k] = pd.read_csv(v, sep='\t')

    return dfs


if __name__ == "__main__":

    # データのロード
    dfs = load_data()

    # テキストを与えるとそのカテゴリを予測できるようにする
    api = PredictAPI()
    pred = api.predict(dfs['train']['title'])

    dfs['train']['pred_proba'] = pred[0]
    dfs['train']['pred'] = pred[1]

    print(dfs['train'][['title', 'category', 'pred_proba', 'pred']].head())

ここは実際のAPIをイメージして、生のテキストデータをapiに渡して推論できるようにPredictAPIクラスを生成しています。
（※以降のコードにもPredictAPIが出現します）

実行結果

                                               title category  pred_proba pred
0  UPDATE 1-Outkast goes back to 1990s hip hop at...        e    0.881668    e
1  China's Stocks Head for Weekly Gain on Economi...        b    0.982703    b
2  Rare Diamond Shows Earth's Interior Is All Wet...        t    0.729923    t
3  China Credit Gauge Declines as Officials Seek ...        b    0.944189    b
4  Angelina Jolie, Daniel Day Lewis & Dame Maggie...        e    0.942834    e

54. 正解率の計測

"""
54. 正解率の計測Permalink
52で学習したロジスティック回帰モデルの正解率を，学習データおよび評価データ上で計測せよ．
"""

import pickle
import numpy as np
import pandas as pd
import texthero as hero


class PredictAPI():

    def __init__(self):
        self.tfidf = pickle.load(open('tfidf_vec.pkl', 'rb'))
        self.logreg = pickle.load(open('logreg.pkl', 'rb'))

    def preprocess(self, input_text):
        """前処理"""
        clean_text = hero.clean(input_text, pipeline=[
            hero.preprocessing.fillna,
            hero.preprocessing.lowercase,
            hero.preprocessing.remove_digits,
            hero.preprocessing.remove_punctuation,
            hero.preprocessing.remove_diacritics,
            hero.preprocessing.remove_stopwords
        ])
        return clean_text

    def transform(self, input_text):
        clean_text = self.preprocess(input_text)
        tfidf_vec = self.tfidf.transform(clean_text)
        return tfidf_vec

    def predict(self, input_text):
        tfidf_vec = self.transform(input_text)
        # 推論
        predict = [np.max(self.logreg.predict_proba(tfidf_vec), axis=1), self.logreg.predict(tfidf_vec)]
        return predict


def load_data() -> dict:
    """データの読み込み"""
    # 読み込むファイルを定義
    inputs = {
        'train': 'train.txt',
        'test': 'test.txt',
    }

    dfs = {}
    for k, v in inputs.items():
        dfs[k] = pd.read_csv(v, sep='\t')

    return dfs


if __name__ == "__main__":

    # データのロード
    dfs = load_data()

    # テキストを与えるとそのカテゴリを予測できるようにする
    api = PredictAPI()
    train_score = api.logreg.score(api.transform(dfs['train']['title']), dfs['train']['category'])
    test_score = api.logreg.score(api.transform(dfs['test']['title']), dfs['test']['category'])

    print(f'train score: {train_score}')
    print(f'test score: {test_score}')

シンプルな特徴量の割にはそこそこの精度がでています。

実行結果

train score: 0.9284107946026986
test score: 0.8755622188905547

55. 混同行列の作成

"""
55. 混同行列の作成
52で学習したロジスティック回帰モデルの混同行列（confusion matrix）を，学習データおよび評価データ上で作成せよ．
"""

import pickle
import numpy as np
import pandas as pd
import texthero as hero
from sklearn.metrics import confusion_matrix


class PredictAPI():

    def __init__(self):
        self.tfidf = pickle.load(open('tfidf_vec.pkl', 'rb'))
        self.logreg = pickle.load(open('logreg.pkl', 'rb'))

    def preprocess(self, input_text):
        """前処理"""
        clean_text = hero.clean(input_text, pipeline=[
            hero.preprocessing.fillna,
            hero.preprocessing.lowercase,
            hero.preprocessing.remove_digits,
            hero.preprocessing.remove_punctuation,
            hero.preprocessing.remove_diacritics,
            hero.preprocessing.remove_stopwords
        ])
        return clean_text

    def transform(self, input_text):
        clean_text = self.preprocess(input_text)
        tfidf_vec = self.tfidf.transform(clean_text)
        return tfidf_vec

    def predict(self, input_text):
        tfidf_vec = self.transform(input_text)
        # 推論
        predict = [np.max(self.logreg.predict_proba(tfidf_vec), axis=1), self.logreg.predict(tfidf_vec)]
        return predict


def load_data() -> dict:
    """データの読み込み"""
    # 読み込むファイルを定義
    inputs = {
        'train': 'train.txt',
        'test': 'test.txt',
    }

    dfs = {}
    for k, v in inputs.items():
        dfs[k] = pd.read_csv(v, sep='\t')

    return dfs


if __name__ == "__main__":

    # データのロード
    dfs = load_data()

    # テキストを与えるとそのカテゴリを予測できるようにする
    api = PredictAPI()
    y_train = dfs['train']['category']
    y_test = dfs['test']['category']
    train_pred = api.predict(dfs['train']['title'])[1]
    test_pred = api.predict(dfs['test']['title'])[1]

    print(f'train confusion matrix:\n {confusion_matrix(y_train, train_pred)}')
    print(f'test confusion matrix:\n {confusion_matrix(y_test, test_pred)}')

実行結果

train confusion matrix:
 [[4366   71    8   57]
 [  50 4159    5    9]
 [ 102  123  493   10]
 [ 191  127   11  890]]
test confusion matrix:
 [[526  24   2  11]
 [ 17 506   2   3]
 [ 12  24  55   0]
 [ 43  27   1  81]]

56. 適合率，再現率，F1スコアの計測

"""
56. 適合率，再現率，F1スコアの計測
52で学習したロジスティック回帰モデルの適合率，再現率，F1スコアを，評価データ上で計測せよ．
カテゴリごとに適合率，再現率，F1スコアを求め，カテゴリごとの性能をマイクロ平均（micro-average）とマクロ平均（macro-average）で統合せよ
"""

import pickle
import numpy as np
import pandas as pd
import texthero as hero
from sklearn.metrics import classification_report


class PredictAPI():

    def __init__(self):
        self.tfidf = pickle.load(open('tfidf_vec.pkl', 'rb'))
        self.logreg = pickle.load(open('logreg.pkl', 'rb'))

    def preprocess(self, input_text):
        """前処理"""
        clean_text = hero.clean(input_text, pipeline=[
            hero.preprocessing.fillna,
            hero.preprocessing.lowercase,
            hero.preprocessing.remove_digits,
            hero.preprocessing.remove_punctuation,
            hero.preprocessing.remove_diacritics,
            hero.preprocessing.remove_stopwords
        ])
        return clean_text

    def transform(self, input_text):
        clean_text = self.preprocess(input_text)
        tfidf_vec = self.tfidf.transform(clean_text)
        return tfidf_vec

    def predict(self, input_text):
        tfidf_vec = self.transform(input_text)
        # 推論
        predict = [np.max(self.logreg.predict_proba(tfidf_vec), axis=1), self.logreg.predict(tfidf_vec)]
        return predict


def load_data() -> dict:
    """データの読み込み"""
    # 読み込むファイルを定義
    inputs = {
        'train': 'train.txt',
        'test': 'test.txt',
    }

    dfs = {}
    for k, v in inputs.items():
        dfs[k] = pd.read_csv(v, sep='\t')

    return dfs


if __name__ == "__main__":

    # データのロード
    dfs = load_data()

    # テキストを与えるとそのカテゴリを予測できるようにする
    api = PredictAPI()
    y_train = dfs['train']['category']
    y_test = dfs['test']['category']
    train_pred = api.predict(dfs['train']['title'])[1]
    test_pred = api.predict(dfs['test']['title'])[1]

    print(f'train classification_report:\n {classification_report(y_train, train_pred)}')
    print(f'test classification_report:\n {classification_report(y_test, test_pred)}')

classification_report便利ですね。

実行結果

train classification_report:
               precision    recall  f1-score   support

           b       0.93      0.97      0.95      4502
           e       0.93      0.98      0.96      4223
           m       0.95      0.68      0.79       728
           t       0.92      0.73      0.81      1219

    accuracy                           0.93     10672
   macro avg       0.93      0.84      0.88     10672
weighted avg       0.93      0.93      0.93     10672

test classification_report:
               precision    recall  f1-score   support

           b       0.88      0.93      0.91       563
           e       0.87      0.96      0.91       528
           m       0.92      0.60      0.73        91
           t       0.85      0.53      0.66       152

    accuracy                           0.88      1334
   macro avg       0.88      0.76      0.80      1334
weighted avg       0.88      0.88      0.87      1334

57. 特徴量の重みの確認

"""
57. 特徴量の重みの確認
52で学習したロジスティック回帰モデルの中で，重みの高い特徴量トップ10と，重みの低い特徴量トップ10を確認せよ．
"""

import pickle
import numpy as np
import pandas as pd


def load_data() -> dict:
    """データの読み込み"""
    # 読み込むファイルを定義
    inputs = {
        'X_train': 'X_train.txt',
    }

    dfs = {}
    for k, v in inputs.items():
        dfs[k] = pd.read_csv(v, sep='\t')

    return dfs


if __name__ == "__main__":

    # データのロード
    dfs = load_data()

    features = dfs['X_train'].columns.values
    index = [i for i in range(1, 11)]

    # モデルのロード
    logreg = pickle.load(open('logreg.pkl', 'rb'))

    for c, coef in zip(logreg.classes_, logreg.coef_):
        print(f'category: {c}')
        best10 = pd.DataFrame(features[np.argsort(coef)[::-1][:10]], columns=['TOP'], index=index).T
        worst10 = pd.DataFrame(features[np.argsort(coef)[:10]], columns=['LOW'], index=index).T
        print(pd.concat([best10, worst10], axis=0))
        print('\n')

カテゴリはb = business, t = science and technology, e = entertainment, m = health なので、そこそこ直感的に重み付けされていそうです。

実行結果

category: b
        1          2         3       4      5      6       7          8       9    10
TOP    fed        ecb      bank  stocks  china   euro  dollar  obamacare  profit  ipo
LOW  ebola  microsoft  facebook   virus  heart  video    star      aereo  mother  fda


category: e
             1       2      3        4     5        6        7      8      9          10
TOP  kardashian   chris  movie  beyonce  film     star  trailer    kim   paul      miley
LOW          us  google  china    study    gm  billion      buy  sales  apple  microsoft


category: m
        1         2       3     4      5        6       7     8      9        10
TOP  ebola     study  cancer   fda   mers     drug  health   cdc  brain    cases
LOW     gm  facebook   apple  deal  sales  twitter     ceo  bank    fed  climate


category: t
         1         2      3          4        5         6       7      8        9           10
TOP  google  facebook  apple  microsoft  climate      nasa      gm  tesla  comcast  heartbleed
LOW  stocks      drug    fed     cancer  percent  american  shares    day      ecb     ukraine

58. 正則化パラメータの変更

"""
58. 正則化パラメータの変更Permalink
ロジスティック回帰モデルを学習するとき，正則化パラメータを調整することで，学習時の過学習（overfitting）の度合いを制御できる．
異なる正則化パラメータでロジスティック回帰モデルを学習し，学習データ，検証データ，および評価データ上の正解率を求めよ．実験の結果は，正則化パラメータを横軸，正解率を縦軸としたグラフにまとめよ．
"""

import numpy as np
import pandas as pd
import pickle
import texthero as hero
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt


class PredictAPI():

    def __init__(self, logreg_model):
        self.tfidf = pickle.load(open('tfidf_vec.pkl', 'rb'))
        self.logreg = logreg_model

    def preprocess(self, input_text):
        """前処理"""
        clean_text = hero.clean(input_text, pipeline=[
            hero.preprocessing.fillna,
            hero.preprocessing.lowercase,
            hero.preprocessing.remove_digits,
            hero.preprocessing.remove_punctuation,
            hero.preprocessing.remove_diacritics,
            hero.preprocessing.remove_stopwords
        ])
        return clean_text

    def transform(self, input_text):
        clean_text = self.preprocess(input_text)
        tfidf_vec = self.tfidf.transform(clean_text)
        return tfidf_vec

    def predict(self, input_text):
        tfidf_vec = self.transform(input_text)
        # 推論
        predict = [np.max(self.logreg.predict_proba(tfidf_vec), axis=1), self.logreg.predict(tfidf_vec)]
        return predict


def load_data() -> dict:
    """データの読み込み"""
    # 読み込むファイルを定義
    inputs = {
        'train': 'train.txt',
        'valid': 'valid.txt',
        'test': 'test.txt',
        'X_train': 'X_train.txt',
    }

    dfs = {}
    for k, v in inputs.items():
        dfs[k] = pd.read_csv(v, sep='\t')

    return dfs


if __name__ == "__main__":

    # データのロード
    dfs = load_data()
    assert dfs['train'].shape[0] == dfs['X_train'].shape[0], '長さが不正です'

    C_candidate = [0.1, 1.0, 10, 100]
    result = []
    y_train = dfs['train']['category']
    y_valid = dfs['valid']['category']
    y_test = dfs['test']['category']
    for C in C_candidate:
        # モデルの学習
        lg = LogisticRegression(random_state=42, max_iter=10000, C=C)
        lg.fit(dfs['X_train'], dfs['train']['category'])

        # 予測値の取得
        api = PredictAPI(lg)
        train_pred = api.predict(dfs['train']['title'])[1]
        valid_pred = api.predict(dfs['valid']['title'])[1]
        test_pred = api.predict(dfs['test']['title'])[1]

        # 正解率の算出
        train_accuracy = accuracy_score(y_train, train_pred)
        valid_accuracy = accuracy_score(y_valid, valid_pred)
        test_accuracy = accuracy_score(y_test, test_pred)

        # 結果の格納
        result.append([C, train_accuracy, valid_accuracy, test_accuracy])

    result = np.array(result).T
    plt.plot(result[0], result[1], label='train')
    plt.plot(result[0], result[2], label='valid')
    plt.plot(result[0], result[3], label='test')
    plt.ylim(0, 1.1)
    plt.ylabel('Accuracy')
    plt.xscale('log')
    plt.xlabel('C')
    plt.legend()
    plt.savefig('ans_58.png')

実行結果

59. ハイパーパラメータの探索

"""
59. ハイパーパラメータの探索
学習アルゴリズムや学習パラメータを変えながら，カテゴリ分類モデルを学習せよ．検証データ上の正解率が最も高くなる学習アルゴリズム・パラメータを求めよ．また，その学習アルゴリズム・パラメータを用いたときの評価データ上の正解率を求めよ．
"""

import numpy as np
import pandas as pd
import pickle
import texthero as hero
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import optuna


class PredictAPI():

    def __init__(self, model):
        self.tfidf = pickle.load(open('tfidf_vec.pkl', 'rb'))
        self.model = model

    def preprocess(self, input_text):
        """前処理"""
        clean_text = hero.clean(input_text, pipeline=[
            hero.preprocessing.fillna,
            hero.preprocessing.lowercase,
            hero.preprocessing.remove_digits,
            hero.preprocessing.remove_punctuation,
            hero.preprocessing.remove_diacritics,
            hero.preprocessing.remove_stopwords
        ])
        return clean_text

    def transform(self, input_text):
        clean_text = self.preprocess(input_text)
        tfidf_vec = self.tfidf.transform(clean_text)
        return tfidf_vec

    def predict(self, input_text):
        tfidf_vec = self.transform(input_text)
        # 推論
        predict = [np.max(self.model.predict_proba(tfidf_vec), axis=1), self.model.predict(tfidf_vec)]
        return predict


def load_data() -> dict:
    """データの読み込み"""
    # 読み込むファイルを定義
    inputs = {
        'train': 'train.txt',
        'valid': 'valid.txt',
        'test': 'test.txt',
        'X_train': 'X_train.txt',
    }

    dfs = {}
    for k, v in inputs.items():
        dfs[k] = pd.read_csv(v, sep='\t')

    return dfs


class HyperparameterSearch():

    def __init__(self, dfs):
        self.dfs = dfs

    def objective_lg(self, trial):
        """最適化"""
        l1_ratio = trial.suggest_uniform('l1_ratio', 0, 1)
        C = trial.suggest_loguniform('C', 1e-4, 1e2)

        # モデルの学習
        lg = LogisticRegression(random_state=42,
                                max_iter=10000,
                                penalty='elasticnet',
                                solver='saga',
                                l1_ratio=l1_ratio,
                                C=C)
        lg.fit(self.dfs['X_train'], dfs['train']['category'])

        # 予測値の取得
        api = PredictAPI(lg)
        valid_pred = api.predict(dfs['valid']['title'])[1]

        # 正解率の算出
        valid_accuracy = accuracy_score(dfs['valid']['category'], valid_pred)

        return valid_accuracy

    def search_optuna(self):
        study = optuna.create_study(direction='maximize')
        study.optimize(self.objective_lg, timeout=3600)
        return study


if __name__ == "__main__":

    # データのロード
    dfs = load_data()
    assert dfs['train'].shape[0] == dfs['X_train'].shape[0], '長さが不正です'

    # 最適化
    tuner = HyperparameterSearch(dfs)
    study = tuner.search_optuna()

    # 結果の表示
    print('Best trial:')
    trial = study.best_trial
    print('  Value: {:.3f}'.format(trial.value))
    print('  Params: ')
    for key, value in trial.params.items():
        print('    {}: {}'.format(key, value))

optuna*2を用いてパラメータ探索を行いました。（上記のコードは結構時間がかかります）
結果としては

l1_ratio: 0.190283773569564
C: 2.97492047697017

が良いパラメータとして推定されました。

実行結果

.....

[I 2021-06-05 16:45:50,322] Trial 25 finished with value: 0.8823088455772113 and parameters: {'l1_ratio': 0.39957785978633487, 'C': 2.820148509505984}. Best is trial 14 with value: 0.8845577211394303.
[I 2021-06-05 16:46:14,130] Trial 26 finished with value: 0.7931034482758621 and parameters: {'l1_ratio': 0.4399758132783767, 'C': 0.17773660929932344}. Best is trial 14 with value: 0.8845577211394303.
[I 2021-06-05 16:49:42,323] Trial 27 finished with value: 0.8718140929535232 and parameters: {'l1_ratio': 0.22609331565604585, 'C': 22.130119756833977}. Best is trial 14 with value: 0.8845577211394303.
Best trial:
  Value: 0.885
  Params: 
    l1_ratio: 0.190283773569564
    C: 2.97492047697017

実際にこのパラメータで再度学習させてみると下記のようにスコアが改善しました。

train score: 0.9562406296851574（元々のスコア：0.9284107946026986）
test score: 0.883808095952024（元々のスコア：0.8755622188905547）

*1:https://texthero.org/

atmaCup振り返り回でLTをしました（word2vecを利用した埋め込み分析と SWEMを用いた比較実験）

2021-02-27T12:23:00+09:00

概要

2021.02.18に行われた「atmaCup#9 オンサイトデータコンペ振り返り回」*1でLTをしました。
運営の方に許可をいただいたので、発表資料を公開します。

SWEMのサンプルコード

スライド中で紹介しているSWEMのコードはGithubにあげていますので、よければ参考にしてみてください。

分析者のためのデータ解釈学入門　データの本質をとらえる技術

*1:atma.connpass.com

【書籍メモ】分析者のためのデータ解釈学入門を読んだ

2021-01-17T20:13:48+09:00

こんにちは。takapyです。

本日は「分析者のためのデータ解釈学入門」を読んだので、そのメモ書きです。
（完全に自分用の備忘録なので、雑になっています）

作者:江崎貴裕
発売日: 2020/12/15
メディア: Kindle版

1部データの性質に関する基礎知識
2部データの分析に関する基礎知識
3部データの解釈・活用に関する基礎知識
最後に

1部データの性質に関する基礎知識

1部では、モデリングを行う手前の作業でもある、データをどのように取得してくるか、その時に気をつけておくポイントなどが綺麗にまとめられていました。
データ分析コンペなどでは、この「データ取得」という作業はすでに行われていることが多いと思いますが、実務を行う上でもデータそのものは、分析の土台であり、garbage in garbage out*1という言葉があるくらいとても重要なフローだったりするので、要点がまとめられている本書は貴重だと思いました。

個人的にはデータのバイアスに関するポイントは知らないことも多く、読んでいて楽しかったです。

データを観測すること

データ分析は観測したデータを人間が利用したすいように変換する作業
- 入力データの質が分析結果に
もともと数値化されていないものをデータ化しようとする際には、「測れる何か」で代替する必要がある
データを誤って解釈しないために
- 観測によって図られているものは何なのか
- 「本当に測りたいもの」の中でとらえられていない要素は何か
  - を明示的に把握することが大切
バイアスを取り除く方法
- そのバイアスがそもそも何から生じているものなのかを特定する
- そのバイアスの影響を何らかの方法で排除する

様々なバイアス

測定基準に関するバイアス

データが一定の基準で取得できていない場合に発生するバイアス
時間経過によりデータが変化することによるバイアス

選択バイアス

有名なのは、戦闘機の生存バイアスの話*2
ほかにも「サンプリングバイアス」「志願者バイアス」「出版バイアス」などがある

データ分析や統計調査の報告自体にもバイアスがかかっている（出版バイアス）話は、たしかにと思った。（仮説に合わないような分析結果になってしまった場合、それは公表されることはない、というお話）

観測介入に起因するバイアス

人間を対象とするデータ分析では、心理学的な効果によって、知りたい情報がうまくデータとして測定できないことがある
- 例えばアンケートに答えてもらう形で個人の考えをデータとして取得する場合には、以下のようなバイアスがかかる可能性がある
黙従傾向
- 「はい/いいえ」で応える質問などで肯定的な選択肢を答えやすい
中心化傾向
- 「・全く同意できない・やや同意できない・どちらともいえない・やや同意できる・非常に同意できる」から1つ選ぶ場合、真ん中の選択肢が選ばれやすい
キャリーオーバー効果
- 前の質問への回答が次の質問への回答に影響する
質問文での誘導
- 質問文に余計な情報を付与して、誘導回答させるもの
回答者が後ろめたいと思っている事柄に関しては、正確なデータが得られないことがある
- その場合は、ランダム回答法で解消できる

データの扱いに起因するバイアス

データを扱う人が意図的または無意識的にデータを歪めてしまうこと
一般的に、目標が決められていて、本人の裁量で簡単にコントロールできる数値については、こうした不正によってデータが不正確になる可能性がある

機械学習のプロジェクトは、データありきで推進されることが多いが、そのデータ自体がゴミだと、プロジェクトもゴミになってしまうので、改めてまずは疑うことを意識しようと思った。

また、自分のコンロトールできるバイアスとして、「データの扱いに起因するバイアス」はありそうだと思ったので、気を付けていきたい。

交絡因子と因果関係

観察データを用いた研究では、交絡因子を十分にコントロールすることが一般に難しく、注意が必要

武器軟膏*3の話はとても面白かった。
A/Bテストの基本ともいえるランダム化比較実験（RCT）から始まり、RCTが使えない場面での変数間の関係性を分析する手法について述べられている点も良いと思った。

データサンプリングの方法論

どういったことに注意してデータをサンプリングすればよいか
サンプルサイズの決め方
さまざまなサンプリング方法

2部データの分析に関する基礎知識

2部では具体的なデータ分析手法や考え方、問題設定毎にどんな手法に頼れば良いのかについて解説されていました。中でも、1変数や多変量など、変数の数に応じた分析アプローチの方法は参考になる部分も多かったです。
本書にも記載されていますが、各分析手法の細かい内容については述べられていないので、モデル毎の詳細は別の参考書にてキャッチアップする必要がありそうです。

一変数データの振る舞い

経験分布と理論分布を比較する際、ヒストグラムを利用してもよいが、定量的に分布の形を計りたいときは累積分布関数を用いると良い。

変数間の関係を調べる

なぜ「相関があるか」という分析手続きを踏む必要があるか
仮説検定の方法
2変数間で相関があるかどうかを検定することを、無相関検定という

多変量データを解釈する

探索的に相関をいろいろ調べていくと、本来は関係のない変数の間にも相関が見えてしまうことがある
- 例えば下図は正規分布からランダムに生成されたデータだが、1と2に相関があるように見える

検定の多重性を補正する方法
- Bonferroni法
- Holm法
  - これによって、データに見られる性質がどれだけ「たまたま」でないのかを正しく評価することができる
探索的データ分析で見つかった特徴が、実際に存在するものかどうかを調べる確証的データ分析を追加で行えば、仮説が1つに定まるので、多重比較の問題は発生しない

3つ以上の比較をする際には、分散分析が有効
偏相関で他の変数の効果を考慮することも方法の1つ

より複雑な相関の構造を分析する手法として、因子分析があげられる。
- 因子分析では、それぞれの変数を、少ない数の共通因子の和でうまく表現することを目指す
- 共通因子とは、勉強熱心かどうか、語学と理数科目のどちらが得意なタイプか、といった抽象的な要因のこと

より複雑な関係性を分析する手法として下記があげられる
- フラフィカルモデリング
- パス解析
- 共分散構造分析
- 構造方程式モデリング

各種手法の整理

探索的な分析をする場合
- 各種ペアの散布図および相関行列
  - 必要に応じて偏相関係数を計算して、特定の変数の影響を除くことも有効
- 多くの変数を少ない変数で表現しなおすことで、本質的な特徴を見つけたい場合に有効なのが、因子分析、主成分分析、クラスタリング
  - 因子得点、主成分得点に変換することで、さらなる分析も可能
- データのまとまりを見たい場合は、種々のクラスタリング手法を用いる。
  - 多次元尺度構成法などもある
説明変数としての影響を見たい場合
1. 目的変数も説明変数も両的変数の場合
  - 重回帰分析などを使用できる
2. 目的変数がカテゴリで、説明変数が量的変数の場合
  - ロジスティック回帰
3. 目的変数が量的変数で説明変数がカテゴリ
  - 分散分析や多重比較分析
  - 説明変数をダミー変数として、回帰分析を行うことも可能
4. 目的変数も説明変数もカテゴリ
  - クロス集計

数理モデリングの要点

数理モデリングは大きく分けて2つある
- 理解思考型モデリング
  - データの背後に存在する現象のメカニズムを理解するために行われるモデル
- 応用志向型モデリング
  - 予測やデータ生成などデータ活用を行うためのモデリング
理解思考型モデリングでは、データが足りない状況などに応用が効く
- 例えば、データの生成過程からボトムアップ的に分布を推定して、モデル化することができる
- 一方で、妥当な仮説から導かれた論理を重視するので、家庭に含められない要因が大きな影響を与えているケースでは、パフォーマンスが低くなってしまうということもありえる

3部データの解釈・活用に関する基礎知識

3部ではデータ分析の結果を解釈・応用する際に注意するべきポイントについてまとめられていました。
分析では、その手法や手続きそのものに注意が向きがちですが、本当に重要なのはその後、それをどう利用するかなので、データを正しく活用するためにも、迷った時に立ち返ってきたいと思える内容がまとめられていました。

データ分析の罠

実数を見たら割合を疑え、割合を見たら実数を疑え
変数Xが変数Yに影響を与えているかどうか、ということをデータ分析によって調べたい場合、得られるパターンは次の3つ。
- 影響を与えていると考えられる
- 影響を与えいないと考えられる
- このデータからでは何とも言えない
  - この3つ目である「このデータからでは何とも言えない」を主張するのが結構難しい（悪いことではない）
「結論が出せないのは、分析がうまくいっていないからでは？」という批判に耐える程度に、「分析のプロセスはベストを尽くした上で、それでもなんとも言えない」状況を作る必要がある
- 特にEDAでは「まだ試していない分析法を用いると、何か特徴が見つかるかもしれない」という誘惑に駆られるが、このような場合は「このくらいの基本的な分析で出ない程度の特徴」ということで分析を打ち切ることも必要
  - 分析を打ち切る基準を明確に持っておくことが大切
目的に応じた分析のデザインは大きく3つに分けられる

データ解釈の罠

データ分析の再現性を担保するのは一般的に難しい
- 同じデータであっても、分析する人によって結果が異なることが多い。
データの再現性
- たまたま仮説通りの結果が出たら良いが、仮説に合わない結果が出た場合は基本的に公開されないので、発表された結果だけしか見ないと第一種誤認が濃縮された状態になる
HARKing
- 実験や分析を行った後に、その結果に沿うような仮説を立案し、あたかもその仮説を検証するためにデータを取得したかのように報告すること
有意水準を下回るp値を得るために何度も検定を行うことをp-hakingと言う
- p-hackingを避けるためのガイドライン
  1. データ取得を始める前に、どこまでデータをとるのかを決定し報告する
  2. 一つの条件につき、最低でも20の観測値を集める
  3. 収集した全ての変数について報告する
  4. データを取得した全ての実験条件を報告する
  5. もし観測値を取り除く場合は、それを取り除かなかった場合の分析結果も示す
  6. 分析で、ある変数の影響を取り除く操作（共変量の統制）を行った場合は、そうしなかった場合の結果も示す
Hillの基準
- 因果関係を判定するための基準
人間は本来、意味のないたまたま生じたパターンを敏感に選び取り、それに合致する理由付けを行う動物なので、データ解釈時に認知バイアスが生じることが多々ある
利得と損失の非対称性
- 数学的には同一の選択肢でも、利得と損失で感じ方が異なる
- データ分析結果の受け取り手の解釈にも影響を与えるので、レポーティングなどでも注意する必要がある

データ活用の罠

フィードバックのあるシステム構築をすることが重要

最後に

本書は、帯にも記載されているように「データ取得・分析・解釈・活用の各段階で知っておくべき技術を網羅的に解説」の通りの内容でした。
これからデータ分析に関わる方、実際に業務でデータ分析を行っている方にとっても一読の価値があると思います。

個人的には、データにさまざまな偏りを生じさせる行動心理学の話や、各種分析の考え方、データの解釈における認知バイアスや数理モデリングのポイントあたりの話が網羅的かつ平易に記述されており、要所を掴むことができました。

気になった方は是非一度読んでみてはいかがでしょうか。

分析者のためのデータ解釈学入門　データの本質をとらえる技術

作者:江崎貴裕
発売日: 2020/12/15
メディア: Kindle版

*1:https://ja.wikipedia.org/wiki/Garbage_in,_garbage_out

*2:https://ja.wikipedia.org/wiki/%E7%94%9F%E5%AD%98%E8%80%85%E3%83%90%E3%82%A4%E3%82%A2%E3%82%B9

*3:https://ja.wikipedia.org/wiki/%E6%AD%A6%E5%99%A8%E8%BB%9F%E8%86%8F

2021年の目標と行動指針

2021-01-01T23:22:55+09:00

年末に振り返りやすいように、目標や行動指針をデプロイしておきます。

早寝早起き
適度な運動
音声入力を積極的に使う
行動のログを残す
月末にその月のざっくり振り返りを行う
本を読む
分析コンペのNLP&Tableデータでメダルを取る
統計検定2級を取る
仕事で成果を出す
最後に

早寝早起き

流行病以降、通勤時間がなくなったのを良いことに起きる時間が遅くなってしまいました。
0時前には就寝、6時〜7時には起床する、を意識していきます。

適度な運動

家から出ない生活が続き運動不足にも陥っています。
高校時代まで体重を落とすことを目標に、年末まで継続的に運動しようと思います。
（筋力を当時まで戻すのは難しいけど、とりあえず-5kgを目指す）

音声入力を積極的に使う

昨年からPodcastを始めてみたりなど、音声にはいろいろ期待をしているわけですが、今年は音声"入力"にチャレンジしていきたいと思っています。
ブログを書くのもそうですが、後述するログを残す過程でも積極的に音声入力を使っていこうと思います。

行動のログを残す

どんなことを考えたか、どんな行動をしたか、などの行動・思考をログとして残そうと思います。

具体的には、LINEにログ専用の部屋を作り、AppleWatchなどの音声入力を使ってロギングしていこうと思います。
スマホは手元にない時もありますが、時計はお風呂以外の時間つけているので、多分いけるはず。

月末にその月のざっくり振り返りを行う

どんなインプットをして、どんなアウトプットをして、どんなことを学んで、という感じのことを毎月振り返りたいと思います。
昨年はあっという間に1年が過ぎ去ってしまい、自分自身の成長具合が可視化できていなかったのが反省点だったので、今年は見えるところにポストしていこうと思います。
（YWTフレームワークを使ってやるかな）

本を読む

昨年はあまり本を読めなかったので、毎日最低でも30分本を読む時間を設けます。
思考、A/Bテスト、データ×ビジネス、プロダクトマネジメント系に興味があるので、その辺りの本を読みたいと思ってます。
（もちろん、技術書も読んでいきます）

分析コンペのNLP&Tableデータでメダルを取る

趣味を兼ねたスキルアップです。
昨年は2つのメダルを取れたので、今年も継続していきたいです。

統計検定2級を取る

抜けている知識も多いと感じているので、基礎的なところから勉強し直して、行間を埋めていこうと思います。

仕事で成果を出す

自分が関わったプロジェクトが会社のプレスリリースに出るくらいの成果を出したい、というお気持ち表明です。

最後に

年末は本エントリをベースに振り返りを行おうと思います。

本年もよろしくお願いします。

分析コンペをチームで戦うための技術

2020-12-22T22:57:15+09:00

こんにちは。takapy（@takapy0210）です。

本記事はKaggle Advent Calendar 2020 22日目の記事です。
明日は、本エントリで紹介するMoAコンペでチームを組んだsinchir0さんの予定です。
タイトルからしてとても楽しみです！~~（プレッシャー）~~

qiita.com

はじめに
チームでやったこと
- コミュニケーション
  - submit回数を無駄にしないために
- 知見の共有
次にチームで参加するなら
- submitのIssueはいらないかも
- Issueのタイトルだけで判断しやすくする
最後に

はじめに

本エントリは、先日行われたMoAコンペ*1に5人チームで参加したときに行っていたアレコレについて書いたものです。

5人チームで取り組むのは私自身初めての経験であり、どのようにコンペを進めて行ったのか（主に知見共有などのTips）について残しておこうと思います。

今後、分析コンペなどをチームで取り組む際の参考になれば幸いです。
（GithubでのIssue管理などはソロで参加する際にも役立つものになるのではないかと思っています）

ちなみに結果は34/4373 で銀メダルでした。解法については下記を参照ください。
www.kaggle.com

また、後日談としてTawaraさんが興味深い実験を行ってくださったので、興味のある方はこちらもどうぞ。
tawara.hatenablog.com

チームでやったこと

下記リポジトリに歴史が詰まっています。（懐かしい・・・）

slack-remind-creator.netlify.app

工夫というほどの工夫でもないですが、ざっくり下記のような方針で行いました。

「こんな実験をしようと思っている」「このDiscussionを読んだ」「このnotebookをサブするぞ」はGithubのIssueで管理
ローカルCVとPublicLBのスコアはスプレッドシートで管理
- ここはMLFlowとか使うと楽になるよな〜というのはありつつ、コードコンペということで今回はアナログ管理です
日常のコミュニケーションはslackで行う
- Githubの対象リポジトリをsubscribeさせて、Issueやコメントなどはslackの方にも自動的に流れてくるようにしました
毎週1回、オンラインでのチームMTGを行う
- この議事録もGithubのIssueに残しました

※今回はコードコンペだったこともあり、各自のコードをGithubで管理するということは意図的に行っていません。あくまで、情報共有ツールとしての位置付けでGithubを用いました。

コミュニケーション

slackのワークスペースを作成して、そこで諸々やりとりをしました。
ですが、あくまでslackはコミュニケーションツールなので、知見の蓄積などはGithubにて行っていました。

slackのチャンネルは下記の3つを作りました。

#general
- 主に雑談用
#kaggle_moa
- 主にコンペの内容を話す場所。先述したGithubに登録された内容もここに流すように設定。
#submission
- submissionする時に「今日分のサブ使いますね〜」と報告する場所。

submit回数を無駄にしないために

kaggleは日本時間のAM9時に、その日のsubmit回数が初期化される仕様*2になっているため、
#submissionチャンネルでは毎朝8時30分にリマインダーを仕込み、submit回数をなるべく無駄にしないようにしました。
（本コンペでは1日にsubmitできる回数が3回と少なかったため、なるべくこの3回を毎日使い切りたいよね〜という想いもありました）

slackに毎朝8時30分に通知してくれるリマインダー

slackのリマインダーは下記を使うと簡単に作れたりします

知見の共有

チームで取り組むメリットはいくつかあると思うのですが、例えばチーム内で同じような実験を複数人がおこなうと、「単位時間あたりの試行回数が増える」というメリットが活かせなくなってしまいます。
そこで、各人がやろうとしていることなどはGithubのIssueを作成するルールにしました。

このIssueの作成ですが、少しでも負担を下げるために Issueテンプレート*3を設定しておくと良いと思います。

今回は下記3つを作成していました。
（後述しますが、submissionは別にIssueにしなくてもexpetimentのコメントに紐づける形で良いかもと思いました）

discussion（kaggleで気になるdiscussionの概要を共有するもの。同じdiscussionを複数人で読んじゃった〜という事態を防ぐため）
expetiment（どんな実験をしようとしているかを共有するもの）
submission（どの実験・notebookをsubmitしたかを共有するもの）
用意したテンプレート

それぞれのIssueにどのような内容を書いていたかは先述したリポジトリを見ていただきたいのですが、 Issueで管理する方式は、Issue起点でコミュニケーションが生まれたり、関連しているものを簡単に紐付けられたりと、とてもよかったと思います。

Github上でもコミュニケーションが生まれて良い感じだった図

submitした結果（スコア）は下記のようにスプレッドシートでアナログ管理していました。
（これは結構煩雑だったので、どうにかしたいところ）

ローカルCVとPublicLBのスプレッドシート

また、チームMTGの議事録はこんな感じで残していたりしました。

*1:https://www.kaggle.com/c/lish-moa

次にチームで参加するなら

基本的には上記のやり方で良さそう〜とは思うのですが、細かい点をいくつか改善できるかな、と思っています。

submitのIssueはいらないかも

今回はsubmitする際に、expetimentとは別にsubmissionのIssueを作ろうというルールでやっていましたが、これは結構手間だったりしたので、expetimentのIssueコメントに紐づける形で管理しても良いかもしれません。
（そもそもコードもGithubで管理できれば、Issueに紐づくPRを作れば良いことなのですが、今回のようなコードコンペの場合はそうもいかないと思うので）

Issueのタイトルだけで判断しやすくする

これはatmacupに参加していた時に作ったIssueなのですが、 Issueテンプレートのタイトルに絵文字を入れることで実験やドキュメントの区別が容易になりました。
なので、タイトルには良い感じに分かりやすい印を付けられると良いのかなぁ、と思います。

最後に

やっぱりチームで参加するとモチベーションも保てますし、議論もたくさんできたのでとても楽しかったです。
Team90'sで戦ったくださったみなさん、ありがとうございました！！！&またどこかでチーム組めたら嬉しいです！

黒魔術でスコアが伸びた時の様子

そして本エントリが分析コンペをチームで戦う人たちの一助になれば嬉しいです！

*2:2020/12/22現在

*3:https://docs.github.com/ja/free-pro-team@latest/github/building-a-strong-community/configuring-issue-templates-for-your-repository

家族としてレベルアップするために行っていること

2020-12-17T08:37:04+09:00

本記事はコネヒト Advent Calendar 2020の17日目の記事です。

qiita.com

こんにちは。takapy（@takapy0210）です。

急に寒くなってきましたね。
在宅勤務していると、どうしても足下が寒くなるので最近は遠赤外線デスクヒーターを買うか迷っています。
みなさんのおすすめ防寒器具があればぜひ教えてください。

はじめに

本エントリは、家族としてレベルアップするために使っているツールやルールについて勝手に話すポエムです。

今働いているコネヒトでは先日リブランディングが行われ、新たなビジョンとして「あなたの家族像が実現できる社会をつくる」を掲げています。
これに伴い、"家族を話そう"という合言葉もできたので、まずは自分の家族について話すことから始めてみるかと思い、書いてみることにしました。

connehito.com

他人の家のことなんて興味ないわ！という方もいると思いますが、この目次を見て少しでも興味が湧いた項目があれば、読む価値があるかもしれませんし、ないかもしれません。

はじめに
家族で使っているツール・ルール
家族会議について
- 先月の振り返りと今月の目標
  - お金パート
  - お互いのパート
- なんでも共有タイム
おわりに

ちなみに2020/12/16現在の我が家の構成は下記です。

ワイ：IT企業でエンジニア
妻：IT企業でバックオフィス全般

家族で使っているツール・ルール

家族でどんなツールをどのようなルールで運用しているかについて紹介します。

slack（コミュニケーション）

slack.com

普段のコミュニケーションにはslackを用いることが多いです。身内との連絡はLINEなどを用いる人が多いと思いますが、我が家ではslackの方がメッセージのやりとりは多いです。
理由はいくつかありますが、ざっくり下記のようなことが挙げられます。

お互い仕事でもslackを使っているので慣れている
平日昼間の緊急連絡などはslackの方が取りやすい
いろんな外部ツールと連携できる
- GoogleCalender（後述）
- Github（後述）
リマインダーが気軽に登録できる

以降でも述べる諸々のコミュニケーションについて、slackを土台としていろいろやっています。

Google Calender（スケジュール共有）

support.google.com

お互いのスケジュールはGoogle Calenderに登録して共有しています。
また、Calenderに登録するだけだと見逃してしまう可能性もあるため、Google Calendar for Team Events*1をslackに連携させて、新規で予定が登録された場合はslackに流れてくるようになっています。

こうすることで、予定を起点としたコミュニケーションが生まれたりするので、認識の齟齬が少なくなり、とても便利です。

TimeTreeなどを使うともっと便利なのかもしれませんが、使うツールはあまり増やしたくない + 現状特に不満がないので、スケジュール共有は上記の運用をしています。

『鬼滅の刃』柱合会議・蝶屋敷編を忘れずに見るためのスケジュールが通知される様子

Zaim（家計簿）

zaim.net

これは家計簿を管理するために使っています。

我が家では給料はお互い把握してますし、家計簿アプリに金の在りどころ全ての口座を連携しているので、今どのくらい資産があって、今月どのくらい使ったのかが一目でわかります。

といっても、現金の管理だけは厳密におこなっていません笑

家計簿でよくあるのが、張り切って厳密に管理しようとして途中で挫折するパターンです。
我が家でも使ったお金を一円単位で入力する・・・ということをやっていた時期がありましたが、1ヶ月と持ちませんでした。

なので現金の管理は諦める代わりに、現金をなるべく使わない方向に舵を切りました。

Zaimなどの家計簿アプリはクレジットカードや電子マネーと連携することで、自動的に家計簿を付けてくれます。
なので、支払いを極力クレジットカード or 電子マネーで行うことにより、家計簿に入力する手間を省いています。

そうなると気になるのが現金ですが、これは後述する家族会議の場で使途不明金として精算しています。
（それでいいんかい！というツッコミがきそうですが、流行病もあり最近は現金を使わないのでなんとかなっています）

Github（家族会議の議事録など）

github.co.jp

後述する家族会議の議事録などを残しておくのに使っています。
すこし前までは、Scrapbox*2を使っていましたが、アジェンダを自動的に作るのがちょっと面倒だったので、現在はGithubに移行しています。（privateリポジトリを使っています）

月末になると、下記のように自動的に家族会議のISSUEが作られて、slackに通知がくる*3ようになっています。
（AWS lambdaでGithub ISSUE生成のスクリプトを月末に動くように設定して、そこからslackに通知がきます）

slackにはこんな感じで通知されます

家族会議について

最後に家族会議について書いてみます。

これは基本的に毎月第一日曜日の11時から行うもので、"会議"と名前がついているので仰々しく感じるかもしれませんが、
要はお互いどう？家族の状態どう？を確認する場です。

主なアジェンダは

先月の振り返り
今月の目標
なんでも共有タイム

です。

先月の振り返りと今月の目標

先月の振り返りと今月の目標は2部構成になっています。

お金パート

振り返りの部分では、前月の支出についてZaimを見ながら話します。
また、先述したように現金だけはZaimで管理できていない（意図的にしていない）ので、お互いの財布の中の現金を計算してアプリとの差額を使途不明金として精算します。
上記を踏まえて、今月はこんなことを節約するように意識するか〜や、こんな大きな出費ありそうだね〜などを話します。

例えば、先月はUber Eatsを使いすぎたから、今月は週1回までにしようかとか、そんな感じのことを目標に盛り込みます。

お互いのパート

自分・妻、共に毎月簡単な目標を立てます。

例えば

本を読む
試験の勉強をする
歯医者を予約する

などです。

ここで立てた目標を翌月に振り返ります。

達成/未達だったらどうこう、というものは現段階では何もありませんが、やろうとしていることを目に見えるところに明記しておくのは効果的だと思います。
（ちなみにここで書いた目標は、slackのリマインダーで定期的に目に見るところに露出させています）

なんでも共有タイム

ここはその名の通りなんでも気になることを話す場です。何もなければ特に話しません。

例えば今月（12月）だと、11月にkaggleに結構時間を溶かしていたのでそのお礼だったり、家をどうするか（引っ越すか）や、大掃除の話がでたりしました。
大掃除に関しては、この会議中にどこを掃除するかの割り振りまで決められたので、今年はスムーズにいきそうです。

12月に話したこと

おわりに

こんなしっかりやるのめんどくさそう・・・と思われた方もいると思います。
個人的には毎月30分〜1時間、「ちゃんと話す場」を半強制的に設定することで、お互いのモヤモヤや困っていることなどを共有できるので、今のところは気に入っていたりします。

「家族」と言ってもその形やルールは様々あると思うので、みなさんの家族・家庭にあった方法で、みなさんが思い描く家族像を目指してみてはいかがでしょうか。

*1:https://slack.com/intl/ja-jp/help/articles/360047938054-Slack-%E5%90%91%E3%81%91-Google-Calendar-for-Team-Events

*2:https://scrapbox.io/

*3:https://slack.com/intl/ja-jp/help/articles/232289568-GitHub-%E3%81%A8-Slack-%E3%82%92%E9%80%A3%E6%90%BA%E3%81%95%E3%81%9B%E3%82%8B

レコメンデーションに用いられるMatrix Factorization（行列分解）をTensorFlow.kerasで実装してみる

2020-12-10T09:01:31+09:00

Vectorpouch - jp.freepik.com

こんにちは。takapy（@takapy0210）です。

本記事はコネヒト Advent Calendar 2020の10日目の記事です。

qiita.com

みなさんハイキューという漫画（アニメ）はご存知でしょうか。
高校バレーボールを題材にしたスポーツ青春漫画なのですが、ところどころでめっちゃ染みるセリフがあったりして、高校生ではないおじさんでも、バレーにそんなに詳しくない人でも楽しむことができるので、是非読んでみてください。（自分は最近アニメで見ています）

Twitterでも回っていた個人的に好きなシーン

さて本日は、レコメンデーションの文献をいくつかサーベイした中から、TensorFlowを用いた行列分解モデルについてご紹介できればと思います。

はじめに
今回実装する行列分解モデルについて
- なぜTensorFlow（深層学習フレームワーク）を使う必要があるのか
実装
レコメンドに活かす方法
- 推論結果を利用するパターン
- Embbeding Layerのweightを利用するパターン
  - ジュラシック・パークと似ている / 似ていない映画
  - トイ・ストーリーと似ている / 似ていない映画
最後に

はじめに

Matrix Factorizationはその名前の通り、行列分解を行うものです。
レコメンデーションシステムの文脈では、Rating行列をuserの特徴量行列（P）とitemの特徴量行列（Q）に分解する手法として知られています。

例えば、m人のユーザーとn個のアイテムを考えたときに、m > k > 0であるk次元に次元削減して変換することを目的とします。
これは、評価値を表すRating行列（R）を、ユーザー要素を表すk × mの行列（P）と、アイテム要素を表すk × nの行列（Q）に近似していることになります。

図にすると下記のようなイメージ

行列分解のイメージ

また、今回解説する実装はGithubにもあげております。

*1:https://www.tensorflow.org/api_docs/python/tf/keras/layers/Embedding

今回実装する行列分解モデルについて

こちらの論文（MATRIX FACTORIZATION TECHNIQUES FOR RECOMMENDER SYSTEMS ）などを参考に、上図の行列分解モデルをベースとしてユーザーとアイテムそれぞれのbiasを考慮したものを、TensorFlowを用いて実装してみます。

ユーザー行列（上図P）とアイテム行列（上図Q）および、ユーザー・アイテムそれぞれのbiasを表現するために、ニューラルネットワークのLayterの1つであるEmbedding Layer*1を用いて実装していきます。
Embedding Layerは、有名どころだと単語の埋め込み表現などを計算するときにも用いられたりするものです。

お気持ちとしては、下記式でユーザーの嗜好がスコアリングできると仮定して学習させています。

：ユーザiによるアイテムjに対する評価値
：ユーザiによる評価値のバイアス。このユーザがつける評価値が全体的に高いか低いかを表す。
：アイテムjに対する評価値のバイアス。このアイテムに対する評価値が全体的に高いか低いかを表す。
：ユーザiの特徴ベクトル。
：アイテムjの特徴ベクトル。
：ユーザiとアイテムjの特徴ベクトルの内積。

また、今回モデリングするネットワークは下記のようなものになります。

TensorFlowの行列分解ネットワーク構造例

学習後のEmbedding Layerには、ユーザー・アイテムそれぞれの分散表現が格納されているイメージです。
（上図のembedding, embedding_1の部分）

本ポストの後半では、この分散表現を用いたレコメンデーションについても触れています。

なぜTensorFlow（深層学習フレームワーク）を使う必要があるのか

行列分解は、numpy*2やsklearnのNMF*3などを用いれば比較的容易に実装することができます。
しかし、使用できる最適化アルゴリズムやバイアス項の制限もあり、少し使いづらい部分もあります。

そこでTensorFlowなどの深層学習フレームワークを用いることで、好きな最適化アルゴリズム*4やバイアス項を比較的簡単に実装することができます。

また、ニューラルネットワークの構造に落とし込むことができれば、後からよりDeepなモデルにしたりなど、アーキテクチャを容易に変更することも可能になり、PDCAのスピードも速くなるというメリットがあるのかなと思います。

実装

今回使用するデータは、お馴染みのmovie lensデータセットです。

grouplens.org

MovieLens 25M Dataset のデータセットをダウンロードし、そこからいくつかデータをサンプリングして実装していきます。

データのサンプリングとindexの付与

今回は実験のため、出現回数の多いデータのみをサンプリングします。
また、TensorFlowのEmbeddingを利用できるようにするために、前処理としてuserとmovieそれぞれに0〜のindex情報を付与します。

import pandas as pd
from collections import Counter

import tensorflow as tf
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm.notebook import tqdm

# データの読み込み
DATA_DIR = './data/ml-25m/'
df = pd.read_csv(DATA_DIR + 'ratings.csv')

# 出現回数の多いuserとmovieに絞る
n = 10000  # userはTOP:10000
m = 2000  # movieはTOP:2000
user_ids_count = Counter(df.userId)
movie_ids_count = Counter(df.movieId)
user_ids = [u for u, c in user_ids_count.most_common(n)]
movie_ids = [m for m, c in movie_ids_count.most_common(m)]
df_small = df[df.userId.isin(user_ids) & df.movieId.isin(movie_ids)]

# indexを付与する
user_id_map = {}
for i, u_id in enumerate(user_ids):
    user_id_map[u_id] = i

movie_id_map = {}
for i, m_id in enumerate(movie_ids):
    movie_id_map[m_id] = i

df_small.loc[:, 'user_idx'] = df_small.progress_apply(lambda row: user_id_map[row.userId], axis=1)
df_small.loc[:, 'movie_idx'] = df_small.progress_apply(lambda row: movie_id_map[row.movieId], axis=1)

# 保存しておく
df_small.to_csv(DATA_DIR + 'edited_ratings.csv', index=False)

今回使用したrating.csvは、処理前と処理後で下記のようなデータになっています。

左：元々のDF | 右：前処理後のDF

ここまでで学習に使用できるデータができました。

TensorFlow.kerasでの学習

上記でデータ生成ができたので、TensorFlowで学習させていきます。

冒頭でも少し紹介しましたが、Embbeding Layerではuserとmovieそれぞれの埋め込みベクトルが計算されます。
そこでEmbbeding Layerの形状を指定するために、userとmovieのユニーク数を取得しそれをモデルに渡します。
ちなみに、今回は埋め込みベクトルの次元数（冒頭の図でいうところのk）は10にしています。

user_num = df_small.user_idx.max() + 1 # number of users
movie_num = df_small.movie_idx.max() + 1 # number of movies

print(user_num, movie_num)
# -> 10000 2000

# train, testの分割
train, test = train_test_split(df_small, test_size=0.3, shuffle=True, random_state=42)
print(train.shape, test.shape)
# ->(4027373, 6) (1726017, 6)


def create_model(user_num: int, movie_num: int, k: int = 10) -> tf.keras.models.Model:
    """kerasでMatrix Factorizationのモデルを構築する

    Args:
        user_num (int): ユニークユーザー数
        movie_num (int): ユニーク映画数
        k (int): 埋め込み層の次元数

    Returns:
        tf.keras.models.Model: モデルインスタンス
    """

    u = tf.keras.layers.Input(shape=(1,))
    m = tf.keras.layers.Input(shape=(1,))
    u_embedding = tf.keras.layers.Embedding(user_num, k)(u)
    m_embedding = tf.keras.layers.Embedding(movie_num, k)(m)
    u_bias = tf.keras.layers.Embedding(user_num, 1)(u)
    m_bias = tf.keras.layers.Embedding(movie_num, 1)(m)

    x = tf.keras.layers.Dot(axes=2)([u_embedding, m_embedding])
    x = tf.keras.layers.Add()([x, u_bias, m_bias])
    x = tf.keras.layers.Flatten()(x)

    model = tf.keras.models.Model(inputs=[u, m], outputs=x)
    opt = tf.keras.optimizers.SGD(learning_rate=0.1, momentum=0.9)

    model.compile(
        loss=tf.keras.losses.MeanSquaredError(),
        optimizer=opt,
        metrics=[tf.keras.metrics.RootMeanSquaredError()],
    )

    return model

# モデルの定義
model = create_model(user_num, movie_num)
tf.keras.utils.plot_model(model, show_shapes=True)  # ネットワーク構造をプロットできる

# callback関数を定義
early_stopping = tf.keras.callbacks.EarlyStopping(
    monitor='val_loss',
    patience=5,
    restore_best_weights=True,
    verbose=0,
    )
checkpoint = tf.keras.callbacks.ModelCheckpoint(
    'keras.h5',
    monitor='val_loss',
    save_best_only=True,
    save_weights_only=True,
    mode='min',
    verbose=0,
)

# 学習
result = model.fit(
    x=[train.user_idx.values, train.movie_idx.values],
    y=train.rating.values,
    epochs=200,
    batch_size=1024,
    validation_data=(
        [test.user_idx.values, test.movie_idx.values],
        test.rating.values
    ),
    callbacks=[early_stopping, checkpoint],
    verbose=1,
)

# -> Epoch 1/200
# -> 3933/3933 [==============================] - 9s 2ms/step - loss: 2.0342 - root_mean_squared_error: 1.4263 - val_loss: 0.7522 - val_root_mean_squared_error: 0.8673
# -> Epoch 2/200
# -> 3933/3933 [==============================] - 10s 3ms/step - loss: 0.7092 - root_mean_squared_error: 0.8421 - val_loss: 0.6880 - val_root_mean_squared_error: 0.8295
# -> ...
# -> Epoch 124/200
# -> 3933/3933 [==============================] - 9s 2ms/step - loss: 0.5016 - root_mean_squared_error: 0.7083 - val_loss: 0.5360 - val_root_mean_squared_error: 0.7321

暫くすると学習が終わります。

学習結果

学習曲線をプロットしてみます。
epoch=60くらいでサチっているように見えますが、悪くはなさそうです。
（実際には、val_loss: 0.5360でearly_stoppingがかかっています）

sns.set_context({"lines.linewidth": 4})
plt.subplots(figsize=(15, 6))
sns.lineplot(data=result.history['loss'], label="train loss", color=colors_nude[0])
sns.lineplot(data=result.history['val_loss'], label="test loss", color=colors_nude[1])
plt.legend()
plt.show()

学習曲線

レコメンドに活かす方法

今回は行列分解がレコメンデーションにどのように活用できそうか、という投稿なので、上記の結果・モデルをどのようにレコメンデーションに活かすことができるかについて考察してみます。

結果を分かりやすくするために、ひとまずmovieのタイトル情報をtrain, testにマージしておきます。

movie = pd.read_csv(DATA_DIR + 'movies.csv')
# train, testとマージする
train = pd.merge(train, movie, how='left', on='movieId')
test = pd.merge(test, movie, how='left', on='movieId')

ちなみに、movie.csvは以下のようなデータになっています。

movie.csv

推論結果を利用するパターン

今回は、user_idxとmovie_idxが分かればuserがどのmovieに興味があるのかを推論することができます。
したがって、単純に予測した値の高いmovieをレコメンドする、という方法が考えられます。

# テストデータに対して推論
test.loc[:, 'pred_rating'] = model.predict([test.user_idx.values, test.movie_idx.values], verbose=1)

推論結果が付与され、testデータは以下のようになりました。

推論結果を付与したtestデータ

例として、user_id = 91660のユーザーに対して、どのようなmovieがレコメンドされるのかを見てみましょう。

# 実験
user_id = 91660

# trainで見ているmovieでratingの高いものTOP:20
train.query('userId == @user_id').sort_values('rating', ascending=False).head(20)

学習データを見てみると、ジュラシック・パーク, ガーディアンズ・オブ・ギャラクシー, ロード・オブ・ザ・リングなどの映画に高いratingをつけています。
また、ジャンルをみると、Action, Drama, Thriller などの単語が頻出しています。

このことから、このユーザーは恋愛映画のような穏やかな作品より、バトルものなどの作品が好みだということが言えそうです。

学習データrating上位20件

では、推論結果（testデータ）ではどうでしょうか。
予測されたratingが高いものを見てみると、インセプション, プリズナーズ, アベンジャーズ など、ハラハラするバトルものなどがレコメンドされそうです。
また、ジャンルを見ても定性的ではありますが比較的好みを当てていそうではあります。

# レコメンドされるmovie TOP:20
test.query('userId == @user_id').sort_values('pred_rating', ascending=False).head(20)

レコメンドされるmovie例

Embbeding Layerのweightを利用するパターン

もう1つレコメンドに使えるものとして、Embbeding Layerの埋め込みベクトル（重み）が挙げられるかな、と思います。
Embbeding Layerには各userと各movieの分散表現が計算されているので、例えばコサイン類似度などを用いて類似映画を計算できそうです。

ここではジュラシック・パーク、トイ・ストーリーと似ている / 似ていない映画をそれぞれ計算してみます。

まずは諸々の準備をします。

# utils
_df = df_small[['movieId', 'movie_idx']].drop_duplicates()  # 重複を排除したデータ

def sim_movie(movie_df, movie_idx, asc=False, N=10):
    """類似映画IDTOP:N件を返却する関数
    """
    sim_movie_df = cos_df.iloc[:, movie_idx:movie_idx+1].sort_values(movie_idx, ascending=asc)[:N].reset_index().rename(columns={movie_idx: 'cos_sim', 'index': 'movie_idx'})
    sim_movie_df = pd.merge(sim_movie_df, _df, how='left', on='movie_idx')
    
    return pd.merge(sim_movie_df, movie_df, how='left', on='movieId')


def cos_sim_matrix(matrix):
    """コサイン類似度を計算する関数
    """
    d = matrix @ matrix.T  # item-vector 同士の内積を要素とする行列
    norm = (matrix * matrix).sum(axis=1, keepdims=True) ** .5
    return d / norm / norm.T


# 全movieのコサイン類似度行列を計算
cos_df = cos_sim_matrix(movie_emb_layer.get_weights()[0])
cos_df = pd.DataFrame(cos_df)

ジュラシック・パークと似ている / 似ていない映画

まずはジュラシック・パークを例に見てみます。

# ジュラシック・パークのmovie_idxを取得
movie_id = 480  # ジュラシック・パーク
movie_idx = train.query('movieId == @movie_id')['movie_idx'].unique()[0]

# 類似度の高い順
sim_df = sim_movie(movie, movie_idx, False, 20)

ジュラシック・パークと類似しているmovie TOP:20

比較的良さそうな結果が出てきました。
類似度が低いmovieも見てみます。

# 類似度が低い順
sim_df = sim_movie(movie, movie_idx, True, 20)

ジュラシック・パークと類似度が低いmovie TOP:20

こちらはコメディーもののmovieが多く、定性的ではありますがジュラシック・パークとは性質の異なるmovieが計算されているように感じます。

トイ・ストーリーと似ている / 似ていない映画

トイ・ストーリーでもチェックしてみます。

# トイ・ストーリーのmovie_idxを取得
movie_id = 1  # トイ・ストーリー
movie_idx = train.query('movieId == @movie_id')['movie_idx'].unique()[0]

# 類似度の高い順
sim_df = sim_movie(movie, movie_idx, False, 20)

トイ・ストーリーと類似しているmovie TOP:20

トイ・ストーリー2, トイ・ストーリー3, といったシリーズや、ディズニー作品が上位に多く出てきているので、こちらも比較的良い結果になったと言えそうです。

類似度が低いmovieも見ておきます。

# 類似度が低い順
sim_df = sim_movie(movie, movie_idx, True, 20)

トイ・ストーリーと類似度が低いmovie TOP:20

こちらはスリラーやコメディー系のmovieが多くあり、ジュラシック・パーク同様に良い結果が出ていると言えそうです。

最後に

本日は、レコメンデーションの1つの手法であるMatrix Factorization（行列分解）について、tf.kerasを用いて実装してみました。
レコメンデーションは奥が深く、まだまだ学習すべきことは多いですが、今関わっているプロダクトを通じて、ユーザーに価値を届けられるようにチャレンジし続けたいと思います。

*2:https://numpy.org/

*3:https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.NMF.html

*4:tensorflow.kerasではこのような最適化アルゴリズムが用意されています。https://www.tensorflow.org/api_docs/python/tf/keras/optimizers

Data Engineering Study #1「DWH・BIツールのこれまでとこれから」参加ログ

2020-07-15T21:44:19+09:00

こんにちは。takapy（@takapy0210）です。

今回は本日参加したイベントの備忘です。

forkwell.connpass.com

どのLTもとても勉強になるイベントでした。
資料は後ほど公開されるものもあるみたいなので、公開され次第追記しようと思います。

Twitterでは #DataEngineeringStudy で盛り上がっていました。

事業を成長させるデータ基盤を作るには
- memo
スポンサーLT1
- memo
ZOZOTOWNの事業を支えるBigQueryの話
- memo
スポンサーLT2
- memo
freeeのデータ基盤におけるDWH/BIの運用事例紹介
- memo
まとめ

事業を成長させるデータ基盤を作るには

データ基盤をなぜ作るのか
データ基盤には何が必要か
データ基盤をどのように実現するか

https://portfolio.forkwell.com/about

memo

データ基盤大事だよな〜と改めて思った
- 正しい意思決定するため
- 現場と経営をつないで、顧客価値を提供するため
データの品質・可用性の観点で最初に議論しておくの大事そう
modelとviewで分けて考える
- model：データの蓄積や加工
- view：データの参照や活用
  - ある程度データ基盤できてきたら、view（BIツール）で試行錯誤して定常的に使うようになったらDWH（model）側に組み込む、みたいな運用が良さそう
部署ごとに売り上げがずれる問題、めっちゃ分かる
- 見るツールによって数値が若干ズレてるのでどこかで統一したいなぁ
- KPIの指標とか
データ基盤を構築する際はデータの階層を分けて考える
- データレイク
  - RAWデータをそのまま格納したもの（汚いデータもそもままおくのが重要）
- データウェアハウス
  - 複数のデータを統合・蓄積して分析向けに整理したもの
    - 顧客情報テーブル、など
- データマート
  - 特定の利用者ごとに分離したもの
- 上記を全部BQで構築する際、命名規則で管理する、といったことが可能
DWH構築・運用する際には、申請手順のワークフロー組んでおいた方がよさそう（同じようなテーブルが乱立しないためにも）
- こんなデータを分析したいので
- こんな集計テーブルが欲しい
- 期間はこのくらい
- といった内容を明記したフォーマット的なもの

スポンサーLT1

Embulkのマネージドサービス troccoの話

blog.trocco.io

@資料は公開され次第追加

memo

DWHを1から構築するには480時間ほどかかるみたい
作ったら終わりではなく、そこからの運用も結構大変
あとからどんどん要望が湧いてくる・・・
- 分析するためのDWHなのに、いつまでも分析できない・・・
そこでtrocco（トロッコ）を使ってみては？
- Embulkのマネージドサービス
- 好きな言語で開発できる
- GUIで操作も可能
- Githubでコード管理もできる
以下で体験記が見れる
blog.trocco.io

ZOZOTOWNの事業を支えるBigQueryの話

ロビンマスクが登場しました・・・（見てた人しか分からないネタ）

ZOZOのデータ基盤のお話
BigQueryの辛いところ
現在PoC中の基盤のお話

@資料は公開され次第追加

memo

全社のKPIが1つのツールで共有されているの良さそう
オンプレとクラウドのDWHを比較すると、圧倒的にクラウドが便利
- BQは容量無限大！これは確かに強いよな〜
redashのver up追従するの辛いの分かる・・
BIチームが専属でいるの強いな
LookMLはGithubでコード管理できて便利そう
BigQueryの辛いところ
- いろんな人が SELECT * を試し始めてお金が飛んだ
- Service Usage APIでスキャン量が多いクエリを検知できる
- コスト予測がし辛い
  - Flat-rate pricingを入れるとコストを固定できる
  - クエリのバースト性能が落ちる可能性がある

スポンサーLT2

Forkwellのお話

memo

使ってみると面白そう（某prasと似ている感じなのかな？）
スポンサーの回数が500回を超えてるらしい（すごい）

freeeのデータ基盤におけるDWH/BIの運用事例紹介

AWSを用いてデータ基盤を構築している
- Athena
- Redshift
Redshiftとredashの運用事例紹介

memo

freeeさんは社員全員SQLがかけるみたい（？）
Redshift
- マスク処理、カラム除外をしたデータ
- クラスタ3台を使っている
- Redshiftの良いところ
  - コストの見通し建てやすい
  - S3との相性が良い
  - 集計クエリは比較的回しやすい
- Redshiftで苦労しているところ
  - キャパプラ難しい
  - テーブルのチューニングが必要
    →このあたりはBigQueryと対比してそう
redash
- EC2インスタンス上にdocker入れて運用
- 監視はMackerel
- 良いところ
  - OSSなので運用費がやすい！
  - spread sheetへの連携も簡単
- 苦労しているところ
  - SQLが書けないと使えない
  - 思いクエリが多発するとQueteが詰まる

まとめ

オンラインイベントには何回か参加していますが、やっぱり気軽に参加できるのが良いですね。

今回のイベントは参加者数が1000人を超えていることもあり、データ基盤への期待だったり課題を抱えている人が多いんだなぁと思いました。

機械学習とデータは切っても切れない関係だと思うので、自分でもデータ基盤構築・データマネジメントの知識はキャッチアップしていきたいと思います。

ProbSpace「YouTube動画視聴回数予測コンペ」参加メモ〜MLflow Trackingによる実験管理を添えて〜

2020-07-05T12:55:07+09:00

こんにちは。takapy（@takapy0210）です。

今回はProbSpaceで開催されていた「YouTube動画視聴回数予測」コンペに参加し、その中でMLflow Trackingで実験管理を行ってみましたので、簡単に振り返りをしようと思います。

ちなみに結果はPrublic 13th → Private 10thでした。

prob.space

コンペの概要

YouTube APIとして公開されているメタデータを用いて動画の視聴回数を予測する、というものでした。

データには

動画コンテンツの質的指標となるlike/dislike・コメント数
SEOとして重要とされているタイトル名・説明文・タグ・投稿時間

といった情報が含まれており、いわゆる"マルチモーダル"なデータセットで、かつ身近なサービスのデータということもあり、分析していてとても楽しかったです。

評価指標はRMSLE(Root Mean Squared Log Error)でした。

開催直後に1subだけしたものの、その後あまり参加できず、最後の10日間くらいでフルコミットしました。

youtubeコンペ1ヶ月振りにsubした pic.twitter.com/kuCVpHzfcA
— takapy | たかぱい (@takapy0210) 2020年6月19日

Solution

簡単にSolutionをまとめておきます。

モデルはLightGBM / Catboostを試しましたが、自分の環境ではLightGBMの方がスコアが良かった（CV / LB共に）ため、最終的にはLightGBM * 5モデルを用いました。

詳細はコードを公開しましたので、こちらを参照ください。

kaeru-nantoka.hatenablog.com

特徴量

日付

年, 月, 日に変換
曜日, 週末
それぞれを三角関数を通して変換
データ収集日と動画公開日の差分
1日あたりのlike数 / dislike数 / comment数

など

テキスト（主にtitle, description, tags）

文字列の長さ
BERT*1とTF-IDF*2で埋め込み→UMAP*3（10dim）& t-SNE*4（2dim）で圧縮
musicやnurseryなどの特定ワードが含まれているか

など

BERTを用いてテキストの埋め込みを取得する方法は下記を参照にしました。

集計特徴量

カテゴリごと
動画公開日の「年, 月」ごと
動画公開日からデータ収集日までの月数をbin分割したものごと

に sum, mean, std, ,max, min, meanと自身との差分を算出

など

CV

KFold(k=5)

ここはもっと工夫の余地があったと思います。反省。

その他の工夫

自分の環境では、特徴量を増減させることでカテゴリごとのスコアがかなり変動しました。
そこで、LBのスコアが同等で使用した特徴量が異なる5つのモデルの中から、カテゴリごとに一番良いスコアを出しているモデルを選択し、そのカテゴリの予測値は選択したモデルの予測値を用いる、ということをしました。

結果的にはこれが一番スコアが良かったです。

カテゴリ毎にスコアを出して、それぞれベストなモデルを選択する、といった部分では後述するMLflow Trackingを用いることで比較的低コストで行うことができました。

comments_disabled, ratings_disabledそれぞれのコメント数やlikes/dislikesを予測して欠損値補完する、といった工夫は他の参加者の方も結構やっていたのですが、自分の頭からはすっかり抜け落ちていました。。。

MLflow Trackingによる実験管理

以降で簡単に MLflow*5の使用感などをお伝えします。

使用するにあたり、以下を参考にしました。

upura.hatenablog.com

MLflowによる機械学習モデルのライフサイクルの管理

また、Podcastでも使用感などを話しましたので、よければ聞いてみてください。

anchor.fm

ML flowとは

機械学習ライフサイクル(実験・再現・デプロイ)を支援するためのオープンソースプラットフォームであり、大別して以下3点の機能があります。

MLflow Tracking
- 実験周りのコードや設定・結果の記録
MLflow Projects
- どこでも再現できるようにするためのパッケージング
MLflow Models
- モデルを各環境にデプロイするための方法やフォーマット

クイックスタート

公式のサンプル*6を動かしてみるのが一番手っ取り早いと思います。

以下で公式サンプルを少し改変したコードで簡単にみていきます。
pipでインストール後以下のようなサンプルコードを作成しこれを実行します。

実験のログを残す箇所は

log_param
log_metric
log_artifact
set_tag

あたりです。

import mlflow
from mlflow import log_metric, log_param, log_artifact, set_tag

if __name__ == "__main__":

    tracking_uri = '~/mlflow/mlruns'
    mlflow.set_tracking_uri(tracking_uri)
    mlflow.set_experiment("test-experiment")
    mlflow.start_run(run_name='run_name001')

    # Log a parameter (key-value pair)
    log_param('param1', 42)

    # Log a metric; metrics can be updated throughout the run
    log_metric('fold1_score', 9.99)
    log_metric('fold2_score', 9.92)
    log_metric('fold3_score', 9.78)

    # Log an artifact (output file)
    with open("output.txt", "w") as f:
        f.write("Hello world sample!")

    log_artifact("output.txt")

    set_tag('tag1', 'this is tag1')
    set_tag('tag2', 'this is tag2')

    mlflow.end_run()

例えば上記をsample.pyというファイルで保存している場合

$ python sample.py

その後、~/mlflowに移動し下記コマンドでmlflowのダッシュボードが起動します

$ mlflow ui

この状態でブラウザでhttp://localhost:5000 にアクセスすると、上記で実行した実験の結果が表示されます。

MLflow UIのサンプル

コンペでの使用例と所感

今回のコンペでは、今までloggerで出力していたもの（CVのスコアなど）に加えて、モデルのハイパーパラメータなどを保存する形で使用しました。

以下のようにlog_paramにはCVやモデルのパラメータ、各種設定を辞書形式で保存し、

管理例（メトリクス）

log_metricには、各CVスコアとカテゴリごとのスコア、tagにはLBというKeyに対して、LBでのスコアを記載するように管理しました。

管理例（CVスコア）

これにより、どのモデルが「どんなパラメータ, 特徴量, CVで学習させたもの」か、そして「それぞれのCVスコアとLBのスコア」を一覧で確認することができ、とても便利でした。

「その他の工夫」項でも述べましたが、このダッシュボードのおかげて、モデルごとのカテゴリのスコアが管理することができたので、「このカテゴリの予測値は、このモデルのものを使用する」といったことが比較的低コストで実践できました。

また、モデルごとにスコアを比較し簡単なプロットもできたりします。

fold0のスコアと全データのスコアの散布図

今回紹介した管理方法（log_paramにどのような値を保存するか、など）はあくまで自分が試してみた方法なので、いくつも改善できる箇所はあると思います。今後も試行錯誤しながらより良い形にしていければと思います。

最後に

参加者及び運営の皆様、楽しいコンペをありがとうございました。

今回は本格的に参加してから締め切りまでの期間が短く、サムネイル（画像）の特徴量はほぼ手付かずでした。また、CVの切り方も特に工夫していなかったのが反省点です。

この辺りは他の参加者の方の解法を参考に勉強しようと思います。

自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました

2020-05-17T19:29:47+09:00

こんにちは。たかぱい（@takapy0210）です。

本日は自然言語の可視化を手軽にできるようにしたパッケージnlplotをPyPIに公開したので、これのご紹介です。

nlplotとは？
nlplotで何ができるか
使い方
まとめ

nlplotとは？

自然言語の基本的な可視化を手軽にできるようにしたパッケージです。

現在は日本語と英語で動作確認済みです。
基本的な描画はplotlyを用いているため、notebook上からインタラクティブにグラフを操作することができます。

github.com （スター★お待ちしております🙇‍♂️）

pypi.org

nlplotで何ができるか

現時点（ver 1.6.0）では下記のグラフをプロットできます。（リンク先で動的なグラフを表示できます）

自然言語入れたらよしなに可視化してくれるやつの大枠はできたので、PyPIへ登録やっていき pic.twitter.com/waPhLC0ugA
— takapy | たかぱい (@takapy0210) 2020年5月6日

以降で簡単に使い方をご紹介します。

使い方

詳しい使用方法のコード・今回使用したデータはGithubにあげてあります。
また、Tweet Sentiment Extractionコンペのカーネルも公開しておきました。

使用データ

今回は、Twitterからハッシュタグ「#kaggle」と「#データサイエンティスト」がついているツイートをスクレイピングし、そのタグを分析してみました。

データの形式は下記のようなデータフレームを想定しています。
textのカラムはスペース区切りの文字列 or リスト型のカラムを想定しています。

日本語の場合はお好きな形態素解析器で事前にtokenizeをお願いします。
（このパッケージにtokenizerも含めるか迷いましたが、あくまで可視化のみを責務としているので、含めていません）

	searched_for	hashtags
0	#データサイエンティスト	データマイニングデータサイエンスデータサイエンティスト
1	#データサイエンティスト	統計学人工知能ダイヤモンドデータサイエンティストプログラミング
2	#データサイエンティスト	筋トレ今日の積み上げ駆け出しエンジニアと繋がりたいデータサイエンティスト
...	...	...
N	#kaggle	python kaggle タイタニック

事前準備

インストールはpipで可能です。

pip install nlplot

事前にデータを読み込み、nlplotのインスタンスを生成しておきます。

import nlplot
import pandas as pd
import plotly
from plotly.subplots import make_subplots
from plotly.offline import iplot
import matplotlib.pyplot as plt
%matplotlib inline

df = pd.read_csv('sample_twitter.csv')

# 全データ・#データサイエンティスト・#kaggleをそれぞれインスタンス化
npt = nlplot.NLPlot(df, target_col='hashtags')
npt_ds = nlplot.NLPlot(df.query('searched_for == "#データサイエンティスト"'), target_col='hashtags')
npt_kaggle = nlplot.NLPlot(df.query('searched_for == "#kaggle"'), target_col='hashtags')

ストップワードの計算

下記のようにストップワードの計算ができます。

# top_nで頻出上位単語, min_freqで頻出下位単語を指定できる
# 今回は上位2単語（データサイエンティスト・kaggle）をストップワードに指定
stopwords = npt.get_stopword(top_n=2, min_freq=0)

N-gram bar chart

よく見聞きするアレです。

ngramの引数に与える数値により、いくつ隣り合わせの単語までを考慮するかを指定できます。

fig_unigram = npt.bar_ngram(
    title='uni-gram',
    xaxis_label='word_count',
    yaxis_label='word',
    ngram=1,
    top_n=50,
    width=800,
    height=1100,
    color=None,
    horizon=True,
    stopwords=stopwords,
    verbose=False,
    save=False,
)
fig_unigram.show()

下記のようにすることで、データをラベルごとに比較することもできます。

# #データサイエンティストのfigを取得
fig_unigram_ds = npt_ds.bar_ngram(
    title='uni-gram',
    xaxis_label='word_count',
    yaxis_label='word',
    ngram=1,
    top_n=50,
    stopwords=stopwords,
)

# #kaggleのfigを取得
fig_unigram_kaggle = npt_kaggle.bar_ngram(
    title='uni-gram',
    xaxis_label='word_count',
    yaxis_label='word',
    ngram=1,
    top_n=50,
    stopwords=stopwords,
)

# subplot
trace1 = fig_unigram_ds['data'][0]
trace2 = fig_unigram_kaggle['data'][0]

fig = make_subplots(rows=1, cols=2, subplot_titles=('#データサイエンティスト', '#kaggle'), shared_xaxes=False)
fig.update_xaxes(title_text='word count', row=1, col=1)
fig.update_xaxes(title_text='word count', row=1, col=2)

fig.update_layout(height=1100, width=1900, title_text='unigram #データサイエンティスト vs. #kaggle')
fig.add_trace(trace1, row=1, col=1)
fig.add_trace(trace2, row=1, col=2)

plotly.offline.plot(fig, filename='unigram #データサイエンティストvs#kaggle.html', auto_open=False)

fig.show()

以降のグラフも上記のようにコーディングすることで、特定のラベルごとに比較することができます。

N-gram tree Map

こちらも同様、ngramの引数に与える数値により、いくつ隣り合わせの単語までを考慮するかを指定できます。

fig_treemap = npt.treemap(
    title='Tree map',
    ngram=1,
    top_n=50,
    width=1300,
    height=600,
    stopwords=stopwords,
    verbose=False,
    save=False
)
fig_treemap.show()

Histogram of the word count

単語の出現頻度のヒストグラムです。

# 単語数の分布
fig_histgram = npt.word_distribution(
    title='word distribution',
    xaxis_label='count',
    yaxis_label='',
    width=1000,
    height=500,
    color=None,
    template='plotly',
    bins=None,
    save=False,
)
fig_histgram.show()

wordcloud

みんな大好きwordcloudです。日本語でもそのままプロットできます。

fig_wc = npt.wordcloud(
    width=1000,
    height=600,
    max_words=100,
    max_font_size=100,
    colormap='tab20_r',
    stopwords=stopwords,
    mask_file=None,
    save=False
)
plt.figure(figsize=(15, 25))
plt.imshow(fig_wc, interpolation="bilinear")
plt.axis("off")
plt.show()

co-occurrence networks

共起ネットワークです。

このネットワークとサンバーストチャートを描画する場合は、事前にビルド処理が必要です。
このビルド処理のmin_edge_frequency引数でプロットするノードの数を制限します。
（指定数以下のエッジ(辺)しか存在しないノードはプロット対象から除外することができます）

# ビルド（データ件数によっては処理に時間を要します）
npt.build_graph(stopwords=stopwords, min_edge_frequency=25)

# ビルド後にノードとエッジの数が表示される。ノードの数が100前後になるようにするとネットワークが綺麗に描画できる
>> node_size:63, edge_size:63

fig_co_network = npt.co_network(
    title='Co-occurrence network',
    sizing=100,
    node_size='adjacency_frequency',
    color_palette='hls',
    width=1100,
    height=700,
    save=False
)
iplot(fig_co_network)

ノードの色は、networkxのcommunitiesで計算したコミュニティを表しています。
networkx.github.io

ノードの大きさは、networkxのGraph.adjacencyで算出した値の大きさに比例しています。（隣接エッジが多ければ多いほど大きくなります） networkx.github.io

ちなみにビルド処理で生成されたデータフレームにもアクセスできます。

display(
    npt.node_df.head(), npt.node_df.shape,
    npt.edge_df.head(), npt.edge_df.shape
)

sunburst chart

上記共起ネットワークのコミュニティと、それに属する単語をサンバーストチャートで表示しています。

fig_sunburst = npt.sunburst(
    title='sunburst chart',
    colorscale=True,
    color_continuous_scale='Oryel',
    width=1000,
    height=800,
    save=False
)
fig_sunburst.show()

色の濃さはnetworkxのbetweenness_centralityで算出した値が大きいほど濃い色で表示されています。（ネットワークの媒介中心性が高ければ高いほど濃い色になります）
幅は、前述したnetworkxのGraph.adjacencyで算出した値に比例しています。（隣接エッジが多ければ多いほど大きくなります）

networkx.github.io

まとめ

不便な部分はどんどん更新していこうと思っていますので、気になる部分や要望などあれば、PR/ISSUEお待ちしております！

業務でもKaggleなどのコンペでも短時間でデータの全体像を把握したい時に使っていただければと思います。

PyPIへのアップロード時に「HTTPError: 400 Client Error: The description failed to render in the default format of reStructuredText.」が出る場合の対処方法

2020-05-10T15:58:56+09:00

こんにちは。takapy（@takapy0210）です。

自作パッケージをPyPIにアップロードしようとしたところ簡易的なミスで数時間溶かしたので、その備忘です。

エラー内容
- エラー発生時のsetup.pyの内容
解決方法
やったこと
最後に

エラー内容

$ twine upload -r testpypi dist/*                                                                                                                                                                                                                                      
Uploading distributions to https://test.pypi.org/legacy/
Enter your password:
Uploading nlplot-1.0.0-py3-none-any.whl
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 948k/948k [00:02<00:00, 443kB/s]
NOTE: Try --verbose to see response content.
HTTPError: 400 Client Error: The description failed to render in the default format of reStructuredText. See https://test.pypi.org/help/#description-content-type for more information. for url: https://test.pypi.org/legacy/

エラー発生時のsetup.pyの内容

import os, sys
from setuptools import setup, find_packages

with open('README.md', 'r', encoding='utf-8') as f:
    long_description = f.read()

with open('LICENSE.txt', 'r', encoding='utf-8') as f:
    license = f.read()


def read_requirements():
    """Parse requirements from requirements.txt."""
    reqs_path = os.path.join('.', 'requirements.txt')
    with open(reqs_path, 'r') as f:
        requirements = [line.rstrip() for line in f]
    return requirements


setup(
    name='nlplot',
    version='1.0.0',
    description='Visualization Module for Natural Language Processing',
    long_description=long_description,
    long_description_content_type='text/markdown',
    author='Takanobu Nozawa',
    author_email='takanobu.030210@gmail.com',
    url='https://github.com/takapy0210/nlplot',
    license=license,
    install_requires=read_requirements(),
    packages=find_packages(exclude=('tests')),
    package_data={'nlplot':['data/*']},
    python_requires='~=3.6'
)

この状態で twine check を実施すると下記のようなエラーが発生し、twine upload しても冒頭のエラーが発生します。

エラー内容をみるにlong_description_content_typeがうまく機能していない（？）ように見えます。

$ twine check dist/*                                                                                                                                                                                                                                                  
Checking dist/nlplot-1.0.0-py3-none-any.whl: FAILED
  `long_description` has syntax errors in markup and would not be rendered on PyPI.
    line 3: Error: Unexpected indentation.
  warning: `long_description_content_type` missing.  defaulting to `text/x-rst`.
Checking dist/nlplot-1.0.0.tar.gz: FAILED
  `long_description` has syntax errors in markup and would not be rendered on PyPI.
    line 3: Error: Unexpected indentation.
  warning: `long_description_content_type` missing.  defaulting to `text/x-rst`.

解決方法

licenseを外部ファイルから読み込むのではなく、文字列をハードコーディングしました。
（上記エラーの「long_description has syntax errors in markup and would not be rendered on PyPI」とはいったい...）
これだけ見るとなんでこんなことに数時間も気づかなかったのか・・・という感じです。

そもそもこのlicenseを外部ファイルから読み込もうとしていたのがダメだったようです。

下記が修正後のsetup.pyです。

import os
from setuptools import setup, find_packages

with open('README.md', 'r', encoding='utf-8') as f:
    long_description = f.read()


def read_requirements():
    """Parse requirements from requirements.txt."""
    reqs_path = os.path.join('.', 'requirements.txt')
    with open(reqs_path, 'r') as f:
        requirements = [line.rstrip() for line in f]
    return requirements


setup(
    name='nlplot',
    version='1.0.1',
    description='Visualization Module for Natural Language Processing',
    long_description=long_description,
    long_description_content_type='text/markdown',
    author='Takanobu Nozawa',
    author_email='takanobu.030210@gmail.com',
    url='https://github.com/takapy0210/nlplot',
    # license=license,
    license='MIT License',
    install_requires=read_requirements(),
    packages=find_packages(exclude=('tests')),
    package_data={'nlplot':['data/*']},
    python_requires='~=3.6'
)

testpypiへのアップロードも上手くいきました。

twine upload -r testpypi dist/*
Uploading distributions to https://test.pypi.org/legacy/
Enter your password:
Uploading nlplot-1.0.1-py3-none-any.whl
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 947k/947k [00:02<00:00, 358kB/s]
Uploading nlplot-1.0.1.tar.gz
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 945k/945k [00:01<00:00, 705kB/s]

View at:
https://test.pypi.org/project/nlplot/1.0.1/

後述していますが、LICENSEファイルを作り方はGithub公式ドキュメントがあるので、こちらを参考に作るのが良さそうです。

以下、試行錯誤の履歴です。

やったこと

基本的には下記手順でチェックしました。

$ python setup.py sdist
$ python setup.py bdist_wheel
$ twine check dist/*

都度twine upload -r testpypi dist/*コマンドでtestpypiへアップロードできるかどうかチェックしても良いですが、twine checkを使ってアップロード前に確認すると、無駄にversionをインクリメントする必要もないので、オススメです。

各種パッケージのアップデート

やりましたが、うまくいかず。

pip install --upgrade setuptools wheel twine

公式の書き方をもう一度確認

description周りの書き方をコピーしてみましたが、上手くいかず。

packaging.python.org

long_descriptionをコメントアウト

...

setup(
    name='nlplot',
    version='1.0.0',
    description='Visualization Module for Natural Language Processing',
    # long_description=long_description,
    # long_description_content_type='text/markdown',
    author='Takanobu Nozawa',
    author_email='takanobu.030210@gmail.com',
    url='https://github.com/takapy0210/nlplot',
    license=license,
    install_requires=read_requirements(),
    packages=find_packages(exclude=('tests')),
    package_data={'nlplot':['data/*']},
    python_requires='~=3.6'
)
...

twine checkでwarningは出るものの、Errorは無くなった。

twine check dist/* 
Checking dist/nlplot-1.0.0-py3-none-any.whl: PASSED, with warnings
  warning: `long_description_content_type` missing.  defaulting to `text/x-rst`.
Checking dist/nlplot-1.0.0.tar.gz: PASSED, with warnings
  warning: `long_description_content_type` missing.  defaulting to `text/x-rst`.

ここでアップロードしてみると、無事に終了した。

twine upload -r testpypi dist/*
Uploading distributions to https://test.pypi.org/legacy/
Enter your password:
Uploading nlplot-1.0.0-py3-none-any.whl
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 947k/947k [00:03<00:00, 278kB/s]
Uploading nlplot-1.0.0.tar.gz
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 945k/945k [00:01<00:00, 583kB/s]

View at:
https://test.pypi.org/project/nlplot/1.0.0/

test PyPIでみてみると、なんかおかしい。

最後の希望Twitterへ

PyPIへのアップロード、https://t.co/NUUYlDjJ3Gのlong_descriptionにREADMEをうまく設定できないので、long_descriptionの設定は一旦諦めるか・・・😢
— takapy | たかぱい (@takapy0210) 2020年5月10日

すると、u++さんからjapanize-matplotlibを参考にしてみては？との助言を頂きました。
（u++さんありがとうございます。）

GitHub - shyaginuma/geek-engineer-future: ギークなエンジニアを目指す.fm

ん〜・・・long_description周りの記述は悪くなさそうだな...

licenseの書き方がちょっと違うから、念のためここを変更して確認してみることに。

...

setup(
    name='nlplot',
    version='1.0.0',
    description='Visualization Module for Natural Language Processing',
    long_description=long_description,
    long_description_content_type='text/markdown',
    author='Takanobu Nozawa',
    author_email='takanobu.030210@gmail.com',
    url='https://github.com/takapy0210/nlplot',
    # license=license,
    license='MIT License',
    install_requires=read_requirements(),
    packages=find_packages(exclude=('tests')),
    package_data={'nlplot':['data/*']},
    python_requires='~=3.6'
)
...

twine checkをしてみると、warningもErrorも出ない。

twine check dist/* 
Checking dist/nlplot-1.0.0-py3-none-any.whl: PASSED
Checking dist/nlplot-1.0.0.tar.gz: PASSED

ちなみに元々読み込んでいたLICENSE.txtの中身はこちら。

MIT License

Copyright (c) 2020, Takanobu Nozawa

こちらが悪さをしていた様子。（このファイルを1行だけにすると上手くいきました）

検索してみると、Githubの公式にこのLICENSEファイルの作り方がありました。

help.github.com

そもそも setup()のlicenseのこのファイルの内容を設定しようしていたのがダメだったようです。

最後に

同じようなことで数時間溶かす人がいなくなりますように。

Podcastをはじめました。

2020-05-09T13:25:43+09:00

Stories - jp.freepik.com

こんにちは。たかぱい（@takapy0210）です。

本日はお知らせっぽい宣伝です。

Podcastをはじめました
- どんなことを配信するの？
- なぜはじめたの？
最後に

Podcastをはじめました

ご縁があり、Yagiさん（@yaginuuun）とPodcastの配信をはじめました。

興味のある方はリスナー登録だったり、視聴してみていただけると喜びます。

anchor.fm

配信内容は下記Githubにまとめています。

~~（Podcast名は「ギークなエンジニアを目指す.fm」となっていますが、僕がゴリ押しした訳ではないです。念のため笑）~~

以下ポエムです。

どんなことを配信するの？

技術、実務、キャリアなどについてカジュアルに話していく予定です。

僕らは元々DS / ML Eng 出身ではないところから、この業界へと足を踏み入れました。

そんな僕らが興味のある技術だったり、実務の難しさ・楽しさだったり、キャリアの考え方などを配信していければと思っています。
（ゆくゆくはゲストをお招きしたり、輪読会の様子などの配信もしてきたいなぁ・・・）

なぜはじめたの？

Yagiさん（@yaginuuun）からのご提案で。

もともと2人で論文や書籍の輪読会を行っており、会話の中でPodcastやってみませんかということになりました。

僕個人の話だけすると、転職してから1年が経ち業務にも慣れてきた一方、
環境を変えたことでいくつかの気付きもありました。

例えばこの1年間で、ありがたいことにいくつか対外的な活動をする機会をいただきました。

aws.amazon.com

employment.en-japan.com

trainz.jp

このような経験を通して 自分のことを話すのがあまり得意ではないな ということをなんとなく感じてきました。*1
特に取材だと「ワイが一方的に話しているけど、これで良いのかな・・・*2」という思いや「うまく伝わっているかな・・・」という不安があったりしました。

一方、対外的な発信をすることで、「参考になった」などの嬉しいコメントを頂けたのも事実であり、このような活動は今後も続けていきたいと思っています。

得意なことをやるのはもちろん大切なのですが、やりたいことを得意にしていくことも大切だよね ということでこのお話を快諾させていただきました。
あと純粋に「自分という人間を音声だけでどう表現できるのか」にも興味がありました。
（何はともあれ、Yagiさんお誘いありがとうございます！）

最後に

SOFT SKILLS ソフトウェア開発者の人生マニュアルに

何かを新たに始めようとするときには、「それらがどのようにして、他人に価値をもたらすか」という視点から考えるようにすべきだ。

という1節があります。

まだまだ不慣れで拙い部分もありますが、ゆくゆくは価値のあるものに育てていければと思っています！

*1:極端に自分語りする人が苦手なこともあり、自然とそうならないように意識付けされているのかもしれません

*2:取材だから当たり前なのは承知しています

【言語処理100本ノック 2020】 4章をPythonで解いた

2020-05-04T21:00:45+09:00

こんにちは。takapy（@takapy0210）です。

本エントリは言語処理100本ノック 2020の4章を解いてみたので、それの備忘です。

例によってコードはGithubに置いてあります。

第4章: 形態素解析

第4章: 形態素解析

夏目漱石の小説『吾輩は猫である』の文章（neko.txt）をMeCabを使って形態素解析し，その結果をneko.txt.mecabというファイルに保存せよ．このファイルを用いて，以下の問に対応するプログラムを実装せよ．

なお，問題37, 38, 39はmatplotlibもしくはGnuplotを用いるとよい．

始めに.txtファイルを形態素解析したファイル（.mecab）に出力してからスタートします。

# $ mecab INPUT -o OUTPUT の形式でファイルを引数に取って形態素解析を実行できます
mecab neko.txt -o neko.txt.mecab

出力されたneko.txt.mecabは下記のようになっているはずです。

一  名詞,数,*,*,*,*,一,イチ,イチ
EOS
EOS
　 記号,空白,*,*,*,*,　,　,　
吾輩  名詞,代名詞,一般,*,*,*,吾輩,ワガハイ,ワガハイ
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
猫 名詞,一般,*,*,*,*,猫,ネコ,ネコ
で 助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある  助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
。 記号,句点,*,*,*,*,。,。,。
EOS
名前  名詞,一般,*,*,*,*,名前,ナマエ,ナマエ

mecabの詳細については下記を参照してください。

taku910.github.io

また、今回の可視化にはplotlyを使用しています。

plotly.com

30. 形態素解析結果の読み込み

"""
形態素解析結果（neko.txt.mecab）を読み込むプログラムを実装せよ．
ただし，各形態素は表層形（surface），基本形（base），品詞（pos），品詞細分類1（pos1）をキーとするマッピング型に格納し，
1文を形態素（マッピング型）のリストとして表現せよ．第4章の残りの問題では，ここで作ったプログラムを活用せよ．
"""
def parse_morpheme(morpheme):
    (surface, attr) = morpheme.split('\t')
    attr = attr.split(',')
    morpheme_dict = {
        'surface': surface,
        'base': attr[6],
        'pos': attr[0],
        'pos1': attr[1]
    }
    return morpheme_dict

file = 'neko.txt.mecab'
with open(file, mode='rt', encoding='utf-8') as f:
    morphemes_list = [s.strip('EOS\n') for s in f.readlines()]

morphemes_list = [s for s in morphemes_list if s != '']
ans_list = list(map(parse_morpheme, morphemes_list))
print(ans_list[:5])

ファイルを読み込んだ後、不要な値（''）を除外して、指定の形態素を辞書型に格納しています。
出力は先頭5行のみ表示させるようにしました。

実行結果

[{'surface': '一', 'base': '一', 'pos': '名詞', 'pos1': '数'}, {'surface': '\u3000', 'base': '\u3000', 'pos': '記号', 'pos1': '空白'}, {'surface': '吾輩', 'base': '吾輩', 'pos': '名詞', 'pos1': '代名詞'}, {'surface': 'は', 'base': 'は', 'pos': '助詞', 'pos1': '係助詞'}, {'surface': '猫', 'base': '猫', 'pos': '名詞', 'pos1': '一般'}]

31. 動詞

"""
動詞の表層形をすべて抽出せよ．
"""
def parse_morpheme(morpheme):
    (surface, attr) = morpheme.split('\t')
    attr = attr.split(',')
    morpheme_dict = {
        'surface': surface,
        'base': attr[6],
        'pos': attr[0],
        'pos1': attr[1]
    }
    return morpheme_dict


def get_value(items, get_type, key, value):
    return [x[get_type] for x in items if key in x and get_type in x and x[key] == value]


file = 'neko.txt.mecab'
with open(file, mode='rt', encoding='utf-8') as f:
    morphemes_list = [s.strip('EOS\n') for s in f.readlines()]

morphemes_list = [s for s in morphemes_list if s != '']
ans_list = list(map(parse_morpheme, morphemes_list))

ans = get_value(ans_list, 'surface', 'pos', '動詞')
print(ans[:5])

get_value関数を実装し、動詞のsurfaceを抽出しています。

実行結果

['生れ', 'つか', 'し', '泣い', 'し']

32. 動詞の原形

"""
動詞の原形をすべて抽出せよ．
"""
def parse_morpheme(morpheme):
    (surface, attr) = morpheme.split('\t')
    attr = attr.split(',')
    morpheme_dict = {
        'surface': surface,
        'base': attr[6],
        'pos': attr[0],
        'pos1': attr[1]
    }
    return morpheme_dict


def get_value(items, get_type, key, value):
    return [x[get_type] for x in items if key in x and get_type in x and x[key] == value]


file = 'neko.txt.mecab'
with open(file, mode='rt', encoding='utf-8') as f:
    morphemes_list = [s.strip('EOS\n') for s in f.readlines()]

morphemes_list = [s for s in morphemes_list if s != '']
ans_list = list(map(parse_morpheme, morphemes_list))

ans = get_value(ans_list, 'base', 'pos', '動詞')
print(ans[:5])

31のコードのget_value関数に渡す引数をbaseに変更しただけです。

実行結果

['生れる', 'つく', 'する', '泣く', 'する']

33. 「AのB」

"""
2つの名詞が「の」で連結されている名詞句を抽出せよ．
"""
def parse_morpheme(morpheme):
    (surface, attr) = morpheme.split('\t')
    attr = attr.split(',')
    morpheme_dict = {
        'surface': surface,
        'base': attr[6],
        'pos': attr[0],
        'pos1': attr[1]
    }
    return morpheme_dict


def get_value(items):
    return [items[i-1]['surface'] + x['surface'] + items[i+1]['surface']
            for i, x in enumerate(items)
            if x['surface'] == 'の'
            and items[i-1]['pos'] == '名詞'
            and items[i+1]['pos'] == '名詞']

file = 'neko.txt.mecab'
with open(file, mode='rt', encoding='utf-8') as f:
    morphemes_list = [s.strip('EOS\n') for s in f.readlines()]

morphemes_list = [s for s in morphemes_list if s != '']
ans_list = list(map(parse_morpheme, morphemes_list))

ans = get_value(ans_list)
print(ans[:5])

get_value関数内でリスト内包表記を用いて名詞 + の + 名詞を抽出しています。

実行結果

['彼の掌', '掌の上', '書生の顔', 'はずの顔', '顔の真中']

34. 名詞の連接

"""
名詞の連接（連続して出現する名詞）を最長一致で抽出せよ．
"""
def parse_morpheme(morpheme):
    (surface, attr) = morpheme.split('\t')
    attr = attr.split(',')
    morpheme_dict = {
        'surface': surface,
        'base': attr[6],
        'pos': attr[0],
        'pos1': attr[1]
    }
    return morpheme_dict


def get_value(items):
    ret = []
    noun_list = []
    for i, x in enumerate(items):
        if x['pos'] == '名詞':
            if items[i+1]['pos'] == '名詞':
                noun_list.append(x['surface'])
            else:
                if len(noun_list) >= 1:
                    noun_list.append(x['surface'])
                    ret.append(noun_list)
                noun_list = []
    return ret

file = 'neko.txt.mecab'
with open(file, mode='rt', encoding='utf-8') as f:
    morphemes_list = [s.strip('EOS\n') for s in f.readlines()]

morphemes_list = [s for s in morphemes_list if s != '']
ans_list = list(map(parse_morpheme, morphemes_list))

ans = get_value(ans_list)
print(ans[:5])

get_value関数で連接を抽出しています。
名詞が連続している場合はそれらをnoun_listに格納し、連続が途切れた段階でretに詰めています。

実行結果

[['人間', '中'], ['一番', '獰悪'], ['時', '妙'], ['一', '毛'], ['その後', '猫']]

35. 単語の出現頻度

"""
文章中に出現する単語とその出現頻度を求め，出現頻度の高い順に並べよ．
"""
import pandas as pd
from collections import defaultdict


def parse_morpheme(morpheme):
    (surface, attr) = morpheme.split('\t')
    attr = attr.split(',')
    morpheme_dict = {
        'surface': surface,
        'base': attr[6],
        'pos': attr[0],
        'pos1': attr[1]
    }
    return morpheme_dict


def get_value(items):
    return [x['surface'] for x in items]


def get_freq(value):
    def generate_ngrams(text, n_gram=1):
        token = [token for token in text.lower().split(" ") if token != "" if token]
        ngrams = zip(*[token[i:] for i in range(n_gram)])
        return [" ".join(ngram) for ngram in ngrams]

    freq_dict = defaultdict(int)
    for sent in value:
        for word in generate_ngrams(str(sent)):
            freq_dict[word] += 1

    fd_sorted = pd.DataFrame(sorted(freq_dict.items(), key=lambda x: x[1])[::-1])
    fd_sorted.columns = ['word', 'word_count']
    return fd_sorted


file = 'neko.txt.mecab'
with open(file, mode='rt', encoding='utf-8') as f:
    morphemes_list = [s.strip('EOS\n') for s in f.readlines()]

morphemes_list = [s for s in morphemes_list if s != '']
ans_list = list(map(parse_morpheme, morphemes_list))

ans = get_value(ans_list)
ans = get_freq(ans)

print(ans.head())

get_freq関数で出現頻度を計算しています。

実行結果

     word  word_count  
0    の        9194  
1    。        7486  
2    て        6868  
3    、        6772  
4    は        6420

36. 頻度上位10語

"""
出現頻度が高い10語とその出現頻度をグラフ（例えば棒グラフなど）で表示せよ．
"""
import pandas as pd
from collections import defaultdict
import plotly.express as px
from plotly.offline import plot


def parse_morpheme(morpheme):
    (surface, attr) = morpheme.split('\t')
    attr = attr.split(',')
    morpheme_dict = {
        'surface': surface,
        'base': attr[6],
        'pos': attr[0],
        'pos1': attr[1]
    }
    return morpheme_dict


def get_value(items):
    return [x['surface'] for x in items]


def get_freq(value):
    def generate_ngrams(text, n_gram=1):
        token = [token for token in text.lower().split(" ") if token != "" if token]
        ngrams = zip(*[token[i:] for i in range(n_gram)])
        return [" ".join(ngram) for ngram in ngrams]

    freq_dict = defaultdict(int)
    for sent in value:
        for word in generate_ngrams(str(sent)):
            freq_dict[word] += 1

    fd_sorted = pd.DataFrame(sorted(freq_dict.items(), key=lambda x: x[1])[::-1])
    fd_sorted.columns = ['word', 'word_count']
    return fd_sorted.head(10)


file = 'neko.txt.mecab'
with open(file, mode='rt', encoding='utf-8') as f:
    morphemes_list = [s.strip('EOS\n') for s in f.readlines()]

morphemes_list = [s for s in morphemes_list if s != '']
ans_list = list(map(parse_morpheme, morphemes_list))

ans = get_value(ans_list)
ans = get_freq(ans)

fig = px.bar(
    ans.sort_values('word_count'),
    y='word',
    x='word_count',
    text='word_count',
    orientation='h',
)
fig.update_traces(
    texttemplate='%{text:.2s}',
    textposition='auto',
)
fig.update_layout(
    title=str('頻度上位10語'),
    xaxis_title=str('出現数'),
    yaxis_title=str('単語'),
    width=1000,
    height=500,
)
plot(fig, filename='ans_36_plot.html', auto_open=False)

get_freqのreturnでhead(10)として、上位10単語のみを抽出しています。
今回はplotlyを用いて可視化しました。
実行すると、実行ディレクトリにans_36_plot.htmlファイルが出力され、それをブラウザで開くと画像が確認できます。

実行結果

37. 「猫」と共起頻度の高い上位10語

"""
「猫」とよく共起する（共起頻度が高い）10語とその出現頻度をグラフ（例えば棒グラフなど）で表示せよ．
"""
import pandas as pd
from collections import defaultdict
import plotly.express as px
from plotly.offline import plot


def parseMecab(block):
    res = []
    for line in block.split('\n'):
        if line == '':
            return res
        (surface, attr) = line.split('\t')
        attr = attr.split(',')
        lineDict = {
            'surface': surface,
            'base': attr[6],
            'pos': attr[0],
            'pos1': attr[1]
        }
        res.append(lineDict)


def extract(block):
    return [b['base'] for b in block]


filename = 'neko.txt.mecab'
with open(filename, mode='rt', encoding='utf-8') as f:
    blockList = f.read().split('EOS\n')
blockList = list(filter(lambda x: x != '', blockList))
blockList = [parseMecab(block) for block in blockList]
wordList = [extract(block) for block in blockList]
wordList = list(filter(lambda x: '猫' in x, wordList))
d = defaultdict(int)
for word in wordList:
    for w in word:
        if w != '猫':
            d[w] += 1
ans = sorted(d.items(), key=lambda x: x[1], reverse=True)[:10]

ans = pd.DataFrame(ans)
ans.columns = ['word', 'word_count']

fig = px.bar(
    ans.sort_values('word_count'),
    y='word',
    x='word_count',
    text='word_count',
    orientation='h',
)
fig.update_traces(
    texttemplate='%{text:.2s}',
    textposition='auto',
)
fig.update_layout(
    title=str('「猫」との共起回数上位10語'),
    xaxis_title=str('「猫」との共起数'),
    yaxis_title=str('単語'),
    width=1000,
    height=500,
)
plot(fig, filename='ans_37_plot.html', auto_open=False)

共起頻度を計算する想定でデータの読み込みを行っていなかったので、前半の処理部分はu++さんのコードをカンニングしました・・・🙇‍♂️
（さすがに30から解き直す気力もなく）

言語処理100本ノック、4章の37問目でこれ状態になった
（共起回数を計算できる形式でデータを読み込んで無かった） pic.twitter.com/4R4iWKReuL
— takapy | たかぱい (@takapy0210) 2020年5月4日

実行すると、実行ディレクトリにans_37_plot.htmlファイルが出力され、それをブラウザで開くと画像が確認できます。

実行結果

38. ヒストグラム

"""
単語の出現頻度のヒストグラム（横軸に出現頻度，縦軸に出現頻度をとる単語の種類数を棒グラフで表したもの）を描け．
"""
import pandas as pd
from collections import defaultdict
import plotly.express as px
from plotly.offline import plot


def parse_morpheme(morpheme):
    (surface, attr) = morpheme.split('\t')
    attr = attr.split(',')
    morpheme_dict = {
        'surface': surface,
        'base': attr[6],
        'pos': attr[0],
        'pos1': attr[1]
    }
    return morpheme_dict


def get_value(items):
    return [x['surface'] for x in items]


def get_freq(value):
    def generate_ngrams(text, n_gram=1):
        token = [token for token in text.lower().split(" ") if token != "" if token]
        ngrams = zip(*[token[i:] for i in range(n_gram)])
        return [" ".join(ngram) for ngram in ngrams]

    freq_dict = defaultdict(int)
    for sent in value:
        for word in generate_ngrams(str(sent)):
            freq_dict[word] += 1

    fd_sorted = pd.DataFrame(sorted(freq_dict.items(), key=lambda x: x[1])[::-1])
    fd_sorted.columns = ['word', 'word_count']
    return fd_sorted


file = 'neko.txt.mecab'
with open(file, mode='rt', encoding='utf-8') as f:
    morphemes_list = [s.strip('EOS\n') for s in f.readlines()]

morphemes_list = [s for s in morphemes_list if s != '']
ans_list = list(map(parse_morpheme, morphemes_list))

ans = get_value(ans_list)
ans = get_freq(ans)

fig = px.histogram(ans, x='word_count', nbins=50)
fig.update_layout(
    title=str('単語の出現頻度のヒストグラム'),
    xaxis_title=str('出現頻度'),
    yaxis_title=str('単語の種類数'),
    width=1000,
    height=500,
)
plot(fig, filename='ans_38_plot.html', auto_open=False)

実行すると、実行ディレクトリにans_38_plot.htmlファイルが出力され、それをブラウザで開くと画像が確認できます。

実行結果

39. Zipfの法則

"""
単語の出現頻度順位を横軸，その出現頻度を縦軸として，両対数グラフをプロットせよ．
"""
import pandas as pd
import math
from collections import defaultdict
import plotly.express as px
from plotly.offline import plot


def parse_morpheme(morpheme):
    (surface, attr) = morpheme.split('\t')
    attr = attr.split(',')
    morpheme_dict = {
        'surface': surface,
        'base': attr[6],
        'pos': attr[0],
        'pos1': attr[1]
    }
    return morpheme_dict


def get_value(items):
    return [x['surface'] for x in items]


def get_freq(value):
    def generate_ngrams(text, n_gram=1):
        token = [token for token in text.lower().split(" ") if token != "" if token]
        ngrams = zip(*[token[i:] for i in range(n_gram)])
        return [" ".join(ngram) for ngram in ngrams]

    freq_dict = defaultdict(int)
    for sent in value:
        for word in generate_ngrams(str(sent)):
            freq_dict[word] += 1

    fd_sorted = pd.DataFrame(sorted(freq_dict.items(), key=lambda x: x[1])[::-1])
    fd_sorted.columns = ['word', 'word_count']
    return fd_sorted


file = 'neko.txt.mecab'
with open(file, mode='rt', encoding='utf-8') as f:
    morphemes_list = [s.strip('EOS\n') for s in f.readlines()]

morphemes_list = [s for s in morphemes_list if s != '']
ans_list = list(map(parse_morpheme, morphemes_list))

ans = get_value(ans_list)
ans = get_freq(ans)
ans['rank_log'] = [math.log(r + 1) for r in range(len(ans))]
ans['count_log'] = [math.log(v) for v in ans['word_count']]

fig = px.scatter(ans, x='rank_log', y='count_log')
fig.update_layout(
    title=str('単語の出現頻度のヒストグラム'),
    xaxis_title=str('単語の出現頻度順位'),
    yaxis_title=str('出現頻度'),
    width=800,
    height=600,
)
plot(fig, filename='ans_39_plot.html', auto_open=False)

両対数グラフとは、「x軸：対数目盛、y軸：対数目盛」のようにx軸とy軸の両方が対数目盛となっているグラフのことです。 rank_logとcount_logでそれぞれ計算しています。

実行結果

【言語処理100本ノック 2020】 3章をPythonで解いた

2020-05-03T09:55:34+09:00

こんにちは。たかぱい（@takapy0210）です。

本エントリは言語処理100本ノック 2020の3章を解いてみたので、それの備忘です。

例によってコードはGithubに置いてあります。