こんにちは。takapy（@takapy0210）です。本エントリは言語処理100本ノック2020の7章を解いてみたので、それの備忘です。簡単な解説をつけながら紹介していきます。 nlp100.github.io コードはGithubに置いてあります。 github.com 第7章: 機械学習単語の…

#NLP #Python #言語処理100本ノック

2021-06-06

【言語処理100本ノック 2020】 6章をPythonで解いた

Python Python-機械学習 Python-機械学習-自然言語処理 Python-機械学習-自然言語処理-言語処理100本ノック 2020

こんにちは。takapy（@takapy0210）です。本エントリは言語処理100本ノック2020の6章を解いてみたので、それの備忘です。途中まで解いて放置していました（）が、続きをやる機会を得たので簡単な解説をつけながら紹介していきます。 nlp100.github.io 例に…

#NLP #Python #言語処理100本ノック

2020-12-22

分析コンペをチームで戦うための技術

Python Python-機械学習 Python-機械学習-kaggle

こんにちは。takapy（@takapy0210）です。本記事はKaggle Advent Calendar 2020 22日目の記事です。明日は、本エントリで紹介するMoAコンペでチームを組んだsinchir0さんの予定です。タイトルからしてとても楽しみです！（プレッシャー） qiita.com はじ…

#kaggle #分析コンペ

2020-12-10

レコメンデーションに用いられるMatrix Factorization（行列分解）をTensorFlow.kerasで実装してみる

Python Python-機械学習

Vectorpouch - jp.freepik.com こんにちは。takapy（@takapy0210）です。本記事はコネヒト Advent Calendar 2020の10日目の記事です。 qiita.com みなさんハイキューという漫画（アニメ）はご存知でしょうか。高校バレーボールを題材にしたスポーツ青春漫…

#Python #TensorFlow #Keras #機械学習 #レコメンデーション

2020-05-17

自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました

Python Python-機械学習 Python-機械学習-自然言語処理

こんにちは。たかぱい（@takapy0210）です。本日は自然言語の可視化を手軽にできるようにしたパッケージnlplotをPyPIに公開したので、これのご紹介です。 nlplotとは？ nlplotで何ができるか使い方使用データ事前準備ストップワードの計算 N-gram bar c…

2020-05-04

【言語処理100本ノック 2020】 4章をPythonで解いた

Python Python-機械学習 Python-機械学習-自然言語処理 Python-機械学習-自然言語処理-言語処理100本ノック 2020

こんにちは。takapy（@takapy0210）です。本エントリは言語処理100本ノック 2020の4章を解いてみたので、それの備忘です。 nlp100.github.io 例によってコードはGithubに置いてあります。 github.com 第4章: 形態素解析 30. 形態素解析結果の読み込み 31. …

2020-05-03

【言語処理100本ノック 2020】 3章をPythonで解いた

Python Python-機械学習 Python-機械学習-自然言語処理 Python-機械学習-自然言語処理-言語処理100本ノック 2020

こんにちは。たかぱい（@takapy0210）です。本エントリは言語処理100本ノック 2020の3章を解いてみたので、それの備忘です。 nlp100.github.io 例によってコードはGithubに置いてあります。 github.com 第3章: 正規表現 20. JSONデータの読み込み 21. カテ…

2020-05-02

【言語処理100本ノック 2020】 2章をPythonで解いた

Python Python-機械学習 Python-機械学習-自然言語処理 Python-機械学習-自然言語処理-言語処理100本ノック 2020

こんにちは。たかぱい（@takapy0210）です。本エントリは言語処理100本ノック 2020の2章を解いてみたので、それの備忘です。 nlp100.github.io 例によってコードはGithubに置いてあります。 github.com 第2章: UNIXコマンド 10. 行数のカウント 11. タブを…

2020-05-02

【言語処理100本ノック 2020】 1章をPythonで解いた

Python Python-機械学習 Python-機械学習-自然言語処理 Python-機械学習-自然言語処理-言語処理100本ノック 2020

こんにちは。たかぱい（@takapy0210）です。本エントリは言語処理100本ノック 2020の1章を解いてみたので、それの備忘です。 nlp100.github.io コードはGithubに置いてあります。 github.com 第1章: 準備運動 00. 文字列の逆順 01. 「パタトクカシーー」 02…

2020-03-01

【書籍メモ】Python実践入門を読了したので機械学習PJにも使えそうなところをメモる

Python-機械学習 Book

こんにちは。たかぱい（@takapy0210）です。本日は【Python実践入門】を読了したので、それの備忘です。はじめに全体を通して Docstring Docstringの例ジェネレータ、デコレータ、コンテキストマネージャージェネレータ具体的な使用例デコレータ具体…

2019-12-14

データ分析コンペで使っているワイの学習・推論パイプラインを晒します

Python Python-機械学習-kaggle Python-機械学習

こんにちは！たかぱい（@takapy0210）です。本記事はKaggle Advent Calendar 2019の14日目の記事です。昨日はkaggle masterのアライさんのKaggleコード遺産の記事でした！とても参考になり、いくつか自分の遺産にも取り入れさせていただきました。さて本…

2019-12-10

Category Encodersのすゝめ【AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019 10日目】

Python Python-機械学習 Python-機械学習-kaggle Python-機械学習-特徴量エンジニアリング

こんにちは！たかぱい（@takapy0210）です。本記事は、AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019の10日目の記事です。今回は、最近よく使用しているCategory Encodersを動かしてみた結果をまとめてみようと思います。 Categ…

2019-11-24

atmaCup オンサイトデータコンペ #2に参加してきました！

Python-機械学習 Python-機械学習-kaggle Others

こんにちは！takapy（@takapy0210）です。今回は、昨日（11月23日）行われた atmaCup#2に参加してきましたので、振り返りや諸々の感想などを残していければと思います。このような経験の振り返りに関しては、YWTのフレームワークを使うと良いという噂を聞…

2019-09-11

【小ネタ】ipywidgetsを使ってデータフレームのheaderを固定してデータを表示する

Python Python-機械学習

こんばんは。takapy（@takapy0210）です。今日はpythonの小ネタです。サマリ手順 ipywidgetsのインストールとjupyterの設定コード最後にサマリ下記のように、headerを固定しながら一覧をスクロールすることができます。手順 ipywidgetsのインストー…

2019-07-15

AWS Lambdaを利用してarXivの論文を（日本語に翻訳して）slack通知する

AWS Python-機械学習

こんにちは。takapy（@takapy0210）です。最近下記のような勉強会が賑わっており、論文を読む機運が高まってきているのでは？と思い始めています。 lpixel.connpass.com しかし、そもそも自分の読みたい内容の論文を探すのが難しかったり、時間がかかったり…

2019-06-23

GloVeを使って単語の分散表現を取得する

Python-機械学習-自然言語処理 Python Python-機械学習

こんにちは。takapy（@takapy0210）です。コンピュータで自然言語を扱う場合は、単語（文書）を何らかの形で数値表現に変換する必要があります。単語の分散表現を得る方法の一つとして、gensimのword2vecを使うことはよくあると思うのですが、本日はGloVe…

2019-04-28

第35回 Machine Learning 15minutes! に参加してきました

Others Python-機械学習

こんにちは。takapy（@takapy0210）です。待ちに待った（？）GWです。今年は10連休&元号が変わるということで、若干のお祭りモードを感じます。 5月6日に「10連休何やってたんだっけ・・・」とならないように、適度に勉強もしていきたいな！と思っていたり…

2019-04-07

Dockerを使って機械学習実行環境（勾配ブースティング、ニューラルネット含む）を30分で構築する - python, Mecab, LightGBM, xgboost, TensorFlow, keras, Pytorch, etc... -

Python Python-機械学習 Docker

こんにちは。takapy（@takapy0210）です。今日はDockerで機械学習の環境を作成したのでそれの備忘です。はじめにできること Dockerって何 Dockerのインストール環境構築方法 Dockerイメージのpull コンテナの起動補足 mecab-ipadic-neologdの使用方法 D…

2019-02-24

ランダムフォレストはなぜ「ランダム」なのか

Python Python-機械学習

こんにちは。takapy（@takapy0210）です。本記事は、転職カウントダウンカレンダー 6日目の記事です。 www.takapy.work はじめにランダムフォレストとは異なる決定木を作るための2つの乱数選択ブーストラップサンプリング特徴量選択簡単に図で説明 pyt…

2019-02-08

主成分分析（PCA）の累積寄与率で見る特徴量エンジニアリング【python】

Python Python-機械学習 Python-機械学習-特徴量エンジニアリング

はじめに主成分分析（PCA）とは固有値と寄与率と累積寄与率固有値寄与率累積寄与率 cancerデータセットで主成分分析ロジスティック回帰でテスト標準化学習主成分分析で寄与率を確認 2次元まで圧縮してプロット PCAの欠点主成分分析後のデータでロ…

2019-02-07

単変量解析で見る特徴量エンジニアリング【python】

Python-機械学習 Python Python-機械学習-特徴量エンジニアリング

本日は特徴量エンジニアリングの重要性について、scikit-learnでの簡単な実装を交えながら書いてみようと思います。はじめに特徴量エンジニアリング単変量統計検証の概要検証 cancerデータの読み込みノイズデータの生成単変量特徴量選択ロジスティッ…

2019-01-14

TF-IDFで見る評価の高いラーメン屋の口コミ傾向（自然言語処理, TF-IDF, Mecab, wordcloud, 形態素解析、分かち書き）

Python-機械学習-自然言語処理 Python Python-機械学習

年末〜学習している日本語口コミデータの解析について一区切り（？）ついたので、まとめてみようと思います。はじめにデータ読み込み & EDA データの読み込み EDA 前処理（欠損値、形態素解析&分かち書き、ストップワード除去）欠損値削除数字の扱い Mec…

2019-01-14

【初学者向け】TFIDFについて簡単にまとめてみた

Python-機械学習-自然言語処理 Python Python-機械学習

本日は、TF-IDFについて簡単に勉強してみたので、それのまとめです。 TF-IDFとは Term Frequency Inverse Document Frequency TF-IDF(Term Frequency - Inverse Document Frequency)を求める scikit-learnで計算してみる TF-IDFとは Term Frequency - Invers…

2018-12-30