ギークなエンジニアを目指す男

機械学習系の知識を蓄えようとするブログ

自然言語を簡単に可視化・分析できるライブラリ「nlplot」を公開しました

こんにちは。たかぱい(@takapy0210)です。 本日は自然言語の可視化を手軽にできるようにしたパッケージnlplotをPyPIに公開したので、これのご紹介です。 nlplotとは? nlplotで何ができるか 使い方 使用データ 事前準備 ストップワードの計算 N-gram bar c…

PyPIへのアップロード時に「HTTPError: 400 Client Error: The description failed to render in the default format of reStructuredText.」が出る場合の対処方法

こんにちは。takapy(@takapy0210)です。 自作パッケージをPyPIにアップロードしようとしたところ簡易的なミスで数時間溶かしたので、その備忘です。 エラー内容 エラー発生時のsetup.pyの内容 解決方法 やったこと 各種パッケージのアップデート 公式の書…

Podcastをはじめました。

Stories - jp.freepik.com こんにちは。たかぱい(@takapy0210)です。 本日はお知らせっぽい宣伝です。 Podcastをはじめました どんなことを配信するの? なぜはじめたの? 最後に Podcastをはじめました ご縁があり、Yagiさん(@yaginuuun)とPodcastの配…

【言語処理100本ノック 2020】 4章をPythonで解いた

こんにちは。takapy(@takapy0210)です。 本エントリは言語処理100本ノック 2020の4章を解いてみたので、それの備忘です。 nlp100.github.io 例によってコードはGithubに置いてあります。 github.com 第4章: 形態素解析 30. 形態素解析結果の読み込み 31. …

【言語処理100本ノック 2020】 3章をPythonで解いた

こんにちは。たかぱい(@takapy0210)です。 本エントリは言語処理100本ノック 2020の3章を解いてみたので、それの備忘です。 nlp100.github.io 例によってコードはGithubに置いてあります。 github.com 第3章: 正規表現 20. JSONデータの読み込み 21. カテ…

【言語処理100本ノック 2020】 2章をPythonで解いた

こんにちは。たかぱい(@takapy0210)です。 本エントリは言語処理100本ノック 2020の2章を解いてみたので、それの備忘です。 nlp100.github.io 例によってコードはGithubに置いてあります。 github.com 第2章: UNIXコマンド 10. 行数のカウント 11. タブを…

【言語処理100本ノック 2020】 1章をPythonで解いた

こんにちは。たかぱい(@takapy0210)です。 本エントリは言語処理100本ノック 2020の1章を解いてみたので、それの備忘です。 nlp100.github.io コードはGithubに置いてあります。 github.com 第1章: 準備運動 00. 文字列の逆順 01. 「パタトクカシーー」 02…

【書籍メモ】Python実践入門を読了したので機械学習PJにも使えそうなところをメモる

こんにちは。たかぱい(@takapy0210)です。 本日は【Python実践入門】を読了したので、それの備忘です。 はじめに 全体を通して Docstring Docstringの例 ジェネレータ、デコレータ、コンテキストマネージャー ジェネレータ 具体的な使用例 デコレータ 具体…

データ分析コンペで使っているワイの学習・推論パイプラインを晒します

こんにちは!たかぱい(@takapy0210)です。 本記事はKaggle Advent Calendar 2019の14日目の記事です。 昨日はkaggle masterのアライさんのKaggleコード遺産の記事でした! とても参考になり、いくつか自分の遺産にも取り入れさせていただきました。 さて本…

Category Encodersのすゝめ【AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019 10日目】

こんにちは!たかぱい(@takapy0210)です。 本記事は、AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019の10日目の記事です。 今回は、最近よく使用しているCategory Encodersを動かしてみた結果をまとめてみようと思います。 Categ…

atmaCup オンサイトデータコンペ #2に参加してきました!

こんにちは!takapy(@takapy0210)です。 今回は、昨日(11月23日)行われた atmaCup#2に参加してきましたので、振り返りや諸々の感想などを残していければと思います。 このような経験の振り返りに関しては、YWTのフレームワークを使うと良いという噂を聞…

【小ネタ】ipywidgetsを使ってデータフレームのheaderを固定してデータを表示する

こんばんは。takapy(@takapy0210)です。 今日はpythonの小ネタです。 サマリ 手順 ipywidgetsのインストールとjupyterの設定 コード 最後に サマリ 下記のように、headerを固定しながら一覧をスクロールすることができます。 手順 ipywidgetsのインストー…

AWS Lambdaを利用してarXivの論文を(日本語に翻訳して)slack通知する

こんにちは。takapy(@takapy0210)です。 最近下記のような勉強会が賑わっており、論文を読む機運が高まってきているのでは?と思い始めています。 lpixel.connpass.com しかし、そもそも自分の読みたい内容の論文を探すのが難しかったり、時間がかかったり…

GloVeを使って単語の分散表現を取得する

こんにちは。takapy(@takapy0210)です。 コンピュータで自然言語を扱う場合は、単語(文書)を何らかの形で数値表現に変換する必要があります。 単語の分散表現を得る方法の一つとして、gensimのword2vecを使うことはよくあると思うのですが、本日はGloVe…

AWS Summit TOKYO 2019に参加しました!(2日目)

AWS

こんばんは。takapy(@takapy0210)です。 本日はAWS Summitの初参加レポです! 2019年 6月 12日 (水) 〜14日 (金)の3日間開催されており、自分は13日(木)に参加してきました! 着いた! #AWSSummit pic.twitter.com/EacyHHETlc— takapy(たかぱい) (@takap…

第35回 Machine Learning 15minutes! に参加してきました

こんにちは。takapy(@takapy0210)です。 待ちに待った(?)GWです。今年は10連休&元号が変わるということで、若干のお祭りモードを感じます。 5月6日に「10連休何やってたんだっけ・・・」とならないように、適度に勉強もしていきたいな!と思っていたり…

Dockerを使って機械学習実行環境(勾配ブースティング、ニューラルネット含む)を30分で構築する - python, Mecab, LightGBM, xgboost, TensorFlow, keras, Pytorch, etc... -

こんにちは。takapy(@takapy0210)です。 今日はDockerで機械学習の環境を作成したのでそれの備忘です。 はじめに できること Dockerって何 Dockerのインストール 環境構築方法 Dockerイメージのpull コンテナの起動 補足 mecab-ipadic-neologdの使用方法 D…

【退職エントリ】SIerを辞めてWeb系ベンチャーの機械学習エンジニアとして働きます

こんばんは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 最終日の記事です。 (最終日と言いつつまだ埋まっていない日付があるので、これは後々埋めます) www.takapy.work いわゆる退職(転職)エントリです。 本日、2019年2月28…

ランダムフォレストはなぜ「ランダム」なのか

こんにちは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 6日目の記事です。 www.takapy.work はじめに ランダムフォレストとは 異なる決定木を作るための2つの乱数選択 ブーストラップサンプリング 特徴量選択 簡単に図で説明 pyt…

【初心者向け】実際に動かしながらDockerを学ぶ〜後編〜

こんにちは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 5日目の記事です。 www.takapy.work はじめに Dockerのネットワーク ブリッジネットワーク ユーザ定義のブリッジネットワークを作成する Dockerのデータ管理 volumeを使用…

AWS Lambdaを利用してpythonでslack通知を実装する

こんにちは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 4日目の記事です。リフレッシュを兼ねてDocker以外の記事を挟みます。 www.takapy.work はじめに SlackのWorkspaceにIncoming Webhookを登録 AWS Simple Queue Serviceの作…

【初心者向け】実際に動かしながらDockerを学ぶ〜中編〜

こんにちは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 3日目の記事です。 www.takapy.work はじめに Automated Build(自動ビルド)について DockerHub上での設定 自動ビルドを実行してみる 自動ビルドしたイメージをPullしてみ…

【初心者向け】実際に動かしながらDockerを学ぶ〜前編〜

こんにちは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 2日目の記事です。 www.takapy.work はじめに ホスト型仮想化とコンテナ型仮想化の違い 仮想化のオーバーヘッド 従来の仮想化(ホスト型仮想化) コンテナ型仮想化 アプリ…

Mac環境構築備忘録(Python・Chrome拡張・アプリ)

こんばんは。takapyです。 本記事は、転職カウントダウンカレンダーの1日目の記事です。 www.takapy.work 3月より入社する職場からMacを支給されたので、環境構築がてら手順の備忘をまとめておこうと思います。 python関連 Homebrew pyenv pyenvでpythonをイ…

Python用VSCode拡張機能まとめ

こんばんは。takapyです。 本記事はVSCode拡張機能の備忘です。 python関連 Git関連 その他 python関連 marketplace.visualstudio.com marketplace.visualstudio.com marketplace.visualstudio.com Git関連 marketplace.visualstudio.com marketplace.visual…

転職カウントダウンカレンダーをやります

こんにちは。takapy(@takapy0210)です。 本日現職での最終出社日を終え、月末まで有給休暇です。(新しい職場は3月1日入社予定) この期間を有効活用したいと思っていろいろ考えていたところ、ふとアドベントカレンダー的なものをやれば有意義に過ごせるの…

初心者が学ぶAWS備忘録(RDS、ELB、S3)

AWS

こんにちは。takapy(@takapy0210)です。 本記事もUdemyで受講した講座のまとめ記事です。(朝活頑張った) 講座はこちら 手を動かしながら2週間で学ぶ AWS 基本から応用まで RDSについて 特徴 ELBについて 特徴 ELB設計ポイント 設定手順 S3 特徴 利用シー…

初心者が学ぶAWS備忘録(AWSネットワークの基本、セキュリティグループ、ネットワークACL)

AWS

こんにちは。こんばんは。takapy(@takapy0210)です。 本記事もUdemyで受講した講座のまとめ記事です。 講座はこちら 手を動かしながら2週間で学ぶ AWS 基本から応用まで AWSのネットワークの基本のキ リージョン VPC サブネット アーキテクチャ例 セキュリ…

pyenvでBUILD FAILED Inspect or clean up the working tree エラーが出た時の対処方法(macOS Mojava 10.14.2)

こんにちは。こんばんは。takapy(@takapy0210)です。 環境構築で少しつまづいたので、備忘です。例のごとく、$で始まる行はコマンドです。 環境 pyenvのインストール python3.6.0のインストールでエラー 解決方法 環境 モデル:Mac book Pro 15インチ OS:…

主成分分析(PCA)の累積寄与率で見る特徴量エンジニアリング【python】

はじめに 主成分分析(PCA)とは 固有値と寄与率と累積寄与率 固有値 寄与率 累積寄与率 cancerデータセットで主成分分析 ロジスティック回帰でテスト 標準化 学習 主成分分析で寄与率を確認 2次元まで圧縮してプロット PCAの欠点 主成分分析後のデータでロ…