ギークなエンジニアを目指す男

機械学習系の知識を蓄えようとするブログ

Category Encodersのすゝめ【AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019 10日目】

こんにちは!たかぱい(@takapy0210)です。 本記事は、AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019の10日目の記事です。 今回は、最近よく使用しているCategory Encodersを動かしてみた結果をまとめてみようと思います。 Categ…

atmaCup オンサイトデータコンペ #2に参加してきました!

こんにちは!takapy(@takapy0210)です。 今回は、昨日(11月23日)行われた atmaCup#2に参加してきましたので、振り返りや諸々の感想などを残していければと思います。 このような経験の振り返りに関しては、YWTのフレームワークを使うと良いという噂を聞…

【小ネタ】ipywidgetsを使ってデータフレームのheaderを固定してデータを表示する

こんばんは。takapy(@takapy0210)です。 今日はpythonの小ネタです。 サマリ 手順 ipywidgetsのインストールとjupyterの設定 コード 最後に サマリ 下記のように、headerを固定しながら一覧をスクロールすることができます。 手順 ipywidgetsのインストー…

AWS Lambdaを利用してarXivの論文を(日本語に翻訳して)slack通知する

こんにちは。takapy(@takapy0210)です。 最近下記のような勉強会が賑わっており、論文を読む機運が高まってきているのでは?と思い始めています。 lpixel.connpass.com しかし、そもそも自分の読みたい内容の論文を探すのが難しかったり、時間がかかったり…

GloVeを使って単語の分散表現を取得する

こんにちは。takapy(@takapy0210)です。 コンピュータで自然言語を扱う場合は、単語(文書)を何らかの形で数値表現に変換する必要があります。 単語の分散表現を得る方法の一つとして、gensimのword2vecを使うことはよくあると思うのですが、本日はGloVe…

AWS Summit TOKYO 2019に参加しました!(2日目)

こんばんは。takapy(@takapy0210)です。 本日はAWS Summitの初参加レポです! 2019年 6月 12日 (水) 〜14日 (金)の3日間開催されており、自分は13日(木)に参加してきました! 着いた! #AWSSummit pic.twitter.com/EacyHHETlc— takapy | たかぱい (@takapy…

第35回 Machine Learning 15minutes! に参加してきました

こんにちは。takapy(@takapy0210)です。 待ちに待った(?)GWです。今年は10連休&元号が変わるということで、若干のお祭りモードを感じます。 5月6日に「10連休何やってたんだっけ・・・」とならないように、適度に勉強もしていきたいな!と思っていたり…

Dockerを使って機械学習実行環境(勾配ブースティング、ニューラルネット含む)を30分で構築する - python, Mecab, LightGBM, xgboost, TensorFlow, keras, Pytorch, etc... -

こんにちは。takapy(@takapy0210)です。 今日はDockerで機械学習の環境を作成したのでそれの備忘です。 はじめに できること Dockerって何 Dockerのインストール 環境構築方法 Dockerイメージのpull コンテナの起動 補足 mecab-ipadic-neologdの使用方法 D…

【退職エントリ】SIerを辞めてWeb系ベンチャーの機械学習エンジニアとして働きます

こんばんは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 最終日の記事です。 (最終日と言いつつまだ埋まっていない日付があるので、これは後々埋めます) www.takapy.work いわゆる退職(転職)エントリです。 本日、2019年2月28…

ランダムフォレストはなぜ「ランダム」なのか

こんにちは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 6日目の記事です。 www.takapy.work はじめに ランダムフォレストとは 異なる決定木を作るための2つの乱数選択 ブーストラップサンプリング 特徴量選択 簡単に図で説明 pyt…

【初心者向け】実際に動かしながらDockerを学ぶ〜後編〜

こんにちは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 5日目の記事です。 www.takapy.work はじめに Dockerのネットワーク ブリッジネットワーク ユーザ定義のブリッジネットワークを作成する Dockerのデータ管理 volumeを使用…

AWS Lambdaを利用してpythonでslack通知を実装する

こんにちは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 4日目の記事です。リフレッシュを兼ねてDocker以外の記事を挟みます。 www.takapy.work はじめに SlackのWorkspaceにIncoming Webhookを登録 AWS Simple Queue Serviceの作…

【初心者向け】実際に動かしながらDockerを学ぶ〜中編〜

こんにちは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 3日目の記事です。 www.takapy.work はじめに Automated Build(自動ビルド)について DockerHub上での設定 自動ビルドを実行してみる 自動ビルドしたイメージをPullしてみ…

【初心者向け】実際に動かしながらDockerを学ぶ〜前編〜

こんにちは。takapy(@takapy0210)です。 本記事は、転職カウントダウンカレンダー 2日目の記事です。 www.takapy.work はじめに ホスト型仮想化とコンテナ型仮想化の違い 仮想化のオーバーヘッド 従来の仮想化(ホスト型仮想化) コンテナ型仮想化 アプリ…

Mac環境構築備忘録(Python・Chrome拡張・アプリ)

こんばんは。takapyです。 本記事は、転職カウントダウンカレンダーの1日目の記事です。 www.takapy.work 3月より入社する職場からMacを支給されたので、環境構築がてら手順の備忘をまとめておこうと思います。 python関連 Homebrew pyenv pyenvでpythonをイ…

Python用VSCode拡張機能まとめ

こんばんは。takapyです。 本記事はVSCode拡張機能の備忘です。 python関連 Git関連 その他 python関連 marketplace.visualstudio.com marketplace.visualstudio.com marketplace.visualstudio.com Git関連 marketplace.visualstudio.com marketplace.visual…

転職カウントダウンカレンダーをやります

こんにちは。takapy(@takapy0210)です。 本日現職での最終出社日を終え、月末まで有給休暇です。(新しい職場は3月1日入社予定) この期間を有効活用したいと思っていろいろ考えていたところ、ふとアドベントカレンダー的なものをやれば有意義に過ごせるの…

初心者が学ぶAWS備忘録(RDS、ELB、S3)

AWS

こんにちは。takapy(@takapy0210)です。 本記事もUdemyで受講した講座のまとめ記事です。(朝活頑張った) 講座はこちら 手を動かしながら2週間で学ぶ AWS 基本から応用まで RDSについて 特徴 ELBについて 特徴 ELB設計ポイント 設定手順 S3 特徴 利用シー…

初心者が学ぶAWS備忘録(AWSネットワークの基本、セキュリティグループ、ネットワークACL)

AWS

こんにちは。こんばんは。takapy(@takapy0210)です。 本記事もUdemyで受講した講座のまとめ記事です。 講座はこちら 手を動かしながら2週間で学ぶ AWS 基本から応用まで AWSのネットワークの基本のキ リージョン VPC サブネット アーキテクチャ例 セキュリ…

pyenvでBUILD FAILED Inspect or clean up the working tree エラーが出た時の対処方法(macOS Mojava 10.14.2)

こんにちは。こんばんは。takapy(@takapy0210)です。 環境構築で少しつまづいたので、備忘です。例のごとく、$で始まる行はコマンドです。 環境 pyenvのインストール python3.6.0のインストールでエラー 解決方法 環境 モデル:Mac book Pro 15インチ OS:…

主成分分析(PCA)の累積寄与率で見る特徴量エンジニアリング【python】

はじめに 主成分分析(PCA)とは 固有値と寄与率と累積寄与率 固有値 寄与率 累積寄与率 cancerデータセットで主成分分析 ロジスティック回帰でテスト 標準化 学習 主成分分析で寄与率を確認 2次元まで圧縮してプロット PCAの欠点 主成分分析後のデータでロ…

単変量解析で見る特徴量エンジニアリング【python】

本日は特徴量エンジニアリングの重要性について、scikit-learnでの簡単な実装を交えながら書いてみようと思います。 はじめに 特徴量エンジニアリング 単変量統計 検証の概要 検証 cancerデータの読み込み ノイズデータの生成 単変量特徴量選択 ロジスティッ…

初心者が学ぶAWS備忘録(IAMユーザ、利用料金見積り、EC2、ミドルウェアインストール手順)

AWS

udemyの下記講座でAWSの基礎を学びました。 丁寧な解説と分かりやすいスライドにより、AWSの0→1を学ぶことができ、とても勉強になりました。 手を動かしながら2週間で学ぶ AWS 基本から応用まで 本記事はそれの備忘録です。何回かに分けてまとめていこうと思…

TF-IDFで見る評価の高いラーメン屋の口コミ傾向(自然言語処理, TF-IDF, Mecab, wordcloud, 形態素解析、分かち書き)

年末〜学習している日本語口コミデータの解析について一区切り(?)ついたので、まとめてみようと思います。 はじめに データ読み込み & EDA データの読み込み EDA 前処理(欠損値、形態素解析&分かち書き、ストップワード除去) 欠損値削除 数字の扱い Mec…

【初学者向け】TFIDFについて簡単にまとめてみた

本日は、TF-IDFについて簡単に勉強してみたので、それのまとめです。 TF-IDFとは Term Frequency Inverse Document Frequency TF-IDF(Term Frequency - Inverse Document Frequency)を求める scikit-learnで計算してみる TF-IDFとは Term Frequency - Invers…

単語と図で理解する自然言語処理(word2vec, RNN, LSTM)後編

前回に引き続き、後編です。 www.takapy.work 前編の簡単な復習 言語モデル 言語モデルにおけるフィードフォワード型ニューラルネットワーク(word2vec)の問題点 RNN BPTT(Backpropagation Through Time) BPTTの問題点 Truncated BPTT Truncated BPTTのミニ…

単語と図で理解する自然言語処理(word2vec, RNN, LSTM)前編

「ゼロから作るDeepLearning2」を読了しましたので、要点や自分なりの解釈をまとめておきます。 www.oreilly.co.jp まとめていたら長編になってしまったため(それってまとまってなくね?)、前編と後編に分割することにしました。 自然言語と単語の分散表現…

WebサイトをPythonでスクレイピングしてみた

先日宣言しておりました下記について、エラーなども解消し無事に動くところまでできました。 www.takapy.work 自然言語処理の学習のためのデータ集めなどをしている。自分の好きなデータだとやる気が出ると思っての題材選定だが、腹しか減らん。 pic.twitter…

2018年の振り返りと2019年の目標

あけましておめでとうございます。 本日は2019年1本目の記事ということで、完全なポエムです。 2018年の簡単な振り返りと、今年2019年の目標を立てていこうと思います。 そして2019年12月31日に、その年の振り返りをする際のたたき台になれば良いかな、とい…

年末年始は口コミデータの解析などをしてみたいと思う。

来年3月からMLエンジニアとして仕事をしていくわけですが、なるべく実力をつけた状態で新しい職場にいきたいので、年末年始という大型連休をどうにか有効に使えないかと考えました。 新しい職場では、まずは自然言語処理業務に関わると聞いているため、せっ…