ギークなエンジニアを目指す男

機械学習系の知識を蓄えようとするブログ

転職カウントダウンカレンダーをやります

こんにちは。takapy(@takapy0210)です。 本日現職での最終出社日を終え、月末まで有給休暇です。(新しい職場は3月1日入社予定) この期間を有効活用したいと思っていろいろ考えていたところ、ふとアドベントカレンダー的なものをやれば有意義に過ごせるの…

初心者が学ぶAWS備忘録(RDS、ELB、S3)

AWS

こんにちは。takapy(@takapy0210)です。 本記事もUdemyで受講した講座のまとめ記事です。(朝活頑張った) 講座はこちら 手を動かしながら2週間で学ぶ AWS 基本から応用まで RDSについて 特徴 ELBについて 特徴 ELB設計ポイント S3 特徴 利用シーン 静的コ…

初心者が学ぶAWS備忘録(AWSネットワークの基本、セキュリティグループ、ネットワークACL)

AWS

こんにちは。こんばんは。takapy(@takapy0210)です。 本記事もUdemyで受講した講座のまとめ記事です。 講座はこちら 手を動かしながら2週間で学ぶ AWS 基本から応用まで AWSのネットワークの基本のキ リージョン VPC サブネット アーキテクチャ例 セキュリ…

pyenvでBUILD FAILED Inspect or clean up the working tree エラーが出た時の対処方法(macOS Mojava 10.14.2)

こんにちは。こんばんは。takapy(@takapy0210)です。 環境構築で少しつまづいたので、備忘です。例のごとく、$で始まる行はコマンドです。 環境 pyenvのインストール python3.6.0のインストールでエラー 解決方法 環境 モデル:Mac book Pro 15インチ OS:…

主成分分析(PCA)の累積寄与率で見る特徴量エンジニアリング【python】

はじめに 主成分分析(PCA)とは 固有値と寄与率と累積寄与率 固有値 寄与率 累積寄与率 cancerデータセットで主成分分析 ロジスティック回帰でテスト 標準化 学習 主成分分析で寄与率を確認 2次元まで圧縮してプロット PCAの欠点 主成分分析後のデータでロ…

単変量解析で見る特徴量エンジニアリング【python】

本日は特徴量エンジニアリングの重要性について、scikit-learnでの簡単な実装を交えながら書いてみようと思います。 はじめに 特徴量エンジニアリング 単変量統計 検証の概要 検証 cancerデータの読み込み ノイズデータの生成 単変量特徴量選択 ロジスティッ…

初心者が学ぶAWS備忘録(IAMユーザ、利用料金見積り、EC2、ミドルウェアインストール手順)

AWS

udemyの下記講座でAWSの基礎を学びました。 丁寧な解説と分かりやすいスライドにより、AWSの0→1を学ぶことができ、とても勉強になりました。 手を動かしながら2週間で学ぶ AWS 基本から応用まで 本記事はそれの備忘録です。何回かに分けてまとめていこうと思…

TF-IDFで見る評価の高いラーメン屋の口コミ傾向(自然言語処理, TF-IDF, Mecab, wordcloud, 形態素解析、分かち書き)

年末〜学習している日本語口コミデータの解析について一区切り(?)ついたので、まとめてみようと思います。 はじめに データ読み込み & EDA データの読み込み EDA 前処理(欠損値、形態素解析&分かち書き、ストップワード除去) 欠損値削除 数字の扱い Mec…

【初学者向け】TFIDFについて簡単にまとめてみた

本日は、TF-IDFについて簡単に勉強してみたので、それのまとめです。 TF-IDFとは Term Frequency Inverse Document Frequency TF-IDF(Term Frequency - Inverse Document Frequency)を求める scikit-learnで計算してみる TF-IDFとは Term Frequency - Invers…

単語と図で理解する自然言語処理(word2vec, RNN, LSTM)後編

前回に引き続き、後編です。 www.takapy.work 前編の簡単な復習 言語モデル 言語モデルにおけるフィードフォワード型ニューラルネットワーク(word2vec)の問題点 RNN BPTT(Backpropagation Through Time) BPTTの問題点 Truncated BPTT Truncated BPTTのミニ…

単語と図で理解する自然言語処理(word2vec, RNN, LSTM)前編

「ゼロから作るDeepLearning2」を読了しましたので、要点や自分なりの解釈をまとめておきます。 www.oreilly.co.jp まとめていたら長編になってしまったため(それってまとまってなくね?)、前編と後編に分割することにしました。 自然言語と単語の分散表現…

WebサイトをPythonでスクレイピングしてみた

先日宣言しておりました下記について、エラーなども解消し無事に動くところまでできました。 www.takapy.work 自然言語処理の学習のためのデータ集めなどをしている。自分の好きなデータだとやる気が出ると思っての題材選定だが、腹しか減らん。 pic.twitter…

2018年の振り返りと2019年の目標

あけましておめでとうございます。 本日は2019年1本目の記事ということで、完全なポエムです。 2018年の簡単な振り返りと、今年2019年の目標を立てていこうと思います。 そして2019年12月31日に、その年の振り返りをする際のたたき台になれば良いかな、とい…

年末年始は口コミデータの解析などをしてみたいと思う。

来年3月からMLエンジニアとして仕事をしていくわけですが、なるべく実力をつけた状態で新しい職場にいきたいので、年末年始という大型連休をどうにか有効に使えないかと考えました。 新しい職場では、まずは自然言語処理業務に関わると聞いているため、せっ…

python3からMecabを使ってみた(インストール手順も)

年末年始で自然言語処理の勉強をするため、Mecabをインストールして使ってみました。 その時のインストール手順などの備忘録です。 インストール環境 インストール手順 Homebrew Mecabと辞書をインストール mecab-ipadic-NEologdをインストール Pythonバイン…