こんにちは。takapy（@takapy0210）です。

今回は本日参加したイベントの備忘です。

どのLTもとても勉強になるイベントでした。
資料は後ほど公開されるものもあるみたいなので、公開され次第追記しようと思います。

Twitterでは #DataEngineeringStudy で盛り上がっていました。

事業を成長させるデータ基盤を作るには
- memo
スポンサーLT1
- memo
ZOZOTOWNの事業を支えるBigQueryの話
- memo
スポンサーLT2
- memo
freeeのデータ基盤におけるDWH/BIの運用事例紹介
- memo
まとめ

事業を成長させるデータ基盤を作るには

データ基盤をなぜ作るのか
データ基盤には何が必要か
データ基盤をどのように実現するか

speakerdeck.com

memo

データ基盤大事だよな〜と改めて思った
- 正しい意思決定するため
- 現場と経営をつないで、顧客価値を提供するため
データの品質・可用性の観点で最初に議論しておくの大事そう
modelとviewで分けて考える
- model：データの蓄積や加工
- view：データの参照や活用
  - ある程度データ基盤できてきたら、view（BIツール）で試行錯誤して定常的に使うようになったらDWH（model）側に組み込む、みたいな運用が良さそう
部署ごとに売り上げがずれる問題、めっちゃ分かる
- 見るツールによって数値が若干ズレてるのでどこかで統一したいなぁ
- KPIの指標とか
データ基盤を構築する際はデータの階層を分けて考える
- データレイク
  - RAWデータをそのまま格納したもの（汚いデータもそもままおくのが重要）
- データウェアハウス
  - 複数のデータを統合・蓄積して分析向けに整理したもの
    - 顧客情報テーブル、など
- データマート
  - 特定の利用者ごとに分離したもの
- 上記を全部BQで構築する際、命名規則で管理する、といったことが可能
DWH構築・運用する際には、申請手順のワークフロー組んでおいた方がよさそう（同じようなテーブルが乱立しないためにも）
- こんなデータを分析したいので
- こんな集計テーブルが欲しい
- 期間はこのくらい
- といった内容を明記したフォーマット的なもの

スポンサーLT1

Embulkのマネージドサービス troccoの話

blog.trocco.io

@資料は公開され次第追加

memo

DWHを1から構築するには480時間ほどかかるみたい
作ったら終わりではなく、そこからの運用も結構大変
あとからどんどん要望が湧いてくる・・・
- 分析するためのDWHなのに、いつまでも分析できない・・・
そこでtrocco（トロッコ）を使ってみては？
- Embulkのマネージドサービス
- 好きな言語で開発できる
- GUIで操作も可能
- Githubでコード管理もできる
以下で体験記が見れる
blog.trocco.io

ZOZOTOWNの事業を支えるBigQueryの話

ロビンマスクが登場しました・・・（見てた人しか分からないネタ）

ZOZOのデータ基盤のお話
BigQueryの辛いところ
現在PoC中の基盤のお話

@資料は公開され次第追加

memo

全社のKPIが1つのツールで共有されているの良さそう
オンプレとクラウドのDWHを比較すると、圧倒的にクラウドが便利
- BQは容量無限大！これは確かに強いよな〜
redashのver up追従するの辛いの分かる・・
BIチームが専属でいるの強いな
LookMLはGithubでコード管理できて便利そう
BigQueryの辛いところ
- いろんな人が SELECT * を試し始めてお金が飛んだ
- Service Usage APIでスキャン量が多いクエリを検知できる
- コスト予測がし辛い
  - Flat-rate pricingを入れるとコストを固定できる
  - クエリのバースト性能が落ちる可能性がある

スポンサーLT2

Forkwellのお話

https://portfolio.forkwell.com/about

memo

使ってみると面白そう（某prasと似ている感じなのかな？）
スポンサーの回数が500回を超えてるらしい（すごい）

freeeのデータ基盤におけるDWH/BIの運用事例紹介

AWSを用いてデータ基盤を構築している
- Athena
- Redshift
Redshiftとredashの運用事例紹介

speakerdeck.com

memo

freeeさんは社員全員SQLがかけるみたい（？）
Redshift
- マスク処理、カラム除外をしたデータ
- クラスタ3台を使っている
- Redshiftの良いところ
  - コストの見通し建てやすい
  - S3との相性が良い
  - 集計クエリは比較的回しやすい
- Redshiftで苦労しているところ
  - キャパプラ難しい
  - テーブルのチューニングが必要
    →このあたりはBigQueryと対比してそう
redash
- EC2インスタンス上にdocker入れて運用
- 監視はMackerel
- 良いところ
  - OSSなので運用費がやすい！
  - spread sheetへの連携も簡単
- 苦労しているところ
  - SQLが書けないと使えない
  - 思いクエリが多発するとQueteが詰まる

まとめ

オンラインイベントには何回か参加していますが、やっぱり気軽に参加できるのが良いですね。

今回のイベントは参加者数が1000人を超えていることもあり、データ基盤への期待だったり課題を抱えている人が多いんだなぁと思いました。

機械学習とデータは切っても切れない関係だと思うので、自分でもデータ基盤構築・データマネジメントの知識はキャッチアップしていきたいと思います。

ギークなエンジニアを目指す男

機械学習系の知識を蓄えようとするブログ

Data Engineering Study #1「DWH・BIツールのこれまでとこれから」参加ログ

事業を成長させるデータ基盤を作るには

memo

スポンサーLT1

memo

ZOZOTOWNの事業を支えるBigQueryの話

memo

スポンサーLT2

memo

freeeのデータ基盤におけるDWH/BIの運用事例紹介

memo

まとめ