ギークなエンジニアを目指す男

機械学習系の知識を蓄えようとするブログ

Data Engineering Study #1「DWH・BIツールのこれまでとこれから」 参加ログ

f:id:taxa_program:20200719154003p:plain

こんにちは。takapy(@takapy0210)です。

今回は本日参加したイベントの備忘です。

forkwell.connpass.com

どのLTもとても勉強になるイベントでした。
資料は後ほど公開されるものもあるみたいなので、公開され次第追記しようと思います。

Twitterでは #DataEngineeringStudy で盛り上がっていました。

事業を成長させるデータ基盤を作るには

  • データ基盤をなぜ作るのか
  • データ基盤には何が必要か
  • データ基盤をどのように実現するか

speakerdeck.com

memo

  • データ基盤大事だよな〜と改めて思った
    • 正しい意思決定するため
    • 現場と経営をつないで、顧客価値を提供するため
  • データの品質・可用性の観点で最初に議論しておくの大事そう
  • modelとviewで分けて考える
    • model:データの蓄積や加工
    • view:データの参照や活用
      • ある程度データ基盤できてきたら、view(BIツール)で試行錯誤して定常的に使うようになったらDWH(model)側に組み込む、みたいな運用が良さそう
  • 部署ごとに売り上げがずれる問題、めっちゃ分かる
    • 見るツールによって数値が若干ズレてるのでどこかで統一したいなぁ
    • KPIの指標とか
  • データ基盤を構築する際はデータの階層を分けて考える
    • データレイク
      • RAWデータをそのまま格納したもの(汚いデータもそもままおくのが重要)
    • データウェアハウス
      • 複数のデータを統合・蓄積して分析向けに整理したもの
        • 顧客情報テーブル、など
    • データマート
      • 特定の利用者ごとに分離したもの
    • 上記を全部BQで構築する際、命名規則で管理する、といったことが可能
  • DWH構築・運用する際には、申請手順のワークフロー組んでおいた方がよさそう(同じようなテーブルが乱立しないためにも)
    • こんなデータを分析したいので
    • こんな集計テーブルが欲しい
    • 期間はこのくらい
    • といった内容を明記したフォーマット的なもの

スポンサーLT1

  • Embulkのマネージドサービス troccoの話

blog.trocco.io

@資料は公開され次第追加

memo

  • DWHを1から構築するには480時間ほどかかるみたい
  • 作ったら終わりではなく、そこからの運用も結構大変
  • あとからどんどん要望が湧いてくる・・・
    • 分析するためのDWHなのに、いつまでも分析できない・・・
  • そこでtrocco(トロッコ)を使ってみては?

    • Embulkのマネージドサービス
    • 好きな言語で開発できる
    • GUIで操作も可能
    • Githubでコード管理もできる
  • 以下で体験記が見れる
    blog.trocco.io

ZOZOTOWNの事業を支えるBigQueryの話

ロビンマスクが登場しました・・・(見てた人しか分からないネタ)

  • ZOZOのデータ基盤のお話
  • BigQueryの辛いところ
  • 現在PoC中の基盤のお話

@資料は公開され次第追加

memo

  • 全社のKPIが1つのツールで共有されているの良さそう
  • オンプレとクラウドのDWHを比較すると、圧倒的にクラウドが便利
    • BQは容量無限大!これは確かに強いよな〜
  • redashのver up追従するの辛いの分かる・・
  • BIチームが専属でいるの強いな
  • LookMLはGithubでコード管理できて便利そう
  • BigQueryの辛いところ
    • いろんな人が SELECT * を試し始めてお金が飛んだ
    • Service Usage APIでスキャン量が多いクエリを検知できる
    • コスト予測がし辛い
      • Flat-rate pricingを入れるとコストを固定できる
      • クエリのバースト性能が落ちる可能性がある

スポンサーLT2

  • Forkwellのお話

https://portfolio.forkwell.com/about

memo

  • 使ってみると面白そう(某prasと似ている感じなのかな?)
  • スポンサーの回数が500回を超えてるらしい(すごい)

freeeのデータ基盤におけるDWH/BIの運用事例紹介

  • AWSを用いてデータ基盤を構築している
    • Athena
    • Redshift
  • Redshiftとredashの運用事例紹介

speakerdeck.com

memo

  • freeeさんは社員全員SQLがかけるみたい(?)
  • Redshift

    • マスク処理、カラム除外をしたデータ
    • クラスタ3台を使っている
    • Redshiftの良いところ
      • コストの見通し建てやすい
      • S3との相性が良い
      • 集計クエリは比較的回しやすい
    • Redshiftで苦労しているところ
      • キャパプラ難しい
      • テーブルのチューニングが必要
        →このあたりはBigQueryと対比してそう
  • redash

    • EC2インスタンス上にdocker入れて運用
    • 監視はMackerel
    • 良いところ
      • OSSなので運用費がやすい!
      • spread sheetへの連携も簡単
    • 苦労しているところ
      • SQLが書けないと使えない
      • 思いクエリが多発するとQueteが詰まる

まとめ

オンラインイベントには何回か参加していますが、やっぱり気軽に参加できるのが良いですね。

今回のイベントは参加者数が1000人を超えていることもあり、データ基盤への期待だったり課題を抱えている人が多いんだなぁと思いました。

機械学習とデータは切っても切れない関係だと思うので、自分でもデータ基盤構築・データマネジメントの知識はキャッチアップしていきたいと思います。