さわらブログ

さわら(@xhiroga)の技術ブログ

データ基盤を立ち上げるので データマネジメントが30分でわかる本 を読んだ #DMBOK30min

TwitterSum (@nepinepimate3) | Twitter さんに勧めてもらったのと、社内でデータ基盤を立ち上げようとして悩みが多かったので読みました。

SREらしく(?) システム構築のことばかり心配していましたが、データ分析基盤はもっと多くの人と関わる仕事だと気づかされました。

ちなみに同人誌としても特筆すべきポイントが多々あるのですが割愛(宣伝手法・表紙デザイン・協賛・ターゲティング...)

感想サマリー

特に勘違いしていたこと・知らなかったこと

データウェアハウスに関する知識について、アプリケーションのためのデータの話と勘違いしていたことに気づけた。
特にスタースキーマ、データモデルなど。

CIF(コーポレートインフォメーションファクトリー)についても初めて知った、DWH, Data Mart... と分けるやつ。アレ名前知りたかったんだ。本書ではサラッと触れてた、別途以下のブログが参考になりそう。
gotouma.hatenablog.com

アクションが間違ってたこと・想定が甘かったこと

具体的な話はむしろ著者のデブサミ資料に詳しい。
speakerdeck.com

  • 広告と購買データを結びつけて分析したいのはそうだと思う、ビジネス側が満足な分析をできていない可能性もっと知りたい
  • 問い合わせの分析はたしかにアプリケーションDBの中身と組み合わせて分析したいだろうと思う
  • 必要なデータモデルごとにチケットが切られる未来を知れてよかった(著者の会社はそうっぽい)

しっくり来てないこと...

  • データ分析基盤になんでも入れるのか?会社KPIや開発チケットに関するメトリクスなどは違和感あるが、やれば慣れる/便利?
  • 社内のドキュメント管理についても触れているが、これは情シスの守備範囲のような気も?
  • DWH時点で個人情報をすべて削ぎ落とすのは攻めてる印象、DM送ったり代理店に情報連携したりで必要にならないか
  • 個人情報のクレンジングについてもっと知りたい。半匿名化(社内で紐付けはできるが、外部に流出しても分からない)のような考えとかないのか

まとめ

偶然知った本だがこのタイミングで読めて本当に良かった、具体的なデータ活用のユースケースについては(この方だけでは限界があると思うので、色んな人から)もっと知りたい。私の所属している会社も未活用のデータがあるはずだ。