データエンジニアリングやデータ活用の知見を共有するコミュニティdatatech-jpをやってますという話

この記事は、datatech-jp Advent Calendar 2021の1日目の記事です。

datatech-jpというコミュニティについて

こんにちは。モノタロウでデータエンジニアをやっているid:syou6162です。

今年の夏頃からdatatech-jpというコミュニティの運営に関わっています。元々はThe Self-Service Data Roadmapという本の読み会のためにSlackを立てたのがきっかけでした。

「この本以外の読書会などでも使えれば」ということで、エンジニアに限らず、データ分析者、総務など裾野を広く集まれる場所になればということで、コミュニティとなりdatatech-jpと名前を付けました。あれよあれよという間に参加者が増えていき、現在Slackには230名(!)以上の方が参加するまでのコミュニティに成長しています。

何をやっているコミュニティなの?

datatech-jpのページ、今は実質slackの招待リンク置き場になっていて、slackに入っていないと何が行なわれているか分からないと思うので、今年どういう活動が行なわれていたかをざっくり紹介します。

The Self-Service Data Roadmap読み会

一番大きな活動はこれでした。The Self-Service Data Roadmapは洋書なので日本語ほど気軽には読めないですし*1、面白そうではあるもののトピックがかなり多岐に渡る本なので個々の分野をそれなりに知っている人と一緒に読まないとなかなか読むのに苦戦しそうな本でした。

この読み会では19 Chapterを1 Chapterずつ割り当てを決めていって、約3ヶ月 / 全7回で行ない、無事に完走しました🎉🎉🎉

この本の内容については、私が発表した分はすでに公開していますし、他のChapterについてもdatatech-jp Advent Calendarで紹介してくださる方がいらっしゃるので、そちらも楽しみですね。

本の内容自体もよかったですが、「皆さんの会社でこの項目、実際どのレベルまでできてますか?」といった生の声を聞けたのが個人的には一番よかったです。

また、Data Management at Scaleの読書会も企画が始まっているので、興味がある人はdatatech-jpのslackに是非JOINしてみてください。

Airflow困り事相談会

  • こちらはペパボの@udzuraさんとの1on1(という名の雑談会)をしているときに話題に出たのが開催のきっかけ
    • id:udzuraさん 「コミュニティ内で普段使っているツールの困り事や運用をどうやっているか話せる場が欲しいよね」
    • id:syou6162 「分かる〜〜〜」
  • データエンジニアがよく使っていそうなAirflowあたりでまずやってみますか!
    • 割とすぐに開催に至る
    • 当日は10名以上のご参加
  • 各社、運用の苦しみが色々あるが、どうやってしのいでいるかを共有できたのでよかったかなと思っています
  • 好評だったので、次はdbt困り事相談会を企画中です
    • 年内でやる感じで準備を進めているので、楽しみに待っていてください!
    • 仕事で実際に使っている方にお声がけして、運用の困り事観点をパネルディスカッションで聞いていくスタイルでやろうと思っています

waiwai会

どういうコミュニティにしていきたいか

運営をやっているメンバーの総意というわけではなく、運営のメンバーの一人としてこういうコミュニティや活動をやっていきたいなという意気込みを書いてみます。

データ基盤の構築やデータ活用の促進の活動をやっていて思うのは、本当に会社によってやるべきことが違ってくる、ということです。例えば

  • そもそもデータレイクにデータがあるのか
    • なければひとまず持ってくる、あるならデータ品質のSLOの認識をまとめていって、それを守れるようにする
  • データ活用の浸透度合い
    • 基盤を作ったはいいが、思ったより使われないケース
    • 思っていた以上に使われ過ぎていて、社内の統制が取りにくくなってきているケース
  • 事業のフェイズやデータの利用用途
    • 売上規模に対するデータの寄与度合い
    • KPIダッシュボードで週1で見れれば十分なのか、DWHから加工したデータがサービスに取り込まれるのでSLOが厳しいケースなのか
  • 事業の形態
    • 単一の事業なのか、複数の事業なのか
      • 複数の場合、それらは独立しているのか相互に依存関係があるのか
      • 個別に基盤を作っていくか、統合して作るかが変わってくる
    • 買い切りなのか、subscriptionなのか

などなどです。それぞれの項目でも考えるべきことがたくさんありますが、どれをどの順番で取り組んでいくかを決めるのも非常に難しいです。

DMBOKなど体系的にまとまっている本もありますが、自社でどう展開していくべきかとこの本の間には大分距離があります。こういう時に私が助けられたのは他社さんのデータ基盤 / データ活用の「生の声」でした。キラキラしてものというよりは結構泥臭いものも多いですが、そちらのほうが「ああ、うちだったらこれはこういう風に真似できそうだな!」とイメージが湧くことが多かったです。私自身、こうした生の実例に助けられたこともあって、自社の実例は出せるところは出してきているつもりです(前職でも現職でも)。

生の声を聞けるちゃんとした場としては(例えば)Data Engineering Studyなどがあり、もっとラフに話せる場所があるとよさそうだなと思います。なので、{Airflow, dbt}困り事相談会やwaiwai会などカジュアルに他社の様子を聞ける場所を今後も展開していけたらなと思いますし、datatech-jp Advent Calendarもそういう生の声がどんどん集まってくるとよいなと思っています。どんどん盛り上げていきましょう! 「datatech-jpにJOINしたい!」という方はこちらから参加できるので、お気軽にどうぞ。

2日目は@henachocolate1さんによるDMBOKの話のようです。楽しみですね。

*1:へっぽこなので...