データ系のAdvent Calendarを眺める会を開催しました

背景: 12月は読むべきAdvent Calendarが多すぎる

12月はAdvent Calendarの季節、ということで毎日のようにいいエントリが流れてきます。いいエントリがあると、興味ありそうな人とわいわい議論したいですね。善は急げ、ということで社内でさくっとやってみて、6人くらい集まって結構楽しかったです。

社外でもやりたいなと思って、やりたい人を募った結果、自分を含めてspeakerが4人集まったので開催することにしました(Thanks to tsuchikawaさん / na0さん / kuboさん!)。

紹介したエントリ

当日も1エントリにつき5分程度で紹介していったので、各エントリ3行くらいでよいと思ったポイントなどを紹介していきます。

データ分析で用いるSQLクエリの設計方法 - 風音屋TechBlog

  • 分析経験がある程度ある人の頭の中をうまいこと言語化してくれていた
  • ジュニアな分析者 / 分析業務が主業務ではないBiz系の人などにプロセスを説明するための資料としてもよさそう
  • 抽象的な議論だけでなく、具体のテーブルなども載っているため、慣れていない人にも分かりやすいエントリだった

datacontract-cliの紹介およびCI/CDについて

  • 直近でもData Contractの事例共有会などを行ないましたが、Advent Calendarでも2エントリ上がってきていて、静かに広まってきている感があった
    • 最初のエントリの著者のotagaさんがリスナーにいらっしゃったので、内容を紹介してもらいました!
  • テストの生成、仕様の見やすいドキュメント化、など活用ポイントは割と幅広い
  • datacontract-cliはまだまだ枯れているとは言いにくい状況ではあるけど、逆にcontributeチャンス満載なので日本からもやっていきたいですね

プロダクトをまたいだクロスセルの施策効果を見積もるためのデータ分析パターン #データ分析 - Qiita

セミナーアンケートをBigQueryで簡単に感情分析したお話|株式会社HR Force

  • アンケートの自由記述のような定性データをBigQueryのML.GENERATE_TEXTを使って分析しようというエントリ
  • 昔だと、テキスト系の分析をするためにmecabを入れて、それを動かすパイプラインを組んで...が必要だったけど、今はSQLの中で済むことも多くなってきた
    • データ基盤の運用者も楽になってきているし、活用者側も気軽にできるようになってきた

Analytics Hub / BigQuery データシェアリング 2024 #AnalyticsHub - Qiita

  • このエントリも著者のna0さんがいたので、紹介してもらった
  • BigQueryのdataViewerを直接渡す場合とできることは似たものももちろんあるが、利用者がどういうクエリを実際に実行したかは分からないINFORMATION_SCHEMA.SHARED_DATASET_USAGEの存在が自分としては一番の面白ポイントでした

承認済みビューが辛い話で30分は話せそう...。

データアナリストが使うと便利な生成AIプロンプト事例

  • こちらも著者のmuranakaさんがいらっしゃったので、直接紹介してもらいました
  • 特定の分析をするプロンプトなどは見かける機会はありましたが、それに留まらず仕様把握・業務理解 / 要件定義・仕様策定 / 分析・実装 / レビューなどほぼ全行程にLLMを活用 & 実際のプロンプトも載っていて迫力がありました
  • ご本人も話されていましたが、転職直後でドメイン知識がない場合はこういったLLMの力が特に発揮されそうですね
    • 余計にメタデータの重要性が増してきているとも言える

dbtのmaterializationの話

  • 最初のCADDiさんのエントリでdbt run-operationを使った外部テーブルの作成が取り上げられていましたが、そこから派生してdbtのmatelializationの話をしました
  • Python ModelやBigQueryのUDFなど、様々なリソースをdbtのカスタムmatelializationとして表現できるのは便利ですね
  • リソース定義をライフサイクルやデータパイプランのどこ / どのタイミングで行なうのがよいか、という話もしました

Apache Iceberg BigQuey/BigLake テーブルを触ってみた

  • こちらも著者のhirakiさんがいらっしゃったので、直接紹介してもらいました
    • 先日のイベントでもお世話になりました
  • SnowflakeやDatabricksからIcebergを使うケースは最近見かけるようになってきているものの、BigQueryやBigLakeから使うケースは珍しいなと思って取り上げさせてもらいました
  • AWSにあるリソースをBigQueryに持っていくためのデータ転送量や運用負担なども考えて検討中とのことで、PoCや実運用する機会があったらまたエントリ楽しみにしてます!

データエンジニアリング関係の言葉の定義をまとめた(随時更新) #dataengineering - Qiita

  • データエンジニアリング界隈、言葉の定義が割と曖昧なまま進むことも多いので、定義をきちんと抑えておきたい、という姿勢がまず素晴しいですね
  • 随時更新で、月末までにまだまだ更新する予定、ということだったので月末にまた再訪してみようと思います

プロダクトマネージャー向け野良ダッシュボードの活用方法 - 10X Product Blog

  • 自社の10XのPdMであるuraさんが書いてくれたエントリ
    • データエンジニア自身が「いい基盤を作った!」っていっても利用者にとってはどうか分からないことも多いので、利用者自身からこういうエントリを書いてもらえるのは基盤運用者としては地味に嬉しい
  • プロダクト分析向けのマートをたくさん作ったわけではなく、汎用的な分析に耐えるfact / dimensionalテーブルを春頃から積極的に提供するようになって、実際に使ってもらってる例になります
    • 個別で作らなくてもセルフサービスで回っている、という意味でもいい事例じゃないかなと思ってます

おまけ: 「Advent Calendarを眺める会」の始め方

  • 1: やりたい宣言をXで行ない、一緒にやりたい人を募ります
  • 2: 下記のスクショのように会の目的ややり方などを参加者に共有します
    • 話したいエントリを事前にピックアップしておくと安心です
  • 3: 当日、Xのspaceでわいわいします!

トータルで費やした時間は1時間くらいです。準備の割に楽しいので、データ系以外でも真似してみてね。