- 背景: 12月は読むべきAdvent Calendarが多すぎる
- 紹介したエントリ
- データ分析で用いるSQLクエリの設計方法 - 風音屋TechBlog
- datacontract-cliの紹介およびCI/CDについて
- プロダクトをまたいだクロスセルの施策効果を見積もるためのデータ分析パターン #データ分析 - Qiita
- セミナーアンケートをBigQueryで簡単に感情分析したお話|株式会社HR Force
- Analytics Hub / BigQuery データシェアリング 2024 #AnalyticsHub - Qiita
- データアナリストが使うと便利な生成AIプロンプト事例
- dbtのmaterializationの話
- Apache Iceberg BigQuey/BigLake テーブルを触ってみた
- データエンジニアリング関係の言葉の定義をまとめた(随時更新) #dataengineering - Qiita
- プロダクトマネージャー向け野良ダッシュボードの活用方法 - 10X Product Blog
- おまけ: 「Advent Calendarを眺める会」の始め方
背景: 12月は読むべきAdvent Calendarが多すぎる
12月はAdvent Calendarの季節、ということで毎日のようにいいエントリが流れてきます。いいエントリがあると、興味ありそうな人とわいわい議論したいですね。善は急げ、ということで社内でさくっとやってみて、6人くらい集まって結構楽しかったです。
ストレッチ受けながらいいアイディア思い浮かんだんだけど、datatechjpとかbigqueryとかdbyとか色々アドベントカレンダーでエントリ出てるから、それ眺めながら1時間くらいワイワイ話す会を来週社内のhuddleとかでやってみよかな。よかったらtwitterのspaceとかでもやるかも
— Yasuhisa Yoshida (@syou6162) 2024年12月8日
社外でもやりたいなと思って、やりたい人を募った結果、自分を含めてspeakerが4人集まったので開催することにしました(Thanks to tsuchikawaさん / na0さん / kuboさん!)。
今日社内でやってみたらそれなりにいい感じだったから、12/16 19:00-20:00にspaceでやろうかなーと思ってます。一人で話してると悲しいので、誰か合いの手打ってくれる人 / この辺話したい話題ある人いませんか?今週金曜までに誰か手をあげてくれたら開催します https://t.co/KKZWQpa3yG
— Yasuhisa Yoshida (@syou6162) 2024年12月11日
紹介したエントリ
当日も1エントリにつき5分程度で紹介していったので、各エントリ3行くらいでよいと思ったポイントなどを紹介していきます。
データ分析で用いるSQLクエリの設計方法 - 風音屋TechBlog
- 分析経験がある程度ある人の頭の中をうまいこと言語化してくれていた
- ジュニアな分析者 / 分析業務が主業務ではないBiz系の人などにプロセスを説明するための資料としてもよさそう
- 抽象的な議論だけでなく、具体のテーブルなども載っているため、慣れていない人にも分かりやすいエントリだった
風音屋さんの記事、さっそく業務で使ってめちゃくちゃ役立ちました。
— Hiroki Uchide(ucchi-) (@hanon52_) 2024年12月16日
データ分析のSQL書き慣れてない人に対する認識合わせやレビューに便利。#data_advent_calendar
FigJamで図を描きながら、中間テーブルを分解して、不明点をコメントで非同期にやりとり。
— Hiroki Uchide(ucchi-) (@hanon52_) 2024年12月16日
datacontract-cliの紹介およびCI/CDについて
- 直近でもData Contractの事例共有会などを行ないましたが、Advent Calendarでも2エントリ上がってきていて、静かに広まってきている感があった
- 最初のエントリの著者のotagaさんがリスナーにいらっしゃったので、内容を紹介してもらいました!
- テストの生成、仕様の見やすいドキュメント化、など活用ポイントは割と幅広い
- datacontract-cliはまだまだ枯れているとは言いにくい状況ではあるけど、逆にcontributeチャンス満載なので日本からもやっていきたいですね
プロダクトをまたいだクロスセルの施策効果を見積もるためのデータ分析パターン #データ分析 - Qiita
- pixivのucchi-さんによるエントリで、pixivだとpixiv本体と広告事業などプロダクトをまたいだ施策効果を見積る必要がある場面が多く、その時の知見をまとめたエントリ
- これもご本人が聞いてらっしゃったので、直接紹介してもらいました
- プロダクトをまたいだ分析にはディメンションをConformedにしていく必要がありますよね、という流れから今度出版されるディメンショナルモデリング関連の書籍についても紹介
- ucchi-さんは翻訳された方の一人
セミナーアンケートをBigQueryで簡単に感情分析したお話|株式会社HR Force
- アンケートの自由記述のような定性データをBigQueryの
ML.GENERATE_TEXT
を使って分析しようというエントリ - 昔だと、テキスト系の分析をするためにmecabを入れて、それを動かすパイプラインを組んで...が必要だったけど、今はSQLの中で済むことも多くなってきた
- データ基盤の運用者も楽になってきているし、活用者側も気軽にできるようになってきた
BigQuery ML つかいたい!! #data_advent_calendar
— yuichi | データエンジニア (@1210yuichi0) 2024年12月16日
Analytics Hub / BigQuery データシェアリング 2024 #AnalyticsHub - Qiita
- このエントリも著者のna0さんがいたので、紹介してもらった
- BigQueryのdataViewerを直接渡す場合とできることは似たものももちろんあるが、利用者がどういうクエリを実際に実行したかは分からない
INFORMATION_SCHEMA.SHARED_DATASET_USAGE
の存在が自分としては一番の面白ポイントでした
Analytics Hub, データクリーンルームも便利なのでそのうち記事を書きたい。
— Hiroki Uchide(ucchi-) (@hanon52_) 2024年12月16日
仮名加工したデータを、裏側のロジックを見せずに共有できるのが楽なんですよね。承認済みテーブルを使うよりメンテコストが低い。#data_advent_calendar
承認済みビューが辛い話で30分は話せそう...。
データアナリストが使うと便利な生成AIプロンプト事例
- こちらも著者のmuranakaさんがいらっしゃったので、直接紹介してもらいました
- 特定の分析をするプロンプトなどは見かける機会はありましたが、それに留まらず仕様把握・業務理解 / 要件定義・仕様策定 / 分析・実装 / レビューなどほぼ全行程にLLMを活用 & 実際のプロンプトも載っていて迫力がありました
- ご本人も話されていましたが、転職直後でドメイン知識がない場合はこういったLLMの力が特に発揮されそうですね
- 余計にメタデータの重要性が増してきているとも言える
dbtのmaterializationの話
- 最初のCADDiさんのエントリで
dbt run-operation
を使った外部テーブルの作成が取り上げられていましたが、そこから派生してdbtのmatelializationの話をしました - Python ModelやBigQueryのUDFなど、様々なリソースをdbtのカスタムmatelializationとして表現できるのは便利ですね
- リソース定義をライフサイクルやデータパイプランのどこ / どのタイミングで行なうのがよいか、という話もしました
スプシで管理されたマスタテーブルのベストプラクティス2024を知りたいですね。
— Hiroki Uchide(ucchi-) (@hanon52_) 2024年12月16日
スプシの型制約を使う、GASでバリデーションする、外部テーブル×dbt test、実体テーブルにコピーして壊れない事を保証してから使う、などなど。#data_advent_calendar
Apache Iceberg BigQuey/BigLake テーブルを触ってみた
- こちらも著者のhirakiさんがいらっしゃったので、直接紹介してもらいました
- 先日のイベントでもお世話になりました
- SnowflakeやDatabricksからIcebergを使うケースは最近見かけるようになってきているものの、BigQueryやBigLakeから使うケースは珍しいなと思って取り上げさせてもらいました
- AWSにあるリソースをBigQueryに持っていくためのデータ転送量や運用負担なども考えて検討中とのことで、PoCや実運用する機会があったらまたエントリ楽しみにしてます!
データエンジニアリング関係の言葉の定義をまとめた(随時更新) #dataengineering - Qiita
- データエンジニアリング界隈、言葉の定義が割と曖昧なまま進むことも多いので、定義をきちんと抑えておきたい、という姿勢がまず素晴しいですね
随時更新
で、月末までにまだまだ更新する予定、ということだったので月末にまた再訪してみようと思います
プロダクトマネージャー向け野良ダッシュボードの活用方法 - 10X Product Blog
- 自社の10XのPdMであるuraさんが書いてくれたエントリ
- データエンジニア自身が「いい基盤を作った!」っていっても利用者にとってはどうか分からないことも多いので、利用者自身からこういうエントリを書いてもらえるのは基盤運用者としては地味に嬉しい
- プロダクト分析向けのマートをたくさん作ったわけではなく、汎用的な分析に耐えるfact / dimensionalテーブルを春頃から積極的に提供するようになって、実際に使ってもらってる例になります
- 個別で作らなくてもセルフサービスで回っている、という意味でもいい事例じゃないかなと思ってます
データ基盤は最終的に使われて初めて価値を発揮するため、利用者からこういう利活用の記事が出てくるのはとても尊くていいなぁと思います。#data_advent_calendar
— Hiroki Uchide(ucchi-) (@hanon52_) 2024年12月16日
おまけ: 「Advent Calendarを眺める会」の始め方
- 1: やりたい宣言をXで行ない、一緒にやりたい人を募ります
- 2: 下記のスクショのように会の目的ややり方などを参加者に共有します
- 話したいエントリを事前にピックアップしておくと安心です
- 3: 当日、Xのspaceでわいわいします!
トータルで費やした時間は1時間くらいです。準備の割に楽しいので、データ系以外でも真似してみてね。