elementaryを使ってデータの正確性に関わるデータ品質の実装状況を可視化する

背景: データ品質を可視化したい 実装: elementaryを使って、正確性のデータ指標を可視化する 実例: ダミーデータを使った可視化 まとめ 背景: データ品質を可視化したい 運用しているDWHでデータ品質にまつわる問題で苦労したことがない人は少ないと思いま…

dbtのモデルとLooker Studioのレポートの依存関係をexposureで表現して、データ管理を効率的に行なおう

シリーズの第三弾です。読者の宿題にしてたけど、誰も書いてくれなさそうだったので結局自分で書きました。 背景 Looker StudioはGoogle Workspaceを使っていれば基本的に無料で使えますし*1、権限管理にGoogle Groupとも連携できるので、人気のBIの一つだと…

dbtのモデルとConnected Sheetsの依存関係をexposureで表現して、データ管理を効率的に行なおう

以下のConnected Sheets版です。これはかなり便利なものができたと、自画自賛してます。 背景 Connected Sheetsをdbtのexposureとして取り込む 見所 Connected Sheetsからのクエリか判断する BigQuery Scripting経由で発行されたクエリでもreferenced_tables…

Terraform経由でBigQueryのデータセットを管理する際に必要なメタデータが入力されていることをConftestで担保する

背景 ConftestによるTerraformのポリシーテスト 例: ConftestでBigQueryのデータセットのlabelにownerが設定されていることをテストする 実際の業務への取り込み方 背景 権限管理を含め、BigQueryのデータセットの管理をTerraformで行なっている人は多いと思…

GitHub Actionsで定期的なレビュー依頼を自動化する

N番煎じですが、やってみる機会があったので一般化してメモしておきます。 背景: コードレビューを素早く行なうことの重要性 レビューのフローを整理する GitHub Actionsでレビュー依頼を自動化する 背景: コードレビューを素早く行なうことの重要性 チーム…

dbt cloudのジョブの実行時間の推移をelementaryで可視化する

dbt

dbt cloudのジョブの実行時間の推移を把握したい DWHやデータマートの作成をdbtでやっていて、それをさらに後段の処理が参照している場合「7時までにdbt buildの処理が終わっている必要がある!」などの何らかの時間的な制約がある場合が多いと思います。dbt …

dbtのsource freshnessの実行結果をelementaryに収集させる

dbt

データレイクの可用性を可視化したい データ品質には様々な項目がありますが、可用性はその中でも重要な項目です。データレイクありきで、dbtを使って生成するDWHやデータマートの可用性の可視化は以下のエントリで試していました。 DWHやデータマートと同様…