dbtで管理しているデータの可用性をelementaryで分析する

dbt

データの可用性を可視化したい データの可用性の解像度を上げたい: elementary-data elementaryによる細かい可視化 大雑把にデータセット単位で可用性を可視化したい まとめ データの可用性を可視化したい データ品質は正確性や最新性など様々な項目に分解す…

BigQueryの列レベルのアクセス制御とポリシータグの調査メモ

なぜ列レベルのアクセス制御とポリシータグが必要か Terraformでポリシータグの作成および権限付与 ポリシータグの付与の仕方 dbt経由の場合 bq loadを使う場合 運用上の注意点 まとめ なぜ列レベルのアクセス制御とポリシータグが必要か 「テーブルの全ての…

Argo Workflowsで本番のときはサイドバーの色を変える

小ネタです。 データ基盤のバッチ処理の運用でArgo Workflowsを愛用してます。色々小回りが効くので好きです。様々な処理が乗ってくると、本番環境と開発環境のArgo Workflowsをぱっと見分けが付くようにしたくなってきます(オペレーション実行ミスなどをし…

dbt-osmosisを必要最小限の箇所だけ動かせるように自前でcatalog.jsonを構成する

TL;DR 巨大なプロジェクトでdbt-osmosisを実行しようとすると時間がかかるが、それを短縮するための--catalog-fileというオプションが存在する catalog.jsonはdbt docs generateの成果物であるが、巨大なプロジェクトの場合は実行に非常に時間がかかるかOOM…

dbt-osmosisの運用問題について考える

背景: dbt-osmosisを運用に乗せたい 少し前にdbt-osmosisを紹介するエントリを書いた データリネージを考慮しながら、メタデータの伝播をしてくれる便利なツール しかし、運用に乗せようと思うと、これだけだと足りない点があり、まだ運用に乗せ切れていない…

Cloud Shell経由で手元のデータをBigQueryにアップロードする

小ネタです。割と便利だったので、エントリに書き起しておきます。 背景: エンジニア職種でなくてもでかいデータをBigQueryにアップロードできるようにしたい BigQueryはWebコンソールから手元のcsvなどをアップロードすることができます しかし、これにはフ…

vscode-dbt-power-userでdbtの開発やレビューを効率化する

dbt

背景 vscode-dbt-power-userがよかったところ 定義にさっと行ける / 戻れる(Go to definitionが使える) VSCode内でモデル間のリネージが見れる VSCode内からdbtのモデルをさっと実行できる モデルファイルの単独の実行も簡単 コンパイル済みのSQLファイルを…