GKE上で動くPythonのコードのログをいい感じに出力する

秋のログ整理週間です。Cloud Loggingに出力されるログをもっといい感じにしようと思って試行錯誤してます。 太古からGKE上のloggingをいい感じにするのは悩みの種でした。結論としては、Cloud Loggingのパッケージを使うしかなさそう。 ところで、本番環境…

Renovateでsqlfluffとsqlfluff-templater-dbtは同時にバージョンを上げるようにgroupの設定をする

小ネタです。 依存ライブラリのバージョン管理にRenovateを長いこと使っています。ChangeLogを自分で見に行かなくてよいので、大分楽をさせてもらっています。 別の話題として、SQLのlinter/formatterにsqlfmtとsqlfluffを使っています。基本はsqlfmtだけで…

Argo WorkflowsのログがCloud Loggingでエラー扱いされてしまう問題を回避する

小ネタです。Argo WorkflowsをGKE & Cloud Logging環境で使っている場合、workflow-controllerが出力するログが問答無用でERROR扱いされるという問題がありました。 長らく「そういうもんかー」と諦めてたのですが、JSONによる構造化ログがArgo Workflowsで…

派生先テーブルの参照回数も考慮して安全にテーブルを撤退する

3行まとめ テーブルの撤退時にはテーブルの参照回数を見ることが多いと思いますが、テーブル単独の参照回数を見るだけだと不十分なことが多いです 派生先のテーブルの参照回数まで考慮すると、テーブルが撤退できるか安全に判断することができます リネージ…

dbtのモデルとTableau上で使われているWorkbookの依存関係をexposureで表現して、データ管理を効率的に行なおう

3行まとめ dbtのジョブが失敗した際やテーブルの廃止検討の際に、BI上のどのダッシュボードで利用されている(データリネージ)か知るのは重要です TableauのGraphQLのAPIからWorkbookとBigQuery上のモデルの埋め込みの関係を知ることができます dbtのモデルと…

最近有料で使っているSaaS(生成系AI)を雑にまとめる

特にもの珍しいものがあるわけではなく「現状こういうことやってるっす!」というのを説明するときのポインタが欲しくなったので、雑に書く。 ChatGPT 用途1: 壁打ち相手 用途2: 便利な英語の先生 用途3: シェルスクリプトの生成 GitHub Copilot DeepL 所感 C…

dbtで管理しているデータの可用性をelementaryで分析する

dbt

データの可用性を可視化したい データの可用性の解像度を上げたい: elementary-data elementaryによる細かい可視化 大雑把にデータセット単位で可用性を可視化したい まとめ データの可用性を可視化したい データ品質は正確性や最新性など様々な項目に分解す…