ビジネスメタデータを入力するための私的プラクティス

はじめに
ビジネスメタデータをどこから入力するか
ビジネスメタデータをどう入力するか
運用を継続するための実践的な仕組み
- 問い合わせをトリガーにメタデータを拡充するフロー
- 重要度が高いビジネスメタデータの入力を強制する仕組み
データの生産者がビジネスメタデータ生成の責任を持つ
- よくある失敗パターン: みんなで記入型
- 生産者責任の整理: 誰が何に責任を持つか
LLMとビジネスメタデータ
おわりに

はじめに

これまで私は、メタデータを活用したデータ品質の可視化や、データカタログの運用など、メタデータを「使う」側面について発信してきました。しかし最近、副業先などから「メタデータを活用したいけれど、その前提となるメタデータの入力が大変で進まない」という相談を受けることが増えてきました。

確かに、メタデータの入力は地道で大変な作業です。「全てのテーブルとカラムに完璧な説明を書かなければ...」という重圧を感じると、なかなか手が動かなくなってしまいます。

そこで本記事では、私が実際の仕事で実践しているメタデータ入力の方針や、どのような考え方・マインドで取り組んでいるかをまとめてみようと思います。私の体感では、8割程度のデータ分析は、2割程度の重要なメタデータをきちんと管理すれば対応できることが多く(実際、メルカリでも似た分析がされています)、完璧を求めずに効率的に進めるために私が実践しているアプローチを紹介します。

本記事では、メタデータの中でも特にビジネスメタデータ(データの意味や使い方、注意点など、人間が入力する必要がある情報)の管理に焦点を当てます。システムメタデータ(更新日時、データ型、サイズなど自動的に取得できる技術的な情報)とは異なり、ビジネスメタデータは人間の知識と判断が必要となるため、効率的な管理方法が重要になります。

ここでは、無理なく始められる段階的なアプローチと、持続可能なビジネスメタデータ管理の実践方法を紹介します。

ビジネスメタデータをどこから入力するか

ビジネスメタデータ管理において完璧を求める必要はありません。私の経験上、少数の重要なメタデータを適切に管理することで、多くのケースに対応できることが多いです。

まず、どのテーブル・カラムから着手すべきか、以下の観点を考慮して優先順位をつけます:

A: カバレッジ効率を考慮した選定
- 参照回数が多いデータマートを起点に、そのデータソースを逆引き
  - 派生先テーブルの参照回数も考慮して安全にテーブルを撤退するを参考にすると簡単に調べることができます
- 複数のマートで共通して使われているデータソースを優先
- 1つのデータソースへの投資が複数のマートに波及する構造を活用
B: 問い合わせが多い項目から
- 「このカラムの定義は何ですか」「なぜここにNULLが入っているのですか」「この値の単位は?」といった質問を繰り返し受ける項目
- Slackやメールで同じような質問が何度も飛び交っているテーブル・カラム
C: ビジネスへの影響度が高いものから
- 重要なダッシュボードで使われるテーブル
- 意思決定に直結するKPIに関連するカラム
- ミスが大きな問題につながる項目

特にAの観点は重要です。最近のデータウェアハウスは、データソース → DWH層 → データマートという構造で作られることが多く、データソース側にビジネスメタデータを付与すれば、dbt-osmosisなどの自動伝播により下流のデータマートにも恩恵が及ぶため、効率的にカバレッジを向上できます。

Aの観点はデータから客観的に決められるため、活用側への理解が浅い場合などでも始めやすいです。一方、在籍歴が長かったり、活用側への理解が深い場合などは観点Bや観点Cを優先してもよいでしょう。

ビジネスメタデータをどう入力するか

優先順位が決まったら、次は「どう入力するか」です。ビジネスメタデータの入力を3つのレベルに分けて考えることで、作業を大幅に効率化できます。

レベル1: 機械的に埋められるもの(自動化層)

これが最も簡単で、最初に取り組むべき領域です。

対象例:

Google Analytics、広告プラットフォームなどの標準的なカラム
APIドキュメントに記載されている定義
既存のデータソースのドキュメント

実践方法:

# 例: GA4のイベントパラメータ
- name: event_name
  description: "イベント名。page_view, purchase, add_to_cartなど" # APIドキュメントからコピー
- name: event_timestamp
  description: "イベント発生時刻(マイクロ秒単位のUNIXタイムスタンプ)" # 標準仕様

APIドキュメントや仕様書からの転記
スクリプトでの自動取り込み(ソースが明確な場合)
最悪、手動でコピー&ペーストでもOK(まずは埋めることが大事)

レベル2: 変換処理で伝播できるもの(自動伝播層)

レベル1でデータソース側に入力したビジネスメタデータを、自動的に下流に伝播させます。

対象例:

データ変換で意味が変わらないカラム
集計前後で同じ意味を持つメトリクス

実践方法:

dbt-osmosisやdataform-osmosisなどのツールで上流から下流へビジネスメタデータを自動伝播
- 参考: Dataplexとdbt-osmosisを活用した「がんばらない」データカタログとメタデータ管理の運用
- dbtのFusion Engineではカラムレベルのリネージを辿ることができるため、こういった情報の伝播がよりやりやすくなると思われる
ただし、伝播されたビジネスメタデータには必ず出所を記録:

- name: customer_id
  description: |
    顧客を一意に識別するID
    [自動伝播: raw.customers.customer_id より]

このレベルは、前述の優先順位付けでデータソース側を選定した場合に特に効果を発揮します。

レベル3: 人間の判断が必要なもの(手動層)

ここは避けて通れませんが、本当に必要な部分だけに絞り込みます。特に、コードやスキーマの情報だけでは判断できない内容を取り扱うことになります。

対象例:

システム移行の影響
ビジネスルールの変更履歴
データの罠や注意点

記録すべき具体例:

# システム切り替えの影響
- name: user_type
  description: |
    ユーザー種別(0:一般, 1:プレミアム, 2:法人)
    ※2024年4月のシステム移行で「3:トライアル」が廃止され「0:一般」に統合
    過去データには「3」が残存しているため注意

# システム切り替えでデータの入り方が変わった例
- name: customer_email
  description: |
    顧客のメールアドレス
    ※システム切り替えにより、2025/04/11より前はNULLが入っている
    新システムでは必須項目として入力される
  tests:
    - not_null:
        where: "created_at >= '2025-04-11'"  # 新システム以降はNULL不可

# enumの分布の変化
- name: hoge_type
  description: |
    タイプ区分(0～10の値)
    ※コード変更により「3」がdeprecatedになり、新規データでは登場しない
    過去データの「3」は意味的に「10」と同等なので、分析時は「10」として扱うこと

これらの情報は、ソースコード、Notion、Slackなどを追い回して収集する必要があります。ここの入力が一番大変で「担当者は退職済みで詳細を聞けない」「社内の様々なSlackチャンネルを検索する必要がある」「情報の真偽が情報源によって違うことがある」など、様々な困難があります(「考古学」と呼ばれることもあります)。メタデータの記録と合わせて、上記のようなdbtテストを実装することで、データ品質を継続的に監視できます。

実際の運用では、これらの取り組みにより、多くのデータ分析のケースが少数の重要なメタデータでカバーできることが多いです。もちろん組織やデータの性質によって割合は異なりますが、まずは少ない労力で大きな効果を狙うアプローチが有効だと考えています。

運用を継続するための実践的な仕組み

問い合わせをトリガーにメタデータを拡充するフロー

データに関する質問は貴重なメタデータ拡充の機会です。以下のフローで問い合わせをトリガーに、確実にメタデータを充実させていきます:

1: 質問を検知する
- 自分が質問を受けた時
- 他のメンバーがSlackやメールで回答しているのを見た時
- 過去の問い合わせ履歴を棚卸しした時
2: 即座にアクションを起こす
- 自分が回答する場合: 回答と同時にビジネスメタデータを更新
- 他の人が回答している場合: 「回答ありがとうございます」と伝えた上で、その内容をプルリクエストにするよう促す
- 「この知識をメタデータに残しませんか?」という働きかけが重要
3: チーム全体のムーブメントにする
- 質問→回答→メタデータ拡充の流れを可視化
- メタデータ更新のプルリクエストを積極的に称賛
- データ活用者全員がスムーズに分析できる環境づくりを目指す

重要度が高いビジネスメタデータの入力を強制する仕組み

重要なテーブルのビジネスメタデータが入力されているかについては、例えば以下のようなスクリプトをCIでチェックさせることで担保することができます:

# dbtのスキーマテストでビジネスメタデータ入力を必須化
def test_critical_tables_have_descriptions(model):
    if model.config.get('tier') == 'critical':
        assert model.description, f"{model.name}には説明が必要です"
        for column in model.columns:
            assert column.description, f"{column.name}には説明が必要です"

社内におけるデータの重要度のレベルを定義したり、それに沿ってJSON Schemaでビジネスメタデータの入力の必須化をする取り組みの詳細は、以下を参照してください。

データの生産者がビジネスメタデータ生成の責任を持つ

ここまで段階的なアプローチを説明してきましたが、持続可能なビジネスメタデータ管理のためには、データの生産者がビジネスメタデータに責任を持つ文化が不可欠です。これは最初から実現できるなら、それに越したことはありません。

よくある失敗パターン: みんなで記入型

多くの組織で見られる「スプレッドシートにみんなで記入」というアプローチには、以下の問題があります:

更新されない: 誰の責任か曖昧で、気づいたら古い情報だらけに
信頼性の低下: 誰が何を根拠に書いたか分からない

生産者責任の整理: 誰が何に責任を持つか

ビジネスメタデータの責任は、データの生産者によって明確に分かれます:

1: データソース側(プロダクトデータ)
- 責任者: プロダクトサイドでデータを作っている開発者
- 対象: アプリケーションDB、イベントログ、外部API連携データなど
- 実現方法: Data Contractなどの仕組みを使い、プロダクト側の生産者にビジネスメタデータを入力してもらうことを仕組み化
- 参考: 10XにおけるData Contractの導入について: Data Contract事例共有会 - Speaker Deck
  - 特にここは技術的な課題よりも組織的な課題が根本にあることも多いため、無理に短期で解決しにいきすぎないことを推奨
2: データマート側(分析用データ)
- 責任者: アナリティクスエンジニア、データエンジニア
- 対象: データマート、集計テーブル、分析用ビューなど
- 実現方法: dbtなどのツールで、マート作成時にビジネスメタデータも同時に管理

この分離により以下を実現しやすくなります:

正確性: それぞれの領域の専門家が最も正確な情報を提供
即時性: 実装・変更時に即座に更新できる
責任の明確化: 「データを作った人がメタデータも書く」というシンプルなルール

LLMとビジネスメタデータ

LLMの落とし穴

最近では、SQLクエリからカラムの意味をLLMに生成させることが技術的に可能になっています。しかし、ここには大きな落とし穴があります。

例えば、データが5段階のレイヤーを経て変換されている場合を考えてみましょう:

データソース → 抽出層 → 変換層 → 集約層 → マート層

最近の高性能なLLMは、適切なプロンプトを与えればデータリネージを辿り、データソースまでの情報を参照してカラムの意味を推測することも可能でしょう。しかし、必ずしもそこまで丁寧に確認してくれるとは限りません(プロンプトや使用するLLMにも依存します)。どのレイヤーまで遡ってくれるか、どのような変換や集計の意図を読み取ってくれるか、歴史的経緯をどこまで理解してくれるかは保証されていません。結果として、不正確な情報が記載されてしまうリスクがあります。

LLMの適切な使い方

LLMを全く使わないというのは最近では難しいでしょう。以下のような補助的な使い方は有効だと思います:

コードリーディングの補助: 複雑なSQLを理解するための支援
下書きの作成: 人間がレビュー・修正する前提での叩き台
専門用語の確認: ドメイン知識の補完
- 「MRR」「ARR」「CAC」などの略語の意味を確認
- 特定業界の専門的な指標や概念の確認

重要なのは、最終的には自分がコードを読み、理解し、「このメタデータに責任を持てる」と確信できる状態にすることです。

どうしてもLLMを使いたい場合の対策

カバレッジを上げるためにLLMを活用したい場合は、LLMが生成したことが分かるようにしておくのがおすすめです:

- name: monthly_revenue
  description: |
    月次売上高（単位: 円）
    ※このメタデータはLLMが生成したものであり、不正確な可能性があります
    [LLM生成: 2024-12-20, 未検証]

以下のような情報を含めると良いでしょう:

LLMが生成したことを明記する
生成日時を記録する
人間による検証状況を記載する
可能であれば、信頼度レベルを設定する

不正確なメタデータは、ビジネスメンバーからの信頼を損ないます。最初は小さな疑問から始まりますが、不正確な情報が繰り返されると徐々に信頼を失い、最終的にはメタデータ自体を参照してもらえなくなります。一度失った信頼を取り戻すのは困難です。

LLMを活用する際は、以下の点を意識することが重要です:

人間が責任を持てるメタデータとそうでないものを明確に区別する
段階的に検証していく仕組みを作る
チーム内でLLM利用のガイドラインを共有する

技術的に可能だからといって安易に使うのではなく、メタデータの信頼性を最優先に考えながら、LLMとうまく付き合っていくことが重要です。

おわりに

ビジネスメタデータ管理は組織全体のデータ活用力を向上させる活動です。完璧を求め過ぎず、できるところから始めていきましょう。