読者です 読者をやめる 読者になる 読者になる

#5 Hierarchical topic models and the nested Chinese restaurant process

論文100本ノック 機械学習 HDP CRP NIPS

今さら感あるかもしれないけど読む。DPはデータの複雑度に応じてクラスタ数を決めるようなノンパラなモデルだが、普通の(flatな)クラスタの構造しか学習できない。それに対し、この論文で説明されるNest Chinise Restaurant Process(nCRP)とかHierarchical Latent Dirichlet Allocation(hLDA)はflatではなく階層的な関係を学習できる。Figure 5の単語の階層概念みたいなものがどういうことができるかぱっと見で分かりやすい。階層型のクラスタリングは色々あるが、treeのbranchの数がいくつがよさそうとかtreeの深さはいくつがよさそうとかそういったものもデータの複雑さに応じて決められるのが特徴的である(NIPS 2003では深さはLでfixedされているが、2010とかでは深さも固定しないでできるモデルで書かれている)。

CRPはもう説明しない。nCRPの生成過程を自分用メモとして書いていく。Chinise Restaurantのお客さんはtreeの1層(root)からL層まで順番にめぐって行く。document毎にL次元のtopic proportionの分布\theta_dをDirichletから引いてくる。\theta_dをパラメータとする多項分布からtreeのどこレベル(階層の深さ)から取ってくるかを表わす変数zを引いてくる。レベルを決めたら、無限個のブランチに対応する単語の多項分布からwを取ってくるという流れ。

Inference。基本はGibbs Sampling。zのサンプリングはこの論文ではL次元から取ってくるだけなので、LDAと同じ感じでおk。隠れ変数としてはtreeをどう辿っていくかというpath cがある。こやつは次元がfixedじゃないので、CRP likeな感じでやっていく。式はまだ細かく追えていないが、ikelihoodに対応するp(w_m | c, w_{-m}, z)は論文に書いてある感じで取ってくればよい(たぶんLDAっぽい感じでやれば導出できる)。p(c_m | c_{-m})はどうやればいいのかまだ調査中。

応用先。

などなど色々使われている。色々料理の仕方が考えられて非常に面白いモデルだと思う。

@misc{citeulike:1772388,
    abstract = {{We address the problem of learning topic hierarchies from data. The model selection problem in this domain is daunting -- which of the large collection of possible trees to use? We take a Bayesian approach, generating an appropriate prior via a distribution on partitions that we refer to as the nested Chinese restaurant process. This nonparametric prior allows arbitrarily large branching factors and readily accommodates growing data collections. We build a hierarchical topic model by combining...}},
    author = {Blei, D. and Gri, T. and Jordan, M. and Tenenbaum, J.},
    booktitle = {Neural Information Processing Systems(NIPS)},
    citeulike-article-id = {1772388},
    citeulike-linkout-0 = {http://www.cs.princeton.edu/\~{}blei/papers/BleiGriffithsJordanTenenbaum2003.pdf},
    citeulike-linkout-1 = {http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.9.3551},
    keywords = {lda},
    posted-at = {2008-10-28 15:01:05},
    priority = {2},
    title = {{Hierarchical topic models and the nested Chinese restaurant process}},
    url = {http://www.cs.princeton.edu/\~{}blei/papers/BleiGriffithsJordanTenenbaum2003.pdf},
    year = {2003}
}