#32 Word Features for Latent Dirichlet Allocation

休憩がてらにざっと読む(なのでいつも以上にちゃんと読んでない)。

LDAに色々なfeatureを付っこむという話。"Germany"とか"politics"とかは表層こそ違うものの、政治とかそういうトピックにまとまって欲しい。LDAでもそういう風に持っていくことはできるが、featureとしてそういうのがまとまってくれるように工夫したい。また多言語をつっこんだときでも"democracy"と"democracia"はLexical Similarityのようなものを使えば似たトピックにいるというのが分かりそうなので使いたい。

どうやってやるか。単語の多項分布に対応する側のハイパーパラメータをいじる。βがが相関を持つように頑張る。似たような話にトピック間に相関を持たせる話があるが、これは単語毎に持たせるようなのでちょっと違う(この時もpriorをいじってVBに持っていくが、共役性が崩れるのでそこは勾配登って頑張るという話だった)。

βはロジステック分布を使う。パラメータには語の類似度(ここがfeatureになってくる)などを使う。inferenceはLDAに似たところはcollapsed gibbs、新しく付け加わった付近は(共役性とかないし、仕方ないので)勾配法とかで登っていく。yとかは語彙数の2乗の行列だと思うんですけど、計算回るんでしょうか...と思ったらyは語彙数×トピック数でした(語彙数×語彙数のところ付近はφで表わされているけど、ここはfeatureで固定)。