読者です 読者をやめる 読者になる 読者になる

#70 A Mixture Model with Sharing for Lexical Semantics

論文100本ノック EMNLP

Joseph Reisinger and Raymond Mooney. 2010, In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP '10). Association for Computational Linguistics, Morristown, NJ, USA, 1173-1182.

意味談話勉強会にて自分が紹介。語の類似度をはかるというのはNLPでは重要なこと(でかつ難しいこと)である。高次元空間において単語がどこにいるかだけを一点で決めてしまうと、bankのような多義語(この論文でいうところのhomonymousな単語)の位置を正確に記述できていないことが分かる。既存の研究("Clustering my Committee"、"multi-prototype representation"など)では、それぞれの意味に対してクラスタを作ってそのセントロイドを考えてあげればそういった問題が解決できるじゃないか、というアプローチが取られていた。こういった手法はbankのような語義がいくつか決まっているような単語に対しては有効だが、lineやrunのように語義数が非常に多い単語(ここではpolysmy)ではそもそもクラスタ数がいくつだといいかetcなどが自明ではない。この論文ではそういたpolysmyな単語に関しても語の類似性がうまくはかれるようなモデルを提案しました、という内容になっている(polysmyとかhomonymousとかがよく分からない人はFSNLPで復習しましょう。自分も忘れていたのでしましたw)。

クラスタ数がいくつかよく分かっていないとくるとノンパラベイズがくると思うが、予想通りディリクレ過程がきている。ただ、それだけだと面白くない(ぇ)のでこの論文ではそれぞれのクラスタとは別個にbackgroundというクラスタ(相当)を作っている。DPとか詳しい人はFigure 1を見れば一発で分かっていただけるかと思う。最初勘違いしていたが、データセット全体に対してモデルを作っているのではなく一つの単語に関してクラスタリングを一回回している(はず)。あとの実験だと353単語とか書いてあったので、大分頑張ってモデルを回したようだ(EMNLPらしい感じ)。

word-relatednessとselectional preferenceの人手で類似度が付けられているようなデータとの一致度を実験では見ていて、他のsingle-protetypeやbackgroundを考えないモデルと比べて、様々なデータセットで比較しても他の手法より人手との相関が高いことが示されている。この論文としてはstate-of-artを目指しているとかそういうノリではないので、それはそれでおいておいくとして面白いかなと思うのはTable 1とTable 4のところ。backgroundを考えないモデルと結果を比較しているが、backgroundを考えないようなモデルではbackground相当になっているような単語が各クラスタに散ってしまっていて結果としてゴミが入っているような印象を受けてしまうが、提案手法のほうではそういうcommon senseのような単語はbackgroundが吸収してくれる仕組みになっていて、各クラスタの結果が非常に分かりやすく出ていて気持ちがよい(ので自分は好きだった)。同じ著者が今年のNAACLでbackgroundなしのモデルを提案して、その続編ということなんだろうけど、なんかこういう流れがある研究ってよいなぁと思った、内容関係ないけど。

こういう風なcommon senseというかそういうものを除去するような論文として、CS研の岩田さんたちの研究

  • Tomoharu Iwata, Takeshi Yamada, and Naonori Ueda, "Modeling social annotation data with content relevance using a topic model", Advances in Neural Information Processing Systems 22: Proceedings of the NIPS 2009 Conference, pp.835-843

があるが(social bookmarkで[これはひどい]とかそういう内容関係なくね?というタグを除去したい)、このモデルでもcontent-relatedかどうかのbinary変数を置いており、ゴミっぽいものを作りたくなければ、LDAとかのパラメータ最適化を頑張る*1とかよりゴミを集めておくようの仕組みを明示的に導入するほうが結果としても分かりやすいのかなぁと思ったのであった。岩田さんたちの論文も導出も結果も美しい感じになっていると思うので、こういうの好きな人は読んでみられると面白いかと。

*1:HannaWallach, David Mimno, and Andrew McCallum. 2009. Rethinking LDA: Why priors matter. In Proceedings of NIPS-09, Vancouver, BC.