EMNLP 2010一日目、二日目の内容

写真ばっかり載せていると遊びに行ったと思われそうなので(w)、発表聞いてたやつのメモ。自分が聞いた発表に限るので、もっと面白い発表もあったんだろうとは思いますが、聞いた&ある程度分かったやつについてのメモ。正確性については全く保証しません。

parsingとかMTのセッションもいっぱいあっていましたが、この辺は日本語でもよく分かっていないのでほとんど聞いてないです。

一日目

  • "Holistic Sentiment Analysis Across Languages: Multilingual Supervised Latent Dirichlet Allocation"、"Jointly Modeling Aspects and Opinions with a MaxEnt-LDA Hybrid"は自分の研究に結構近い内容なのでチェック
    • 生成モデルでゴリゴリやるのが主流っぽい。単純なモデルはすでに色々やられているので、何かとJontで考えるものが多い。Jointで考えた上でそれを使わないと解けない問題とかその利点をしっかり押せるようにしたほうがよいようだ
  • "Inducing Word Senses to Improve Web Search Result Clustering"
    • 以下のようなグラフを生成して、クラスタになったようなところの結果を使ってWeb Searchのqueryの曖昧性解消に役立てましょう、というような話
    • EMNLP012.pdf
  • "Efficient Graph-Based Semi-Supervised Learning of Structured Tagging Models"
    • Googleの人の発表。pos taggingを扱うようなやつはCRF使ったものとかばっかり追っていたので、SSL使ってどうのこうのという話をあまり聞いたことがなかったからこういうのもあるのかーと
      • いや、探せばあるのかもしれないけど、そこまで探せてない...
  • "Crouching Dirichlet, Hidden Markov Model: Unsupervised POS Tagging with Context Local Tag Generation"
  • "Storing the Web in Memory: Space Efficient Language Models with Constant Time Retrieval"
    • bloom filterのようなFalse Positiveを許す代わりにぎゅーっと圧縮しましょうという話だがデータ構造関連の知識がなくて付いて行けず...
  • "Modeling Perspective using Adaptor Grammars"

二日目

Inducing Talkの後、寒かったからか風邪っぽい感じであんまり集中して聞けてない。。。

  • "Invited Talk: Unsupervised feature learning and Deep Learning"
    • 個人的に結構ヒットした内容
    • 音声や画像の分野では入力をいくつかの基底に分解するsparse codingというのがうまくいっている
      • 基底の線形和で入力を表わせるように頑張って基底を学習する
    • こういったsparse codingの考え方をNLPにも持ってこれないか? => sparse&recursiveな構造でうまくいかない
    • NLPでいうところのfeature vectorを低次元でdenseな空間にembeddedすることを考える
      • ユークリッド空間で"Monday"と"Tuesday"みたいなのは近い、というようなイメージ
      • lower dimensionに追としてからmetric learingするようなイメージ(あくまでイメージ)
    • embeddedされた空間の中でkNNとかを考えれば、sementic的に類似している文が取ってこれる?
    • parsingもこういった枠組みで考えるとよいのではないか?
      • 文をembeddedされた空間の中で考えて、近いところは文をたばねていく=>たばねたchunkもembeddedされたvectorで考えて、またたばねていくを再帰的にやっていく
      • よく分からなかったけど、再帰的なニューラルネットを使うとこの付近が実現できる?
    • [httpd://www.stanford.edu/class/archive/cs/cs294a/cs294a.1104/handouts.html:title]
  • "Incorporating Content Structure into Text Analysis Applications"、"Exploiting Conversation Structure in Unsupervised Topic Segmentation for Emails"
  • "Discriminative Instance Weighting for Domain Adaptation in Statistical Machine Translation"
  • "Multi-document Summarization Using Discriminative Learning and A* Search"