言語処理学会年次大会2011本会議3日目

この日にはもう自分の発表も就活の面接も終わっていたので、のびのびと聞けた。朝から晩まで面白い発表目白押しで終わった頃にはぐったりしていた(苦笑)。この日はいくつか質問もできたのでよかった。自分が聞いていた発表で面白いと思ったものはこんな感じ。知り合いバイアスは取り除いたはずなんだががが。

  • L1正則化特徴選択に基づく大規模データ・特徴集合に適した半教師あり学習
    • 半教師ありを使うと素性数が膨大になってしまうのでL1を使ってsparseにしましょうというお話。質問もしたが、教師ありのところと半教師ありの素性のところでL1とL2を使い分けるとどうなるかとかは知りたいところなので今後の実験にも注目したい
    • id:mamorukさんが質問されていた「trainingのときにはfeatureが膨大なのは変わらないのではないか?」というのは確かにその通りだと思うのだが、FOBOSみたいな形でL1かませていくとclippingでましになるんではないかなと思うのだがどうだろうか
      • trainingするときはメモリめっちゃ使える環境で頑張ってやって、sparseになったモデルをみんなに配布する、という設定だとそんなに問題ではないような気もする(みんながみんなモデル作るのを頑張りたいというのなら別だがそうでもないような)
  • 階層的モデルを用いた機械翻訳のためのフレーズアライメント
  • POMDPを用いた聞き役対話システムの対話制御
  • 共通状態と連結学習を用いたHMMによるコールセンタ対話の要約
    • HMMのhidden stateが結局observedなのかどうかがよく分からんかったので後で予稿を読もう
  • 原言語の起源に基づく潜在クラス翻字モデル
    • 個人的に一番ぐっときた発表。「潜在クラスはいくつのときがよいのか」という問があった(自分も聞こうと思っていた)のだが、言語的なバックグラウンドが説明できるような数が一番よかったということですごく腑に落ちた
  • ベイズ学習による木接合文法獲得

ホテルに戻ってからは去年の年次大会のチュートリアルであったオンライン学習の話を聞きに行く。学習手法が擬人化された話(L1は男性、L2は女性)とか、構文解析と結婚は同じだという話が心に残りました(笑)。真面目な話としては機械学習を使ってNLPを研究している人はどうやって生き残っていくかということについてNTTの西川さんと少し話していた。アルゴリズムをゴリゴリやるのも重要だし楽しいのだが、NLP固有の問題をいかにモデルとしてうまく表現していくかというのが「戦略として」重要なのかなと。その辺に関しては自分なりの考えは持っているのだが、そこを突っ走って行くしかないなと再確認できてよかった。