Improving sentence compression by learning to predict gazeを読んだ

NAACL2016 shortのベストペーパー。雑に読んだ。

  • 要約の一タスクである文短縮のタスクに視線(gaze)を予測する補助タスクを組込むとよくなったよ、という内容
  • 一種のmulti-task learning(多段の双方向LSTMでやる)
  • CCG-supertagging(ディフォルトで入れてる)も一緒に解いてる
    • gazeのfeature(2種類ある)を変えたらどうなるかを実験している
  • 結果としては入れるとstate-of-the-artと同じかデータセットによってはよい結果になるらしい
    • 難しいデータセットほどgazeの情報が効くとか

モデル

bi-directionalのLSTMを多段に積んでる(3層)。最終的に解きたい文短縮するかどうか(y)以外にも、補助タスクとして

  • gaze
    • この分野でよく知られている(らしい)first pass durationとregression durationの2種類を使い分けている。両方放り込むとどうなるんだろう
  • ccg-tags
    • 文法的にこの単語は削除して大丈夫かというのを入れたいけど、constituent treeはLSTMに直接入れにくいからccgにしたんだろうかとか雑に予想した

の2種類を各層に組み込んで学習している。補助タスクとして組み込むときはこういうやり方をするのかー。

実験

  • 学習に使っているデータの種類が大分違うから比較が難しいけど、例えばGOOGLEデータだとstate-of-the-artと同じくらい出ている
    • けど、比較の表には載っていない
    • gazeの素性の有効性が言いたいからそれでいいってことなのかな
  • CCGはディフォルトで全てのモデルに入ってるけど、これはCCGを入れないと文短縮のモデルとしては機能しないってことか?
  • 難しいデータセットほどgazeの情報が効いてbaselineとの差が広がるみたい

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)