Rettyにおける推薦文からの見出し抽出の論文を読んだ

OR学会の自然言語処理と数理モデルの特集で、はてなと同じくC向けのサービスを運営しているRettyさんの論文が出ていたので、週末に論文を読みました。方法論としてはシンプルだけど、サービスへの貢献もなかなかありそうだなーと思いながら眺めました。

箇条書きスタイルでまとめておきます。

  • 推薦文からレストランの特徴を表わす見出しを自動で抽出したい
    • 全部で80万レストランあり、見出し文の定期的な更新もやりたいので、人手では難しい
  • 優先度学習を使って見出しを抽出する方法を提案
    • 一種のランキング学習のようなもの。特徴量は素朴な設計
    • 生成するわけではなく抽出型。一種の要約タスクと見ることもできる
    • 未知語処理やdata augumentationなどの工夫で汎化性能が高くなるように工夫
      • 訓練データで登場回数の低い単語は形式的な語(unk)に置き換える
  • 推薦文に対して部分文字列を全列挙、one-versus-oneで順序付けを行なった中から見出しらしいと判定された回数が最も多かったものを見出し文として採用する方法
    • 部分文字列について最短/最長の制約などは特に書いてないようだが、本当に全列挙してたらなかなか大変そう
  • 比較的小規模なデータと論文で書かれているが、人手で付与された正解の見出し文は252,498あって、データ作りに力を入れているなという印象を持った
    • アノテーション用のアプリケーションも作り込んでいそう(?)
    • アルゴリズムはシンプルだけど、最終的にはやはりデータセットがものを言う