NLP(言語処理学会)2018で面白かった論文メモ

あれこれ雑にメモっていて、きちんとしてから外に出そうと思っていましたが、下書きのままお蔵入りしそうだった。出せるところで出す...!すでに開催から一ヶ月も経ってしまった。

A1-1: ニューラルヘッドライン生成における誤生成問題の改善
B2-4: ニューラルネットを用いた多方言の翻訳と類型分析
D4-3: サンプリング戦略に基づく単語ベクトルの意味成分とスタイル成分の分離

A1-1: ニューラルヘッドライン生成における誤生成問題の改善

○清野舜 (東北大), 高瀬翔, 鈴木潤 (NTT), 岡崎直観 (東工大), 乾健太郎 (東北大/理研AIP), 永田昌明 (NTT)
論文PDF: http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/A1-1.pdf
ニューラルヘッドライン生成はAttention付きのEncoder-Decoderモデルが使われることが多いが、問題点もある
- 繰り返し同じ単語を生成する、無関係な単語を生成してしまう、固有表現など重要な単語が欠損するなど
それぞれ個別の問題に対応するような既存研究はあるが、本研究ではこれらを統一的に扱える枠組みを提案
出力側の単語に対応する入力側の単語を予測する
- 正解のアライメント(入力単語と出力単語の対応)は必要ない
全体最適化は文単位でのロスを最適化
- 通常は単語単位でのクロスエントロピーを最適化していく
- 文単位のロス: 入力系列と出力系列のMSEの和
はてなのトピック機能でもヘッドライン生成に近いことを行なっているので、興味深く発表を聞かせてもらいました
- 参考: はてなブックマークのトピックページの裏側 - Hatena Developer Blog

B2-4: ニューラルネットを用いた多方言の翻訳と類型分析

○阿部香央莉, 松林優一郎 (東北大), 岡崎直観 (東工大), 乾健太郎 (東北大/理研AIP)
論文PDF: http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/B2-4.pdf
対話アプリケーションの盛り上がりとともに、方言で入力されるケースも増えてきているが、方言で入力された場合には解析精度がどうしても落ちてしまう
方言から共通語への翻訳ができればよいが、いくつか問題点がある
- 方言から共通語への十分な対訳コーパスを用意するコストが高い
- 小規模なコーパスではSMTのほうが精度がよいと言われているが、比較検証が行なわれていない
方言毎にモデルを作るとデータ数が足りないため、複数方言のコーパスをまとめて学習する
- 多言語翻訳の話題は他の発表でも見受けられました
- 例: 原言語側の欠落を考慮したMulti-Source NMT
国語研が発行している全国の方言の対話の書き起しデータベースを使用
- 全国方言談話データベース「日本のふるさとことば集成」
翻訳している地域を区別するために、先頭のトークンに地域トークンを付加する
- 地域トークンに対応する地域ベクトルができる
方言から共通語への翻訳の性能向上だけでなく、地域ベクトルの可視化(図4)が方言研究としても面白かったです
- 都市部から同心円状に広がっている?

D4-3: サンプリング戦略に基づく単語ベクトルの意味成分とスタイル成分の分離

○赤間怜奈 (東北大), 横井祥 (東北大/理研AIP), 渡邉研斗 (東北大), 小林颯介 (PFN), 田然 (東北大), 乾健太郎 (東北大/理研AIP)
論文PDF: http://anlp.jp/proceedings/annual_meeting/2018/pdf_dir/D4-3.pdf
対話などの文生成タスクでは、何を(意味内容)どう表現するか(スタイル)が重要である
スタイルは多様な特徴があり、教師あり学習では網羅することが難しい
分布仮説と発話内はスタイルが一貫しているという仮説を一つのモデルで表現することで、単語埋め込みベクトルを意味成分とスタイル成分に明示的に分けて学習する
意味とスタイルで近傍の定義を距離を変える
- ウィンドウ幅が一定の距離以内では、意味ベクトルとスタイルベクトルを更新
- 一定距離以上ではスタイルベクトルを更新
仮定はとてもシンプルですが、教師なしでうまく意味成分とスタイル成分を分けられているように見えました
質疑では「意味ベクトルとスタイルベクトルの相互情報量が0になるような制約を目的関数に入れるとよいのでは?」という指摘も面白いなと感じました