NLP2017の論文を読みました

NLP2017の論文を読んだので、面白かった論文を中心に読んだメモを残しておきます。もう一月ほど前になるので、大分昔な感じがしますが…。

参考リンク集

D4-1 ニュース制作に役立つtweetの自動抽出手法

  • ○宮﨑太郎 (NHK), 鳥海心 (都市大), 武井友香, 山田一郎, 後藤淳 (NHK)
  • ニュース取材に役立つ情報をソーシャルメディアから抽出するプロジェクトがNHKにある
  • SNSから検索するためのいい感じのクエリを網羅的に用意するのは大変
  • SNSでは口語体や略語もあるので、形態素解析をせずに文字単位のRNNを作る
    • bi-directionalなRNNでベクトル表現を作ってNNでニュース取材に役立つかを判定する
    • RNNではないベースラインでは実験されていない
  • attentionとマルチタスク学習を取り入れるとさらに精度が向上した
    • マルチタスクは「ニュースが役に立つか」「言語モデル(次の文字を予測)」を2つで解く
    • 若干上がる
  • 最終的性能はF値で6割くらいでなかなか難しい

P8-7 STAIR Captions: 大規模日本語画像キャプションデータセット

  • 吉川友也 (千葉工大), ○重藤優太郎 (NAIST), 竹内彰一 (千葉工大)
  • 最近画像と言語の融合が活発、特にキャプション生成
    • 視覚障害者支援や画像検索に役に立つ
  • 画像キャプションを日本語で生成するためのデータセット
  • 構築したデータセットでNNでのキャプション生成ができることも確かめた
  • http://captions.stair.center/
    • クラウドソーシングでアノテーション
  • YJ! Captionsも類似のデータセットだが、画像数やキャプション数はこちらのほうが多い
  • MS-COCOを翻訳したものを学習データに使うよりは性能がよい
  • YJ! Captionsで学習させたものとの性能比較はどんな感じだろうか
    • よくよく考えると直接的な比較はできなかった

P7-4 抽出型文書要約における分散表現の学習―文書と要約の距離最小化―

  • ○田口雄哉, 重藤優太郎, 新保仁, 松本裕治 (NAIST)
  • 文書と要約の類似度をよりよく見れるように抽出型文書要約専用の分散表現を学習しましょう、という話
    • 教師あり学習といえば教師あり学習、直接的ではないにせよ
  • 0から学習させるわけではなく、word2vecの結果から離れないように正則化を入れる
  • 凸関数になるので、最適解はclosed-formで得られる
  • ROUGEでもまぁまぁよくなってる
  • 簡単にできるのでいい感じに見えた

B4-5 ニューラルネットワークによる日本語述語項構造解析の素性の汎化

  • ○松林優一郎, 乾健太郎 (東北大)
  • いい論文でした
  • 述語項構造は、文章内の述語とその項間の関係を規定する構造
  • 従来用いられてきた素性(統語関係パス、単語共起)を分散表現で汎化する
    • 組み合わせ素性だとsparseになるので分散表現でなましたい
    • 述語項毎に個別のルールを覚えることが重要である、ということも昔から知られており、汎化すれば性能が上がるかは自明ではない
  • 分散表現で汎化したものは二値素性と同等の精度で、二値素性も組合せると従来のものから性能が向上した
    • お互い捉えているものが異なる
    • state of the artの性能
  • 図1が大体表している
    • 統語関係パスをGRUを通して埋め込む
    • 述語・項候補の単語を埋め込む(concatする)
    • その他の二値素性
    • ガヲニ無のスコアをsoftmaxで吐く
    • 従来は5次程度の組み合わせ素性を使っていたため、多段にする

P10-5 疑似データの事前学習に基づくEncoder-decoder型日本語崩れ表記正規化

  • ○斉藤いつみ, 鈴木潤, 貞光九月, 西田京介, 齋藤邦子, 松尾義博 (NTT)
  • SNS等のくずれた日本語をどうにかしたい研究の続編
    • 崩れた分の分かち書きではなく、正規化をするタスクをやる
  • attention付きのencoder-decoder
  • 文字列正規化の正解データは多くないため、いくつかの変換パターンで疑似データを作る(表1)
    • twitterデータに対して変換をして、約11万分の疑似正解データを作った
  • Mosesでは疑似データも学習に加えるとノイズに負けて精度が落ちる
  • 提案法では疑似データも学習に加えるとノイズに負けず精度が上がる
    • とはいっても、表3によるとMosesと同じくらいの性能
    • 疑似データを増やしていくとMosesも越えられそう、という感じかな?

C2-2 係り受け構造との同時予測によるA* CCG解析

  • ○♠吉川将司, 能地宏, 松本裕治 (NAIST)
  • 優秀賞を受賞していた
  • CCGによる構文解析で曖昧性があった場合に英語ではヒューリステックを使うことである程度解決できた問題が日本語ではヒューリステックな方法では簡単には解決できない
  • 係り受け構造と同時予測することにより曖昧性を解消し、従来法と比べて高い解析精度を達成している
  • Nojiらの手法では正解の品詞情報を使っているが、提案法では品詞情報を使わず高い性能を出している

A2-1 医療テキスト解析のための事実性判定と融合した病名表現認識器

  • ○矢野憲, 若宮翔子, 荒牧英治 (NAIST)
  • 日本語の医療用NLPツールを提案する。以下の2つからなる。
    • 事象認識: 病名、疾患名を同定する
    • 陽性判定: 陽性か陰性か判定する
  • 形態素だと難しいので、文字単位で処理を行う
    • 形態素単位の実験と比較したい
    • 素性には単語ベースのものも入っている
  • 2つのタスクは関連しているので、融合(同時に解く)する
  • NTCIRの共有タスクを解く
  • 方法は固有表現抽出と同じく系列ラベリングっぽい方法で解く
  • 単語ベースのやつよりかはマージンを持ってよさそうな感じに見える
  • 方法は単純だが、医療系テキストの特徴を捉えていてよさそう

深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ)

深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ)