自然言語処理の深層学習において転移学習はうまく行くのか?

このエントリはDeep Learning Advent Calendar 2016 5日目のエントリです。EMNLP2016に出ていたHow Transferable are Neural Networks in NLP Applications?を読んだので、それについて書きます。

モチベーション

画像方面では、あるタスク(source side)で学習させた深層学習の結果を、別データセット(target side)でソフトマックス層だけ再学習させる転移学習(Transfer Learning)がうまくいっていると報告されています。

あるタスクでうまくいった深層学習の重みやネットワーク構造を他のタスクに適用させることができれば

  • 再学習の手間が減る
  • source sideのおかげで、target sideで学習させるデータ量も少なめでもよい精度を出る(ことが期待できる)
  • 深層学習で問題になりやすい過学習の問題を回避しやすくなる

などのメリットがありそうです。深層学習が登場する以前から、自然言語処理の分野でも転移学習の研究はされていましたが(EasyAdapt、instance weighting、structural correspondence learningなどが有名。余談だが、特にEasyAdaptはむかつくほど簡単なのにうまく行く)、深層学習の場合では、うまくいったと報告している論文もあれば、あまり精度は向上しなかったと報告している論文もあります。

この論文は自然言語処理での深層学習の有効性について、システマチックに調査することを目的としています。これを調査するために複数タスクにおいて埋め込み層、中間層、出力層をそれぞれ転移させる/させないの組み合わせで実験した結果を報告しています。結果としては、画像ほどうまく行かないといった感じの結果になっているようでした。世の中甘くはなかった...。

実験設定

データセット

データセットは全部で6つ実験していますが、大きく分けるとSentence classificationのタスクとSentence-pair classificationのタスクに分かれます。それぞれのタスクにおいて、あまり難しいネットワーク構造は出てきません。

Sentence classificationのタスク

3つのデータセットからなります。

  • 文がpositiveかnegativeかを分類させるタスク(IMDB、MR)
  • 文が場所、時間、数など(6種類)のどれについて聞いているかを分類させるタスク(QC)

の2つです。IMDB => MRで転移学習させる際は意味的に似たタスクを解かせていることになりますが、IMDB => QCだと意味的に大分違うタスクを解かせていることになります。

解かせる方法は基本的なLSTMで、最後にsoftmaxでどれかのクラスを吐く構造です。論文よりネットワーク構造の図を引用します。

f:id:syou6162:20161204234925p:plain

Sentence-pair classificationのタスク

3つのデータセットからなります。

  • 文のペアのentailmentを認識させるタスク(SNIL、SICK)
  • 2つの文が同じ意味を持つかどうかを当てるタスク(MSRP)

解かせる方法はCNNベースの方法で、そんなに凝った方法ではありません。ネットワーク構造の図(論文より引用)を載せておきます。

f:id:syou6162:20161204234945p:plain

転移学習の方法

これも大きくわけで2つ用意しています。まず1つ目は転移学習の一般的な方法でsource sideで学習した結果をtarget sideで使うという方法(INIT)。今回の実験の場合はsource sideで学習したものをtarget sideの初期値として利用するというものです、それだけ。2つ目は転移学習というよりはマルチタスク学習として解く方法(MULT)。目的関数をそれぞれのタスクの線形和でつないだものを一度に学習させます。

論文ではMULTとINITを組み合わせた方法でも実験されていますが、それほどうまく行っていないので省略します。

結果

論文では色々結果が書いてありますが、全部書いていると長くて疲れるので要点だけまとめます。あまりいい感じの実験結果ではないですが、知見が共有されたという感じの論文かな...。

  • 自然言語処理の深層学習で転移学習がうまく行くかどうかはタスクが意味的にどれくらい似ているかにかなり依存する
    • 似ていないタスクだとかえって下がることもある
  • 出力層はほとんど転移できないものだと思っておいてよい。一方、単語の埋め込み層は意味的に異なるタスクであってもそこそこ転移がうまくいきやすい
  • MULTとINITの組み合わせはそんなによくならなかった

参考

深層学習 Deep Learning (監修:人工知能学会)

深層学習 Deep Learning (監修:人工知能学会)

  • 作者: 麻生英樹,安田宗樹,前田新一,岡野原大輔,岡谷貴之,久保陽太郎,ボレガラダヌシカ,人工知能学会,神嶌敏弘
  • 出版社/メーカー: 近代科学社
  • 発売日: 2015/11/05
  • メディア: 単行本
  • この商品を含むブログ (1件) を見る