IBIS2017の聴講ログ - yasuhisa's blog

今年で20周年のIBIS2017に仕事で聴講参加しました。IBISは意外と初参加。とにかく大量の発表があり、全部書いてると膨大になってしまうので、自分のアンテナに引っ掛かった研究についてのみログを残しておきます。問題設定やモチベーションを重点的にメモしており、理論面は嘘を書いている可能性が高いので、気になる人はそれぞれの論文を読むといいと思います。

IBIS2017 | 第20回情報論的学習理論ワークショップ, 2017.11.8〜11, 東京大学本郷キャンパス

Learning from Complementary Labels (NIPS 2017)
Semi-Supervised Classification Based on Classification from Positive and Unlabeled Data (ICML 2017)
音声対話アシスタントに関する最近の研究動向とYahoo! JAPAN研究所での取り組み
ディープラーニングによる画像変換
D1-22: 機械学習モデルの列挙
D1-38: 自己回帰テンソル分解による時空間予測
D1-32: Maximum mean discrepancyに基づく分布マッチングを用いた教師なしドメイン適応
D2-4: Delayed Feedback を考慮した予測モデルの提案
D2-36: 観測が制限されたオンラインスパース線形回帰問題に対する効率的アルゴリズム

Learning from Complementary Labels (NIPS 2017)

国際会議採択論文(論文pdf)
多値分類でラベル数がそれなりに多い(数十〜100程度?)問題設定を考える
「このインスタンスはこのラベル」というのをぴったりアノテーションするのは結構大変
しかし、「このインスタンスはこのラベルではない!」というのを見つけるのは↑より圧倒的に簡単でアノテーションコストが低い
- このラベルの付け方をcomplementary labelと呼ぶ
- 最近のクラウドソーシングでのアノテーションに向いている?
このラベルの付け方でも学習できる枠組みを提案
- unbiased estimatorが得られる
complementary labelに加えて、これまでのラベル(このインスタンスはこのラベル、という付け方)も教師データに混ぜることができる
学習時にcomplementaryを考えるのは以前からもあったけど、学習データ自体をcomplementaryにするという考え方は面白いなと思った
- 新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転

Semi-Supervised Classification Based on Classification from Positive and Unlabeled Data (ICML 2017)

杉山研で正例+ラベルなしデータのみからの学習(PU学習)の研究がたくさん出ていたけど、その中でも一番気にいった
- PU学習の肝: ラベルなしデータは正例の分布と負例の分布の重み付き和からなるとしたところ
- 論文pdf
ラベルなしデータを教師あり学習に活用する半教師あり学習が昔からあるが、分布に対する仮定が成立しないとラベルなしデータを追加すると精度がかえって悪くなってしまう場合がある
- この研究ではそういった分布への仮定を一切置かない
PU学習の考え方を使って目的関数を以下の3つのパートに分解
- PU(positive/unlabeled)
- PN(positive/negative)
- NU(negative/unlabeled)
3つそれぞれ別の分類器を学習するわけではなく、3つのパートを考慮した1つの分類器を作る
- 学習は損失関数の形によって異なる
ラベルなしを混ぜたほうが理論的にも強いことが言える
- エラーバウンドが小さい、分散が小さいなど
正例を集めるのは簡単でも負例の多様性があってカバーしきれないときは結構実務でもあるので、ラベルなしでうまいことやれそうだなーと思いながら聞いていた
- 例: non-spamなエントリでも色んなカテゴリのエントリや色んな言語のエントリがある

音声対話アシスタントに関する最近の研究動向とYahoo! JAPAN研究所での取り組み

企画セッション：自然言語処理への機械学習の応用

#ibis2017 Description: IBIS2017の企画セッションでの発表資料 from Yahoo!デベロッパーネットワーク

音声対話を実環境で運用する際に課題になる研究をいくつか紹介されていた、非常に面白かった
新ドメインの迅速な追加
- 最近は多様なドメインで音声対話が使われるようになってきた
- これに対応するために分野適用(domain adaptation)がよく行なわれる
- 従来法では新しく転移元ドメインが追加されると、学習を全データでやりなおさないといけない
  - 転移元ドメインの数が多い場合に非効率になってしまう
- 提案法は転移元ドメイン毎にモデル(BiLSTM)を学習しておいて、attentionでそれらを束ねて計算する仕組み
- attenstion部分の再学習のみなので、転移元ドメイン数が増えても学習時間の増加を抑えられる
タスクと雑談の切り分け
- タスク型の対話アプリと注記しても、ユーザーはそんなこと構わず雑談をしてくる
- 実環境ではタスク型と雑談型を切り分けるのは難しいので、どちらの発話かを見分ける必要がある
- 特徴量を工夫する
  - 雑談っぽさを捉えるためにreply付きのtweetから言語モデルを作る
  - タスクっぽさを捉えるためにWebの検索ログをタスク要求の発話と見なして、これも言語モデルを作る
  - これらの対数尤度をそれぞれ特徴量に入れる
  - 極端に長い/短い発話に対して特に有効だったそうだ
- 検索の会社ならではの特徴量が聞いていてよさがあった
ユーザー満足度の自動化
- 対話研究は真の正解がないので客観評価が難しい
- ユーザーの行動パターンからユーザーの満足度を推定するモデルを作る
- 特徴量の工夫
  - 発話に対してアクションラベル(Select、Command、Confirmなど)を推定、系列を特徴量として入れる
  - クリックや音声認識の確信度
  - 音声入力からテキスト入力に切り替えた、など

ディープラーニングによる画像変換

企画セッション：画像処理への機械学習の応用
画像補完
- 飯塚里志 — ディープネットワークによる画像補完（SIGGRAPH 2017）
- とにかく魔法みたいだった(小並感)
- 元画像をランダムに欠損させたデータからCNNを作るだけだとぼやけた補完しかできない
- GANを使うことでボヤけにくく
- GAN以外にも画像全体が整合性が取れるように大域識別ネットワーク、局所的な整合性が取れるように局所識別ネットワークも入っている
ラフスケッチの自動線画化
- シモセラエドガー　ラフスケッチの自動線画化
- デモページは見たことがあって、CNNでやってるんだろうくらいに思っていたが、教師データが何と68枚しかない!
- その状況であれだけ動くものをどうやって作るかの話が面白かった
- 素朴な工夫: data augumentation
- ラフスケッチと線画のアライメントが取れているデータはない(あるいはあっても結構書き変えられたりされているらしい)が、ラフスケッチ単独、線画単独のデータはたくさんある
- ラフスケットと線画のアライメントがあるようなデータに対して
  - ラフスケッチを線画化、元から線画になっているデータのどっちが本物であるかを判定するGANを作る
- アライメント取れていないデータに対して
  - 似たようにGANを作っていく

D1-22: 機械学習モデルの列挙

機械学習が高精度の出力を出せるようになってきているが、ユーザーが結果に納得するかは別問題
- 例: この特徴量が効いてないのはおかしい、こんな分類器は何か間違ってるんじゃないか!
ある程度同程度の精度のモデルをk個出力して、その中からユーザーに納得できるようなものを選んでもらう
候補をいかに効率的に列挙するか
特徴量全部入りのものから徐々に減らしていく
使えるモデルは線形モデル(LASSO)とルールベースのモデル

機械学習モデルの列挙 from Satoshi Hara

D1-38: 自己回帰テンソル分解による時空間予測

ICDM2017
ある時、ある場所の人の数を予測したい
これまで観測されていなかった場所を予測するものは外挿問題になる
ARとテンソル分解を交互に推定
ARなのに周期性を捉えられているのがよく分からなかったが、基底が周期性的なものを学習してくれているとARでもいけているっぽかった
- 理解が曖昧

D1-32: Maximum mean discrepancyに基づく分布マッチングを用いた教師なしドメイン適応

セキュリティなどの分野は刻一刻と分布が変化していく
- 教師なしのドメイン適応の必要性
targetのxの分布がsourceのxに近くなるようにAx + xの変換行列Aを学習
- かつ、Aのノルムはなるべく小さくなるように
targetのラベルがないので、トレードオフのハイパーパラメーター設定は難しそうだった
セキュリティの場合、分布が変わるというより新しい特徴量が入ってくることのほうが難しくて問題そうだなと思ったら、ご本人がすでにそういう研究やっていた
- Learning Latest Classifiers without Additional Labeled Data | IJCAI
- ERATO感謝祭での発表資料

D2-4: Delayed Feedback を考慮した予測モデルの提案

クリックしてからコンバージョンするまでに日数(max30日くらい?)がかかる場合も考慮してcpmの予測モデルを作る
p(C=1, D=d | X=x) = p(C=1, X=x) p(D=d | X=x, C=1)として前者をロジステック回帰、後者を指数分布でfittingさせるのが既存研究
- 既存研究の論文紹介
広告主によってはコンバージョンするまでの分布が結構違うと思われるので、指数分布より柔軟なカーネル密度推定(KDE)を使うのが今回の提案手法
KDEは学習データの足し算が出てくるのでメモリ的にも計算時間的にも割と大変だが、広告で使えるのかなという点が気になった
- 指数分布の混合分布くらいでよくないかな?
補足: 共著者様から補足で説明してもらいました。KDEっぽい定式化ではあるけど、学習データを使った密度推定は行なわない & 学習データも全て使うわけではないので、それほど重くないそうです

D2-36: 観測が制限されたオンラインスパース線形回帰問題に対する効率的アルゴリズム

理論的な研究であり紹介されていたregret解析はほとんど理解できなかったが、問題設定として新しいものが出てきているんだなあと思ったので紹介
機械学習の特徴量はM次元あったらM次元全て埋まっているような前提で動くものが多い
実世界への応用を考えると全部埋まっていないことも多々ある
- 病気の予測にいくつかの検査結果の項目を使いたいが、M個全てやってもらうと患者への負担が多いので、k個しか受けたくない
現在の設定だとkはインスタンス毎に変えられず、グローバルに一個持っておく設定
検査の受診コストみたいなものも反映されるようになってくると面白いですね
- 例: 同じくらいの予測精度なんだけど、受診コストは最小
- 例: これくらいの受診コストは払えるからその中で予測精度が一番高くなるような受診項目教えて