#25, #26, #27, #28, #29 ICML2011読み会を行ないました

数理情報からは竹之内先生と林さんが発表で聴講の方も何人か参加されてICML2011読み会を行ないました。発表者、質問してくださった方々ありがとうございました。全体で12-13(?)人前後くらいの人数。僕の発表はこの辺です。

#24 Sparse Additive Generative Models of Text - yasuhisa's blog

全部の感想を書いていると大変なので、自分が興味持った付近を中心に書いていきます。

GoDec: Randomized Low-rank & Sparse Matrix Decomposition in Noisy Case

個人的に一番面白かった。といっても技術的なことはほとんど追いきれなかったのですがw。この論文が、というよりrobust PCAというもの自体を知らなかったので、それが面白いなぁと思ったというのが正確か。

普通のPCAだと元の行列の低ランク近似をやってあげるのだが、最近では「低ランク行列だけで近似するのきつくね?」という感じになっているらしく(ノイズに弱い)、低ランクな行列とスパースな行列に分けて元の行列を近似するということがよくやられるらしい。こうすることで何がうれしいか?ということだが、この論文の実験のところでもあるように動画を

元々動かないような背景
シーン毎で動くような人

という風に分解することができるようになる、ということのようだ。つまり、sparseな行列の付近が異常値っぽく捉えられているというようなイメージ。自分がその後紹介したSparse Additive Generative Models of Textもbackgroundになるようなものとトピック固有なものに分け、トピック固有なものはsparseにするという考え方からなっており、(離散と連続の違いこそあるものの)robust PCAと似たような考え方があるのかなーと勝手におおー思っていました*1。

「ノルムの最小化を繰り返しで最適化する」という流れだとあんまり理解が追い付かなかったり興味がlostしてしまいそうになるので(ぇ)、ベイジアン風にrobust PCAをやっているものはないのかと探してみたところあったのでこっちから読んでみることにしようと思います。行列を2つのパートに分けてうんぬんというのがどういう生成過程を仮定したものと等価になるのかが割と気になる。質疑でハイパーパラメータの調整が難しい、という付近が出ていたけど、階層ベイズとかだとこの付近はもうちょい扱いやすくなったりしないかな。

Large Scale Text Classification using Semi-supervised Multinomial Naive Bayes

半教師ありナイーブベイズとしてはNigamらの論文 *2が有名ですが、ラベルなしを増やしまくっていくと逆に精度が落ちてしまう等の問題がありました。ラベルなしのほうにウエイトを付ける等のヒューリステックをかましたりしているけど、そういうのなしでもっとどうにかしたい。

で、ラベル付きの条件付き尤度とpriorのほうに分けて、前者のほうが分類精度には寄与しているんだからうんぬん...とyuya-y君が頑張って説明していたのだが、どうもEMナイーブベイズと違いがはっきりとは分からない。「うーん、、、」と考えていたのだが、id:nokunoさんの資料を見たら一発で仕掛けが分かった(27ページ目)。

ICML2011読み会 Hashing with Graphs & Large Scale Text Classification using Semi-supervised Multinomial Naive Bayes

View more presentations from nokuno

ベイズの定理を2回かましてラベルなしの項が出てくるようにしてやるわけね、なるほど*3。これでいいのかってくらい簡単だ。こうするとEMナイーブベイズのようにiterativeにする必要もないので早いし、別々にトレーニングできるし(トレーニングというかカウントするだけなんだが)、実験である通り精度も上がるという感じ。

ところで、今年のICMLには"Towards Making Unlabeled Data Never Hurt"という似たような内容の論文があったりするのだが、こっちはどういう内容なのだろうか。TSVMっぽい話のようだが...。

A Three-Way Model for Collective Learning on Multi-Relational Data

林さんも強調されていたが、この論文の新しいところは新しい問題を提起したところで、どういう問題かというと「人」と「政党」のような異なる種類のentityとその間にある"party"と"vicePresidentOf"のような異なる種類のrelationを考え、それのlink predictionやら欠損値予測をするというような問題。こやつをテンソル分解で解く。テンソル分解は林さんのゼミナール発表で聞いたことがあるくらいのことしか知らないが、奥行に時間軸を持ってきていたようなものをrelationに置き換えたような形になっている。普通のテンソル分解とは(1)式のRkを対称な行列で挟んでいるところが違うところらしい。こういう問題設定だとNLPのタスクのどういうものに当てはまるかなと考えていたが、共参照の問題とかはこういう問題に落とせたりするんじゃないかなと思ったけどどうだろう...(特徴の作り方をあれこれ工夫しないといけないんだろうが)。

On the Robustness of Kernel Density M-Estimators

カーネル密度推定と言われると卒論を思い出すので目をそむけたくなる。外れ値があるような場合にサンプル毎のreweightingをして外れ値相当のものの影響を緩和しましょう、という話。話としてはありそうな気がするが、どういう条件のときに収束性を言えるか付近が新しい仕事らしい。

Predicting Legislative Roll Calls from Text

保安が通るか通らないか、のようなものをdiscriminationとかdifficultyのようなものを潜在変数で仮定しながらトピックモデルでやるというお話。どちらかというとICMLというよりACLやEMNLPっぽい感じの内容な気がする。結局のところpredictionをやりたいのか結果を使ったanalysisをやりたいのかが自分としてはよく分からなかった。モデルとしてはsupervised LDAの予測する変数がlatentになっていたりするので、その付近が今までにはないところとmotonobu-k君は言っていたがうーむ。

*1:休憩時間に話していたところ、自分の読んでいた論文の参考文献にrobust PCAのやつがあったようです汗

*2:論文100本ノックの最初に選んだやつだw2年前くらいの自分のメモを見返してもロクなことにならない

*3:というかこの式が論文中に書いてないのはなぜだ。おかげで読みにくい気がする