論文100本ノックの感想&独断と偏見に満ち溢れた今年読んだ中で面白かった論文紹介

100本いってないじゃん!!
いつまで高見の見物してるんですか???
目を通してるConference
その他
LDA関係
- LDA自体について
- LDAをベースにした応用モデル
形態素解析、分かち書き
ノンパラベイズ
その他

今年の1月1日から始めた論文100本ノックですが、年末ギリギリだと書けるか分からなくなりそうなので、そろそろ振り替えります。3月くらいまでは読んだ論文の一覧を2010/12/31の日記のところに書いてたんですが、研究室localな勉強会で紹介された論文は(OKが出ないと)外で書けないという都合があったので削除しましたが、プライベートはてなグループのほうで続いています。12/7現在で76本だそうです。本数のペースは以下のグラフで(実は)公開されています。

2月から3月がほとんど止まってますが、論文読むというよりディリクレ過程の勉強とか言語処理学会に行ってみたり、id:mamorukさんに会社見学に連れていってもらったりしていたので読んでないという言い訳。あと引越しですね。9月終わりからの読んでない時期は実験やってた時期かな。まあ、そんな感じでムラは結構あります。

100本いってないじゃん!!

74本越えたからいいんです!!1というのは冗談で、まあいってないのは事実なんだけど、今年の最初は論文の読み方もろくに分かってなかったし(今もうまいとは思えないが)、きっかけ作りみたいな意図があったのでそういう意味では成功。あと、(プライベートはてなグループを含めて)Blogにメモったという数が74本でありメモってない論文の数でいったらたぶん300-500くらいはあると思うがよく分からん(普通の研究者の人は年間どれくらいの本数目を通すもんなんだろうか)。

というか(まあ明らかだが)サーベイ目的とかでは調べた本数が重要になってくるのかもしれないが、自分でモデルを作れるようになるという意味では本数とかより最初の論文を超熟読して完全に自分のものにして自分でモデルを作れるようになったりすることのほうが重要だったりするというのが分かったのが今年の成長したところか。サーベイするときとかと要理解するところetcでどういう緩急の付け方をすればいいのかというのも大事なんだなと。速読の本とかあるけど、論文は形式が決まっているのでそういう意味で読みたいところにすぐフォーカスを絞れるというのは素晴しいところ。って、読書とかも緩急だったりいかに自分のものにするかとか考えると本をきちんと読める人には大して難しい話じゃなさそうですね(僕はそういう力がなかったので、やっと気づいた感がある)。

あとはなんだかんだいって数こなせないと話にならないというのも事実で、ある程度は数もこなせる(基礎の)基礎体力が付いたというのもよかったところかな。

いつまで高見の見物してるんですか???

自分の研究もしっかり進めないと，このままでは研究者としてもプールサイダー化してしまう．論文を出さずして，論文について語ってはいけない（あるいは，研究を行わずして，研究について語ってはいけない）．気を引き締めていこう．まずは今週中に体調を万全に戻すことを目標に．
次から次へと積まれていく査読の山 - ny23の日記

年度末には仕事をまとめて発表するので、是非見にきてください＞＜。

あと自分で手を動かすようになると「ああ、ここあんまり書いてないけど実験頑張ったんだろうな...」とかな視点で読めるようになる副産物も付いてくる。

目を通してるConference

関連研究とかで読む、じゃなくってproceedingsをわーっと眺めるようなやつだと

ACL、EMNLP、NAACL
ICML、NIPS

が中心(最近の自分のテーマだとCIKMとかSIGIRも目を通しとかないと危ない感じだが...)。個人的にはEMNLPとかNAACLとかの論文が楽しい論文である確率が高い(非常に個人的趣向に寄るところだが)。テーマは前者のグループで、手法は後者のグループでという感じの分け方なつもりです。

もちろんこの辺の会議でもあんまり面白くない論文もあるけど(また高みの見物か...と言われそう)、外れを引く確率は低いはずで

M1 の人を見ていると最初は「論文(国際会議)にもレベルがある」ということをよく分からないようで、自分の研究に近いからと日本語の論文や、初めて聞くような名前のワークショップの論文を参考にしてしまうようなのだが、いい論文を書くためにはいい論文を読まなければならず、基本的には上に挙げたようなトップレベルの国際会議の採択論文に最初はたくさん目を通すのが近道なのではないかと思う。
自然言語処理のトップカンファレンス - 武蔵野日記

という感じ。

その他

「なるべく早くこういうことが知っていたかった」的な情報を書いてみます。

論文の読み方が分からないうちは(特に)研究室の論文紹介を積極的にやる
- うまく説明できるようになってからやろう、とか思っててもうまくならない。研究室は失敗する場所なんだから成長するためにもしっかりと失敗しておく
- 他人の論文の読み方や分析の視点を盗みにいく(特にスタッフの方の)。論文自体よりこっちのほうが勉強になることもある(多い)
- 人に紹介しようという感じで読むと論文の主張したいポイントとかを意識しながら読むことになるので、なんとなーく全体をダラダラと読むよりはるかによい
  - 逆にいうと、紹介が終わってから「で、結局この論文は何やってるの?」と聞かれる感じだとよい紹介にはなっていないということ
- (松本研だと山のように勉強会がありますが)論文紹介する機会がない...という人は自分で勉強会を作ればおkです。研究室がそういう雰囲気じゃないなら研究室の壁とかぶっこわして大学横断とかでやればよい(tokyonlpとかもあるし、id:norizmさんがやられているグラフ勉強会も他大学の人参加できる形らしいし)
- 論文紹介を通して「自分はこういう研究に興味ある」と勉強会とかBlogで主張しておくと面白い論文があったときに教えてもらえる可能性が高まる
一つの論文でずっとつまづかない
- 実はその論文だけ読んでても分からない、という事態は「よくある」のでreferenceで引かれている論文とかもチェックして背景をつかむ
  - その為には1本紹介するために10本くらい読まないといけない場合もある(バックグラウンドが分かっていれば省けるが、初めての場合省けない。省けないんだからしっかりやる)
- 重要なもので頭に入ってこないものは3ヶ月くらい空けるのもよい。難しくても理解する価値のあるものは一つの論文でも数ヶ月かかってでも根気強く読む
紹介することだけに一生懸命にならない
- その論文を使って自分がどうしていきたいのかとかを主張していくことが重要。お勉強で終わらない

(松本研限定)自分のブログで論文紹介するときは生駒日記で紹介された後にしたほうがよい(「本人のBlogに詳しいが(ry」となるので感想が聞けないw)

以降は具体的に面白かった論文の内容とかを簡潔にまとめていきます(独断と偏見に基づいて)。

LDA関係

自分が最近いじっているモデルがLDAをベースにしていることからどうしてもLDA関係が多くなってしまった。どういうネタかはacceptされたら話します。

LDA自体について

D. M. Blei and A. Y. Ng and M. I. Jordan, Latent Dirichlet Allocation, Journal of Machine Learning Research, 2003.
- LDAの元論文。変分ベイズで解いていてそんなに難しくはないが、最初は次のGibbs Samplingベースのやつを読むほうが気が楽かもしれない
Thomas Griffiths and Mark Steyvers, Finding scientific topics, PNAS, 101(suppl. 1), 2004.
- LDAのGibbs Samplingで推論する方法について。実装面などを考えるとこっちのほうがかなり楽。次の応用モデルのところを見ても分かるが、これを一つ理解すると自分で作れるモデルが結構増える

LDAをベースにした応用モデル

Tomoharu Iwata, Takeshi Yamada, and Naonori Ueda, Modeling social annotation data with content relevance using a topic model, Advances in Neural Information Processing Systems 22: Proceedings of the NIPS 2009 Conference, pp.835-843
- はてブみたいなsocial bookmarkとかだと[これはひどい]というようなコンテンツにあんまり関係ないようなタグが結構付く傾向があるが、そういったものを教師なしでフィルタリングするようなモデル。基本的にLDAのGibbs Samplingの知識があれば普通に読める
Chenghua Lin, Yulan He, Joint sentiment/topic model for sentiment analysis, CIKM 2009.
- トピックとsentimentの2軸で単語をモデル化する論文。トピック×何かというモデルを作る時に役に立つ...かも
T. Griffiths, M. Steyvers, D. Blei, and J. Tenenbaum, Integrating Topics and Syntax, Neural Information Processing Systems 17, 2005.
- HMMだとsyntaxなところ、LDAだとtopicなところがモデリングできるが、実際の言語はその両方を加味したものだろう、ということで両方を統合したモデル(LDA-HMM)を提案
David M. Blei and John Lafferty, In Lawrence K. Saul, Yair Weiss, and L´eon Bottou, editors, Correlated topic models, Advances in Neural Information Processing Systems 17, Cambridge, MA, 2005. MIT Press.
- 通常でのLDAではトピック間の相関を捉えられないが、事前分布を工夫することでトピック間の相関を考えられるようにしたモデル。うまい応用先を考えてあげれば色々使えそう
  - #73 Correlated topic models - yasuhisa's blog

形態素解析、分かち書き

入学当初は分かち書き関係をやろうとしていたので、7月まではこの関係のを読んでいた。分かち書きのみのモデルはもう相当に研究されまくっているので、cascading errorを防ぐとかそっちの話が多くなってきている印象。Samplingベースとか周辺化した素性を使うとかそういったアプローチの研究が多い(気がする)。

工藤拓, 形態素周辺確率を用いた分かち書きの一般化とその応用, 言語処理学会全国大会 NLP-2005, 2005.
- コスト最小化の枠組みを使って単語分割の単位をパラメータによって制御できるようにした話。パラメータによって、文字ngramとコスト最小法の割合のようなものをコントロールすることが可能になる。これを利用することで、単純に文に単語が何回登場したというものではなく確率的な頻度というものを導入でき、文章分類のようなタスクで精度が上がったり、情報検索の分野で役にたつ
永田昌明, 統計的言語モデルとN-best探索を用いた日本語形態素解析法, 情報処理学会論文誌
- 形態素解析のようなタスクでN-Bestを出すときに参考になる論文。前向き探索で一度だけコストを計算し、A*を使ってN-Bestを効率的に計算できる
J. R. Finkel, C. D. Manning, and A. Y. Ng, Solving the problem of cascading errors: approximate Bayesian inference for linguistic annotation pipelines, In Proc. EMNLP 2006.
- NLPではpipelineになっているモデルが多いが、cascading errorが無視できない。典型的な解決方法としてはN-Bestを取る方法があるが、一つのタスクが複数のタスクに依存していると組み合せが多くなってきて大変なことになってしまう。そこで、この論文ではN-Bestではなく、N個サンプリングするアプローチでcascading errorを解決しようとしている。実験こそいまいちだが、自分は結構気にいったアプローチ。Bidirectionalにやるアプローチとかの研究も最近出てきているようだ

ノンパラベイズ

いまだにDPは直感的に分かっているとは言える自信はないが、なんでもDPをやればいいってもんでもなく本当に無限個仮定しても妥当と言えるようなものに対してノンパラベイズでモデル化していくような感じじゃないとNLPとかではあんまり意味ないかなというのが最近の感想(既存のモデルをDP使ってみましたな感じだとインパクト薄いかなとかそういう感じ)。そういう意味では以下の論文はDPをうまく使っているんじゃないかと思って挙げてみた。

Koen Deschacht and Marie-Francine Moens. Using the Latent Words Language Model for Semi-Supervised Semantic Role Labeling, EMNLP 2009.
- LWLM。単語の隠れ状態として単語自体を考えているところが非常に面白いモデル。普通の単語類似度をどうこうするモデルとアプローチが全然違う。以下の論文がLWLMの最初の論文
  - "The Latent Words Language Model". Koen Deschacht and Marie-Francine Moens. In Proceedings of the 18th Annual Belgian-Dutch Conference on Machine Learning (Benelearn 09), 2009.
Joseph Reisinger and Raymond Mooney. 2010, A Mixture Model with Sharing for Lexical Semantics, In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP '10). Association for Computational Linguistics, Morristown, NJ, USA, 1173-1182.
- polysmyな単語に関しても語の類似性がうまくはかれるようなモデルを提案。語の意味として妥当なモデルってどういうのだろうなぁと考えていた時期があったけど、比較的納得するモデル化だったし、出てきている結果も綺麗でいい感じだったので好きな論文
  - #70 A Mixture Model with Sharing for Lexical Semantics - yasuhisa's blog

その他

クラスタリング

Frank Lin and William W. Cohen, Power iteration clustering, In Proc. 27th ICML, 2010.
- 一時期話題になった論文。スペクトルクラスタリングは固有値計算がボトルネックになってしまうが、この手法だとPower iteration methodという方法を使うことによってスペクトルクラスタリングより1000倍くらい早い感じになっている。相当早くなっていたので当時びびった記憶がある

最適化

Yuille, A.L., Rangara jan, A. The concave-convex procedure, Neural Computation 15(4) (2003) 915–936.
- 半教師あり学習では凸関数でないものを最適化しないといけない状況が比較的よく出てくるが、そういったものに対して元の関数を凸関数の差で書き表すことによりアルゴリズムを構成していく
  - #9 The concave-convex procedure - yasuhisa's blog

教師なし学習

B. Snyder and R. Barzilay, limbing the Tower of Babel: Unsupervised Multilingual Learning, ICML 2010.
- 最初タイトルを見たときは本気なのか?と思ってしまったが本気らしい。MITとかの人たちはこの辺のおばけみたいな教師なしモデルをこれからも考えてきそうなのでこっそりと見ていきたい
- 似ているのか似ていないのか分からないが、この方面の人たちはこういう風な意欲的な研究が多いような気がする
  - Colin Bannard, Elena Lieven, Michael Tomasello, Modeling children's early grammatical knowledge, PNAS 2009