自然言語処理の深層学習において転移学習はうまく行くのか?

機械学習自然言語処理深層学習論文100本ノック

このエントリはDeep Learning Advent Calendar 2016 5日目のエントリです。EMNLP2016に出ていたHow Transferable are Neural Networks in NLP Applications?を読んだので、それについて書きます。 [1603.06111] How Transferable are Neural Networks in NLP…

2011-08-17

#35 A Nonparametric Bayesian Model of Multi-Level Category Learning

AAAI HDP Nonparametric Bayes 論文100本ノック

AAAIのセッション中によく分からなくて質問したやつの論文。Nested CRPとどう違うんやという付近がよく分からなかったのだが、論文を普通に読んだら分かった。Nested CRPは完全に教師なし学習でtreeを作っていくが、この論文(tree-HDPと彼等は呼んでいる)で…

2011-08-14

#33 Towards Large-Scale Collaborative Planning: Answering High-Level Search Queries Using Human Computation

AAAI 論文100本ノック Human Computation

コード書きに疲れたので休憩がてら読んだ。数式が全く出てこないし難しいことはしていない。が、方向性として割と(?)新しい系の論文。情報検索のタスクを考える。(IRのほうは全く追っていないので変なことは言えないが、少なくとも)現状の検索エンジンでは"I…

2011-07-30

#32 Word Features for Latent Dirichlet Allocation

機械学習論文100本ノック NIPS

休憩がてらにざっと読む(なのでいつも以上にちゃんと読んでない)。LDAに色々なfeatureを付っこむという話。"Germany"とか"politics"とかは表層こそ違うものの、政治とかそういうトピックにまとまって欲しい。LDAでもそういう風に持っていくことはできるが、f…

2011-07-20

#30 A class of Submodular Functions for Document Summarization

論文100本ノック Summarization Submodular ACL

id:syou6162が常時ベイジアンだと思うなよ、ということでsubmodularな論文。去年のACLにもsubmodularを使って要約のdecodeをやるという論文が出ていたが、同一著者によるこれの発展研究。しっかりしていていい論文だと思う。スライドもある。この著者らのペ…

2011-07-19

#25, #26, #27, #28, #29 ICML2011読み会を行ないました

論文100本ノック ICML 半教師あり学習

数理情報からは竹之内先生と林さんが発表で聴講の方も何人か参加されてICML2011読み会を行ないました。発表者、質問してくださった方々ありがとうございました。全体で12-13(?)人前後くらいの人数。僕の発表はこの辺です。 #24 Sparse Additive Generative M…

2011-07-18

#24 Sparse Additive Generative Models of Text

機械学習論文100本ノックベイズ統計 LDA

明日のICML読み会で読む論文。id:tsubosakaさんが紹介してくれている資料もあるし、明日はこの資料で手抜きをさせてもらおうかなと考えているのですが(ぇ)、自分の理解のためにメモも書いておきます。考え方はstraightforwardだし、実装も簡単そうだし、結果…

2011-07-12

#23 Infinite Latent Feature Models and the Indian Buffet Process

機械学習論文100本ノックベイズ統計 DMLA NIPS

DMLAにてtakuo-h君が紹介。途中から何をやっているか分かってきたが、できることとしては(Bayesian)sparse PCA + DPという感じ。latent featureというのが(PRMLとかに書いてあるような)Bayesian PCAでいうところのzに対応していて、そこの次元数がDPによって…

2011-07-11

#22 Adaptive Sparseness for Supervised Learning

機械学習論文100本ノックベイズ統計

ICML2011にSparse Additive Generative Models of Textという論文が出ていて、あちこちで筋がよさそうな感じじゃね?と紹介されている(こことかこことか)。Motivation肝となるアイデアはsparsenessで、LDAのような生成モデルだと単語毎にどの多項分布を選んで…

2011-07-07

#21 Grammatical Error Correction with Alternating Structure Optimization

論文100本ノック ACL 言語教育転移学習

言語教育勉強会にてtoshikazu-tが紹介。文法的な誤り(ここでは冠詞と前置詞の誤りに限定)を直すのに、非学習者(つまり母語話者)の書いたテキストを使って誤り訂正をやるという方法がよく取られていたが、最近では学習者の書いたテキストも誤り訂正に寄与する…

2011-04-15

#10 Sharing clusters among related groups: Hierarchical Dirichlet processes

論文100本ノック HDP NIPS

Hierarchical Dirichlet processes(HDP)の元論文。Group化されたようなデータに対してDPをそのまま使うとグループ間での特徴を共有できないので、どうにかしたい(ノンパラのいいところはそのままにしつつ)。テキストで考えると分かりやすいので、今後はグル…

2011-03-19

#9 Multi-document summarization via budgeted maximization of submodular functions

論文100本ノック Summarization ACL Submodular

NIPSが機械学習の最前線だとするなら、その中でもhotなsubmodularは機械学習の中でもhotなトピックなはず。NLPは離散最適化とかなり密接に関係している分野なので、submodularが進展すればNLPもちょっとづつ進展、ということで今回はsubmodularを使った要約…

2011-02-16

#6 A hybrid hierarchical model for multi-document summarization

論文100本ノック Summarization ACL CRP

去年のACLの自動要約に関する論文。最終的な要約を出力するまでを2つのstepに分けて考えている。 nCRPをsentence-levelで考えて、文の抽象度合い、具体化度合いのようなものを得る要約文にきやすいような文はtreeの上のほうにあるだろう、という仮定から tr…

2011-02-16

#5 Hierarchical topic models and the nested Chinese restaurant process

論文100本ノック機械学習 HDP CRP NIPS

今さら感あるかもしれないけど読む。DPはデータの複雑度に応じてクラスタ数を決めるようなノンパラなモデルだが、普通の(flatな)クラスタの構造しか学習できない。それに対し、この論文で説明されるNest Chinise Restaurant Process(nCRP)とかHierarchical L…

2010-12-07

論文100本ノックの感想&独断と偏見に満ち溢れた今年読んだ中で面白かった論文紹介

論文100本ノック日記機械学習自然言語処理

100本いってないじゃん!! いつまで高見の見物してるんですか??? 目を通してるConference その他 LDA関係 LDA自体について LDAをベースにした応用モデル形態素解析、分かち書きノンパラベイズその他クラスタリング最適化教師なし学習今年の1月1日から…

2010-11-29

#73 Correlated topic models

機械学習論文100本ノックベイズ統計 LDA NIPS

David M. Blei and John Lafferty, In Lawrence K. Saul, Yair Weiss, and L´eon Bottou, editors, Advances in Neural Information Processing Systems 17, Cambridge, MA, 2005. MIT Press.今日のDMLAにて紹介。LDAのトピック間に相関を入れたようなモデル…

2010-11-15

#70 A Mixture Model with Sharing for Lexical Semantics

論文100本ノック EMNLP

Joseph Reisinger and Raymond Mooney. 2010, In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP '10). Association for Computational Linguistics, Morristown, NJ, USA, 1173-1182.意味談話勉強会にて…

2010-10-26

#69 Crouching Dirichlet, Hidden Markov Model: Unsupervised POS Tagging with Context Local Tag Generation

機械学習論文100本ノック LDA HMM EMNLP

Taesun Moon, Katrin Erk, Jason Baldridge, Proceedings of EMNLP-2010.言語によらず単語には機能語と内容語のようなものが存在するが、教師なしpos taggingでよく使われるHMMではこのような機能語、内容語の違いを捉えられない。このモデル(CDHMMとHMM+)で…

2010-10-26

#68 Negative Training Data can be Harmful to Text Classification

論文100本ノック EMNLP

Xiaoli Li, Bing Liu and See-Kiong Ng, in Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP-10). Oct. 9-11, 2010, MIT, Massachusetts, USA.いわゆるcovariate shift的な問題を考えている論文。covariate shiftと…

2010-10-26

#67 Joint Training and Decoding Using Virtual Nodes for Cascaded Segmentation and Tagging Tasks

論文100本ノック EMNLP CRF 機械学習

Xian Qian, Qi Zhang, Yaqian Zhou, Xuanjing Huang, Lide Wu, in Proc. of EMNLP 2010, Massachusetts, USA.Joint Learningでword segmentationとNERを一緒にやる話。既存手法にDynamic Conditional Random Fields(DCRFs)というものがあるが、Figure 1のよ…

2010-10-22

#66 Graph-based learning for statistical machine translation

論文100本ノック SMT

Alexandrescu, A. and Kirchhoff, K. 2009, In Proceedings of Human Language Technologies: the 2009 Annual Conference of the North American Chapter of the Association For Computational Linguistics (Boulder, Colorado, May 31 - June 05, 2009). …

2010-06-20

#27 OTL: A Framework of Online Transfer Learning

ICML 論文100本ノック

Peilin Zhao and Steven C.H. Hoi, The 27th International Conference on Machine Learning (ICML 2010), Haifa, Israel, 21-24 June, 2010.今熱い(?)転移学習とオンライン学習を組み合せてやってみましょうというお話。homogeneousな場合とheterogeneousな…

2010-06-09

#23 Map-Reduce for Machine Learning on Muiticore

機械学習論文100本ノック NLP.app

Olukotun, NIPS-2006.id:mamorukさんによる紹介。Multicore上でのMap-Reduceを機械学習でやる話。「SVMを並列でやれるようにしたよ(pSVMとかcascaded SVMとか)」とかそういうものではなく、Statistical Query modelという範疇にあるモデルのクラスでsummatio…

2010-05-10

#20 Large Language Models in Machine Translation

EMNLP NLP.app 論文100本ノック

Thorsten Brants, Ashok C. Popat, Peng Xu, Franz J. Och, Jeffrey Dean, EMNLP-2007内容は結構シンプル。目的意識としては How might one build a language model that allows scaling to very large amounts of training data?(どーやってでかいデータで…

2010-02-23

#14 Variational methods for the dirichlet process

論文100本ノック ICML

D. M. Blei and M. I. Jordan. In International Conference on Machine Learning, 2004. 2月は論文100本ノックが止まってたような感じですが、別に読んでなかったんじゃなくってwikipedia:en:Dirichlet_process(DP)についての論文読んでたけど難しくて分か…

2010-01-23

#13 A Simple Probabilistic Approach to Learning from Positive and Unlabeled Examples

論文100本ノック

D. Zhang and W. S. Lee. In Proceedings of the 5th Annual UK Workshop on Computational Intel ligence (UKCI), pages 83–87, Sept. 2005.久しぶりに正例とラベルなしデータから分類器を作る系の論文(半教師ありのゼミの関係でこっちをあんまり読めてなか…

2010-01-20

#12 Manifold regularization: A geometric framework for learning from examples (Technical Report TR-2004-06)

論文100本ノック

Belkin, M., Niyogi, P., & Sindhwani, V. (2004b). University of Chicago. さあ、準備は整った。いざゆかん再生核の世界へ(謎。概要正則化を使った新しい半教師あり学習のフレームワークのようなものをproposeする。これはSVMや正則化付き二乗和誤差最小…

2010-01-19

#11 On transductive support vector machines

論文100本ノック

L. Wang, X. Shen, and W. Pan. In J. Verducci, X. Shen, and J. Lafferty, editors, Prediction and Discovery. American Mathematical Society, 2007. この論文のmain contributionは2点。一つ目は、いくつかの仮定を置くとTSMVsはいくつかの仮定の元で通…

2010-01-19

#10 Transductive inference for text classification using support vector machines

論文100本ノック ICML

Joachims, T. (1999). Proc. 16th International Conf. on Machine Learning (pp. 200– 209). Morgan Kaufmann, San Francisco, CA.10本目です。TSVMsに関する論文。うーん、内容はあんまり面白くなかったような気がする。4章の"What Makes TSVMs Especially…

2010-01-15

#9 The concave-convex procedure

機械学習論文100本ノック

Yuille, A.L., Rangara jan, A. Neural Computation 15(4) (2003) 915–936ちょっと間が空いてしまったけど、継続しますよ。今日の話題は最適化に関するところ。最適化を勉強したいわけじゃないんだけど、[1]を読むためにはこれを避けては通れないので読んで…