論文100本ノック

自然言語処理の深層学習において転移学習はうまく行くのか?

このエントリはDeep Learning Advent Calendar 2016 5日目のエントリです。EMNLP2016に出ていたHow Transferable are Neural Networks in NLP Applications?を読んだので、それについて書きます。 [1603.06111] How Transferable are Neural Networks in NLP…

#35 A Nonparametric Bayesian Model of Multi-Level Category Learning

AAAIのセッション中によく分からなくて質問したやつの論文。Nested CRPとどう違うんやという付近がよく分からなかったのだが、論文を普通に読んだら分かった。Nested CRPは完全に教師なし学習でtreeを作っていくが、この論文(tree-HDPと彼等は呼んでいる)で…

#33 Towards Large-Scale Collaborative Planning: Answering High-Level Search Queries Using Human Computation

コード書きに疲れたので休憩がてら読んだ。数式が全く出てこないし難しいことはしていない。が、方向性として割と(?)新しい系の論文。情報検索のタスクを考える。(IRのほうは全く追っていないので変なことは言えないが、少なくとも)現状の検索エンジンでは"I…

#32 Word Features for Latent Dirichlet Allocation

休憩がてらにざっと読む(なのでいつも以上にちゃんと読んでない)。LDAに色々なfeatureを付っこむという話。"Germany"とか"politics"とかは表層こそ違うものの、政治とかそういうトピックにまとまって欲しい。LDAでもそういう風に持っていくことはできるが、f…

#30 A class of Submodular Functions for Document Summarization

id:syou6162が常時ベイジアンだと思うなよ、ということでsubmodularな論文。去年のACLにもsubmodularを使って要約のdecodeをやるという論文が出ていたが、同一著者によるこれの発展研究。しっかりしていていい論文だと思う。スライドもある。この著者らのペ…

#25, #26, #27, #28, #29 ICML2011読み会を行ないました

数理情報からは竹之内先生と林さんが発表で聴講の方も何人か参加されてICML2011読み会を行ないました。発表者、質問してくださった方々ありがとうございました。全体で12-13(?)人前後くらいの人数。僕の発表はこの辺です。 #24 Sparse Additive Generative M…

#24 Sparse Additive Generative Models of Text

明日のICML読み会で読む論文。id:tsubosakaさんが紹介してくれている資料もあるし、明日はこの資料で手抜きをさせてもらおうかなと考えているのですが(ぇ)、自分の理解のためにメモも書いておきます。考え方はstraightforwardだし、実装も簡単そうだし、結果…

#23 Infinite Latent Feature Models and the Indian Buffet Process

DMLAにてtakuo-h君が紹介。途中から何をやっているか分かってきたが、できることとしては(Bayesian)sparse PCA + DPという感じ。latent featureというのが(PRMLとかに書いてあるような)Bayesian PCAでいうところのzに対応していて、そこの次元数がDPによって…

#22 Adaptive Sparseness for Supervised Learning

ICML2011にSparse Additive Generative Models of Textという論文が出ていて、あちこちで筋がよさそうな感じじゃね?と紹介されている(こことかこことか)。Motivation肝となるアイデアはsparsenessで、LDAのような生成モデルだと単語毎にどの多項分布を選んで…

#21 Grammatical Error Correction with Alternating Structure Optimization

言語教育勉強会にてtoshikazu-tが紹介。文法的な誤り(ここでは冠詞と前置詞の誤りに限定)を直すのに、非学習者(つまり母語話者)の書いたテキストを使って誤り訂正をやるという方法がよく取られていたが、最近では学習者の書いたテキストも誤り訂正に寄与する…

#10 Sharing clusters among related groups: Hierarchical Dirichlet processes

Hierarchical Dirichlet processes(HDP)の元論文。Group化されたようなデータに対してDPをそのまま使うとグループ間での特徴を共有できないので、どうにかしたい(ノンパラのいいところはそのままにしつつ)。テキストで考えると分かりやすいので、今後はグル…

#9 Multi-document summarization via budgeted maximization of submodular functions

NIPSが機械学習の最前線だとするなら、その中でもhotなsubmodularは機械学習の中でもhotなトピックなはず。NLPは離散最適化とかなり密接に関係している分野なので、submodularが進展すればNLPもちょっとづつ進展、ということで今回はsubmodularを使った要約…

#6 A hybrid hierarchical model for multi-document summarization

去年のACLの自動要約に関する論文。最終的な要約を出力するまでを2つのstepに分けて考えている。 nCRPをsentence-levelで考えて、文の抽象度合い、具体化度合いのようなものを得る 要約文にきやすいような文はtreeの上のほうにあるだろう、という仮定から tr…

#5 Hierarchical topic models and the nested Chinese restaurant process

今さら感あるかもしれないけど読む。DPはデータの複雑度に応じてクラスタ数を決めるようなノンパラなモデルだが、普通の(flatな)クラスタの構造しか学習できない。それに対し、この論文で説明されるNest Chinise Restaurant Process(nCRP)とかHierarchical L…

論文100本ノックの感想&独断と偏見に満ち溢れた今年読んだ中で面白かった論文紹介

100本いってないじゃん!! いつまで高見の見物してるんですか??? 目を通してるConference その他 LDA関係 LDA自体について LDAをベースにした応用モデル 形態素解析、分かち書き ノンパラベイズ その他 クラスタリング 最適化 教師なし学習 今年の1月1日から…

#73 Correlated topic models

David M. Blei and John Lafferty, In Lawrence K. Saul, Yair Weiss, and L´eon Bottou, editors, Advances in Neural Information Processing Systems 17, Cambridge, MA, 2005. MIT Press.今日のDMLAにて紹介。LDAのトピック間に相関を入れたようなモデル…

#70 A Mixture Model with Sharing for Lexical Semantics

Joseph Reisinger and Raymond Mooney. 2010, In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP '10). Association for Computational Linguistics, Morristown, NJ, USA, 1173-1182.意味談話勉強会にて…

#69 Crouching Dirichlet, Hidden Markov Model: Unsupervised POS Tagging with Context Local Tag Generation

Taesun Moon, Katrin Erk, Jason Baldridge, Proceedings of EMNLP-2010.言語によらず単語には機能語と内容語のようなものが存在するが、教師なしpos taggingでよく使われるHMMではこのような機能語、内容語の違いを捉えられない。このモデル(CDHMMとHMM+)で…

#68 Negative Training Data can be Harmful to Text Classification

Xiaoli Li, Bing Liu and See-Kiong Ng, in Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP-10). Oct. 9-11, 2010, MIT, Massachusetts, USA.いわゆるcovariate shift的な問題を考えている論文。covariate shiftと…

#67 Joint Training and Decoding Using Virtual Nodes for Cascaded Segmentation and Tagging Tasks

Xian Qian, Qi Zhang, Yaqian Zhou, Xuanjing Huang, Lide Wu, in Proc. of EMNLP 2010, Massachusetts, USA.Joint Learningでword segmentationとNERを一緒にやる話。既存手法にDynamic Conditional Random Fields(DCRFs)というものがあるが、Figure 1のよ…

#66 Graph-based learning for statistical machine translation

Alexandrescu, A. and Kirchhoff, K. 2009, In Proceedings of Human Language Technologies: the 2009 Annual Conference of the North American Chapter of the Association For Computational Linguistics (Boulder, Colorado, May 31 - June 05, 2009). …

#27 OTL: A Framework of Online Transfer Learning

Peilin Zhao and Steven C.H. Hoi, The 27th International Conference on Machine Learning (ICML 2010), Haifa, Israel, 21-24 June, 2010.今熱い(?)転移学習とオンライン学習を組み合せてやってみましょうというお話。homogeneousな場合とheterogeneousな…

#23 Map-Reduce for Machine Learning on Muiticore

Olukotun, NIPS-2006.id:mamorukさんによる紹介。Multicore上でのMap-Reduceを機械学習でやる話。「SVMを並列でやれるようにしたよ(pSVMとかcascaded SVMとか)」とかそういうものではなく、Statistical Query modelという範疇にあるモデルのクラスでsummatio…

#20 Large Language Models in Machine Translation

Thorsten Brants, Ashok C. Popat, Peng Xu, Franz J. Och, Jeffrey Dean, EMNLP-2007内容は結構シンプル。目的意識としては How might one build a language model that allows scaling to very large amounts of training data?(どーやってでかいデータで…

#14 Variational methods for the dirichlet process

D. M. Blei and M. I. Jordan. In International Conference on Machine Learning, 2004. 2月は論文100本ノックが止まってたような感じですが、別に読んでなかったんじゃなくってwikipedia:en:Dirichlet_process(DP)についての論文読んでたけど難しくて分か…

#13 A Simple Probabilistic Approach to Learning from Positive and Unlabeled Examples

D. Zhang and W. S. Lee. In Proceedings of the 5th Annual UK Workshop on Computational Intel ligence (UKCI), pages 83–87, Sept. 2005.久しぶりに正例とラベルなしデータから分類器を作る系の論文(半教師ありのゼミの関係でこっちをあんまり読めてなか…

#12 Manifold regularization: A geometric framework for learning from examples (Technical Report TR-2004-06)

Belkin, M., Niyogi, P., & Sindhwani, V. (2004b). University of Chicago. さあ、準備は整った。いざゆかん再生核の世界へ(謎。 概要 正則化を使った新しい半教師あり学習のフレームワークのようなものをproposeする。これはSVMや正則化付き二乗和誤差最小…

#11 On transductive support vector machines

L. Wang, X. Shen, and W. Pan. In J. Verducci, X. Shen, and J. Lafferty, editors, Prediction and Discovery. American Mathematical Society, 2007. この論文のmain contributionは2点。一つ目は、いくつかの仮定を置くとTSMVsはいくつかの仮定の元で通…

#10 Transductive inference for text classification using support vector machines

Joachims, T. (1999). Proc. 16th International Conf. on Machine Learning (pp. 200– 209). Morgan Kaufmann, San Francisco, CA.10本目です。TSVMsに関する論文。うーん、内容はあんまり面白くなかったような気がする。4章の"What Makes TSVMs Especially…

#9 The concave-convex procedure

Yuille, A.L., Rangara jan, A. Neural Computation 15(4) (2003) 915–936ちょっと間が空いてしまったけど、継続しますよ。今日の話題は最適化に関するところ。最適化を勉強したいわけじゃないんだけど、[1]を読むためにはこれを避けては通れないので読んで…

#8 Large Scale Semi-Supervised Learning

J. Weston. Proceedings of NATO Advanced Study Institute on Mining Massive Data Sets for Security, IOS Press.videolectureのvideoとかプレゼンの資料とか。 Large-Scale Semi-Supervised Learning - VideoLectures.NET Large Scale Semi-Supervised Le…

#7 Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions

Zhu, X., Ghahramani, Z., & Lafferty, J. (2003a). ICML-03, 20th International Conference on Machine Learning. The bulk of the harmonic functions section of the tutorial is devoted to this paper. It directly addresses many aspects of the har…

#6 Seeing stars when there aren’t many stars: Graph-based semi-supervised learning for sentiment categorization

tutorialの資料があった。Amazonのカスタマーレビューのところにある☆がいくつかを当てるような問題にSSLを適用した、というもの。グラフベースの手法。この論文のmain contributionは3つあって 教師ありでやられていたことを半教師あり学習に拡張 グラフを…

#5 Learning from Labeled and Unlabeled Data using Graph Mincuts

プレゼンの資料がここに置いてあった。SSL(Semi-Supervised Learning)でグラフ理論を使ったものには Mincut Discrete Markov Random Fields and Harmonic Functions Mainfold Regularization Graph Kernels from the Spectum of Laplacian などなどがある(そ…

#4 Learning with Positive and Unlabeled Examples Using Weighted Logistic Regression

Lee, W. S. & Liu, B. In Proceedings of the Twentieth International Conference on Machine Learning (ICML (2003).この論文のmainのcontributionは2つ。 出力値が(ただの実数ではなく)確率で返ってくるので、最尤法が使える。そして凸なので最適化が容易…

#3 Building Text Classifiers Using Positive and Unlabeled Examples

Bing Liu, Yang Dai, Xiaoli Li, Wee Sun Lee and and Philip Yu. Proceedings of the Third IEEE International Conference on Data Mining (ICDM-03), Melbourne, Florida, November 19-22, 2003.この論文も正例とラベルなしデータからの学習に関する論文…

#2 Partially Supervised Classification of Text Documents

Liu, Bing and Lee, Wee Sun and Yu, Philip S. and Li, Xiaoli (2002). In Proc. 19th Intl. Conf. on Machine Learning.これも考えている問題は、少数のラベルありドキュメントと大量のラベルなし(この場合はmixed documentsって書いてあるが)文章で文章分…

#1 Text Classification from Labeled and Unlabeled Documents using EM

Kamal Nigam, Andrew McCallum, Sebastian Thrun and Tom Mitchell. Machine Learning, 39(2/3). pp. 103-134. 2000.少数のラベルありドキュメントと大量のラベルなし文章で文章分類。学習器は主にNaive Bayes(以下NBと書く)を利用している。最初はラベル付…

論文100本ノック始めます

僕も就活の面接のときに「74本論文読みました!」と言いたいので、というのは冗談で、せっかく新年になったので論文100本ノックなるものを開始してみようかと思うわけです。2010年12月31日に2010年に読んだ論文リストを書いておくと、はてダを開く度に今年読…