ゼミで半教師あり学習のことを発表したのでスライドを公開します

理解が不完全だし、ゼミで再生核ヒルベクト空間のことやってなかったから途中で混ざってたりとかで大分あれな資料になってますが、公開してみるテスト。半教師あり学習 from syou6162 次回は何を発表するか。。。

2010-01-26

Introduction to Dirichlet Process and its Applications

学習とモデルの複雑さ*1 混合モデルにおける混合数や多項式回帰での次数をどのようにして決めるか? AICなどの情報量基準 CVによるパラメータの決定 Nonparametric Bayesian ノンパラベイジアンは違う発想をする柔軟でないモデルは間違った推論をしてしまう …

2010-01-24

PAC学習さん。。。

機械学習

PAC Learning from Positive Statistical Queriesという論文を読みたい。正例とラベルなしデータからのみで学習が可能である!というのを理論的に述べた論文である。が、主張にPAC理論というものが使われているらしく全く分からない。ということで本を読んで…

2010-01-23

「正例とラベルなしデータ」+「ラベル伝播」

機械学習研究

アイデア出し。いくつか「半教師あり学習」と「正例とラベルなしデータ」に関する論文を読んだ。「正例とラベルなしデータ」のほうは決定版って感じのものはあんまりない気がしていて(分野がマイナーなのもあるかも)、「半教師あり学習」は特にグラフを使っ…

2010-01-20

再生核ヒルベルト空間!!(ｷﾘｯ

機械学習本

半教師あり学習の資料作りがあと"Manifold regularization"だけになったんだが、これがいままでより頭に入ってこない。今までの論文とかは他との差分を読めばおkというような感じだったが、差分取るもとのがない、って感じである。というわけで基礎体力が足…

2010-01-18

半教師あり学習とは結局のところ何なのか?

機械学習半教師あり学習

半教師あり学習の本質はどこにあるのか? 現在の半教師あり学習の悪い(?)ところその他今週ゼミで半教師あり学習のイントロダクション的なものをやる予定なので資料を作っている。 Self Training Generative Models S3VMs Graph-Based Algorithms Multiview …

2010-01-15

#9 The concave-convex procedure

機械学習論文100本ノック

Yuille, A.L., Rangara jan, A. Neural Computation 15(4) (2003) 915–936ちょっと間が空いてしまったけど、継続しますよ。今日の話題は最適化に関するところ。最適化を勉強したいわけじゃないんだけど、[1]を読むためにはこれを避けては通れないので読んで…

2010-01-03

#3 Building Text Classifiers Using Positive and Unlabeled Examples

論文100本ノック機械学習半教師あり学習

Bing Liu, Yang Dai, Xiaoli Li, Wee Sun Lee and and Philip Yu. Proceedings of the Third IEEE International Conference on Data Mining (ICDM-03), Melbourne, Florida, November 19-22, 2003.この論文も正例とラベルなしデータからの学習に関する論文…

2010-01-01

#1 Text Classification from Labeled and Unlabeled Documents using EM

論文100本ノック機械学習半教師あり学習

Kamal Nigam, Andrew McCallum, Sebastian Thrun and Tom Mitchell. Machine Learning, 39(2/3). pp. 103-134. 2000.少数のラベルありドキュメントと大量のラベルなし文章で文章分類。学習器は主にNaive Bayes(以下NBと書く)を利用している。最初はラベル付…

2009-12-09

変分ベイズ、入門編

機械学習 PRML

PRMLゼミはMCMCの付近が一段落しまして、変分ベイズに突入しようとしています。いや、グラフィカルモデルに行ってもいいんだけど、図式化することによって変数間の関係が見やすくなる以上の御利益がよく分からないのです(誰か御利益を教えて＞＜)。というわ…

2009-11-15

半教師あり学習でollを使いたいので、ollをライブラリとして使ってみる

機械学習 C++ DBCLS

バイトにて、岡野原さんが作られているオンライン学習をサポートした機械学習ライブラリ「oll」をめちゃくちゃ使わせてもらっている。 Google Code Archive - Long-term storage for Google Code Project Hosting. 自然言語処理のような大規模かつスパースな…

2009-11-09

SIR(重点サンプリング)を簡単な例で

機械学習 R MCMC

木曜だと思っていたゼミが明日だということにさっき気がついてあたふたと準備をしています。。。担当している箇所はパターン認識と機械学習下 - ベイズ理論による統計的予測の11.1.4の重点サンプリングと11.1.5のSIRです。重点サンプリングのところは去年研…

2009-10-30

確率過程は金太郎飴?

機械学習

「ガウス過程やディリクレ過程は、ガウス分布やディリクレ分布を無限次元に拡張したものである。わっはっはっはっ!!」と言われてもぴーんとこなかったわけだが、「どんだけ周辺化してもその結果はまたガウス分布やディリクレ分布になってるお!」くらいにとら…

2009-10-30

グラフィカルモデルは何がうれしいか

機械学習

PRMLにはグラフィカルモデルの話が載っているけど、「グラフの表現にして一体何がうれしいんだ。。。」と思ってましたが、なんとなくうれしい理由が分かってきた。分かってきた、というかないと理解しづらくなってくるかなーという状況が出てきた、というの…

2009-10-29

EMアルゴリズム→一般化EMアルゴリズム→変分ベイズ

機械学習

EMアルゴリズム自然言語処理特論で、EMアルゴリズムが紹介されたので、自分たちでやっているゼミでEMアルゴリズムについて紹介した。EMアルゴリズムの基本的な考え方は、対数尤度を変形していき、イェンセンの不等式によって下界を与え、その下界をカルバッ…

2009-10-27

初めての経験ベイズ

自然言語処理機械学習

今日の自然言語処理特論は言語モデルから一旦離れて*1、ベイズ入門なお話。ベイズについては多少知っているので、その辺はもう書かない。新しく出てきたものの中に経験ベイズの話があった。経験ベイズを考える状況としてはベイズ的なフレームワークで考えて…

2009-10-20

初めての最大エントロピー法

自然言語処理機械学習

なぜ最大エントロピー法が必要か自然言語処理特論の授業で最大エントロピー法が紹介されました。言語モデルで、パープレキティが小さいモデルを作るのが目標なんですが、EMアルゴリズムでは、小さくできるパープレキシティにちょっと限界がありました。まあ…

2009-10-19

初めてのSVM

機械学習

ゼミでid:reposeがSVMについて話しました。SVRとかそういうのはとりあえずやらないで、マージン最大化とヒンジ関数を使った誤差最小化の枠組みを見たり、解のスパースネスがどうして導けるのかとかについて勉強しました。参考にしてたのはこの2冊。パターン…

2009-10-18

初めてのEMアルゴリズム with R

R 機械学習

混合正規分布について混合正規分布のEMアルゴリズムによるパラメータ推定 EMアルゴリズムの単調増加性についてこの前はEMアルゴリズムがどんな感じのメカニズムで、どんな性質を持っているか簡単に書いた。初めてのEMアルゴリズム - yasuhisa's blog とい…

2009-10-16

「確率密度比」を用いた機械学習の新たなアプローチ

機械学習

東工大の杉山先生の講演がすごく面白かったのでメモ。やりたいこと、特徴p(x)とp'(x)という分布を推定しようという問題があったとする。このとき、二つの分布のパラメータを推定しないといけないので普通は大変。そこで、w(x) = p'(x) / p(x)を推定するとい…

2009-10-13

初めてのEMアルゴリズム

自然言語処理機械学習

EMアルゴリズムとは今日の自然言語処理特論の内容はEMアルゴリズム。N-gram言語モデルを作るときには、未知語に関連して0頻度問題がつきまとう。TrigramからBigram、BigramからUnigramと切り替えていくback-offなどの方法もあるが、今日やったのは線形補完法…

2009-10-11

ガウス過程についてのメモ

機械学習 PRML

ガウス過程の定義ガウス分布との違い普通のやり方関数空間から見た視点ガウス過程のメリットデメリットガウス過程のメリットガウス過程のデメリットまだよく分かってない付近ガウス過程の定義関数上の確率分布で、任意の点集合に対するの値の同時分…

2009-10-10

ollが凄い件について

自然言語処理機械学習

DBCLSのバイトでSVM-Light Support Vector Machineを使っていたんだけど、計算が一時間とかでは終わらなくなってきたので、気軽に実験できなくなってきていた。「この素性は効くのかなあ」とか出し入れして実験したい自分としては、気軽に実験できないのは致…

2009-06-13

PRML読書会第三回に参加しました

機械学習 PRML

第二回に引き続き、参加させてもらいました。 C.M.ビショップ「パターン認識と機械学習(PRML)」読書会（第３回） : ATND 今回は第二章の確率分布のところでした。自分は2.4の指数型分布族のところについて発表してきました。資料を公開しておきます。 Prml f…

2009-06-03

PRML3章線形回帰モデルが終わった

機械学習 PRML

研究科の友達とやっているPRML勉強会で、第3章が終わりました。忘れないようにメモっておきます。3.1章【線形基底関数モデル】基底関数を使った線形回帰モデルを定義。加法性のガウスノイズを使って、確率変数にし尤度関数も定義。尤度関数を最大にするよう…

2009-04-27

線形回帰モデル

機械学習 PRML

明日発表の分のゼミの資料。PRMLの3.1.2から3.1.5までです。先週のはこの辺に書いている。今日の日記 - yasuhisa's blog 最小二乗法の幾何学ここではN=3と固定して考えてみるということなので、3次元空間で考える各軸が、、で与えられる3次元空間図につ…

2009-03-14

人工知能基本問題研究会(SIG-FPAI)での岡野原さんの発表のときに取ったメモ

機械学習

hillbig.cocolog-nifty.comということで僕が取ったメモも出してみようと思う。内容としては大体3つでオンライン学習 L1正則化索引を用いた効率化, 全ての部分文字列を利用した文書分類という感じだったんだけど、最後の索引の付近はid:syou6162の勉強不足…

2009-02-21

Kmeans法のソースを見つつ

R 機械学習 C

Cの勉強もかねつつ。kmeans.cとkmeans.Rから最低限必要そうなところを引っ込抜いてきて、コメントを適度に埋めつつやってみました。Cのソース。100行くらい。短かい。 #include <R.h> #include <Rinternals.h> void mykmeans(double *x, int *pn, int *pp, double *cen, int *pk</rinternals.h></r.h>…