新学期が始まったなあああという感じのかなり忙しい一日。ゼミの準備を夜にやっていて一限からだったからもうくたくた。
理論統計学
理論統計学は去年も受けて今日は特に難しいこともなかったからよかったと言えばよかったんだけど、質問をするところがないと眠(ry。自然言語処理
夕方からは学類の授業にある自然言語処理を受ける。先週までどうやって形態素解析をするの?っていう話が出ていて、コスト最小化問題みたいにすればよくね、という流れだった。どういう問題にしているかというと- その単語が登場するコスト
- 品詞系列が起こるようなコスト
の二種類を考えて、その和を最小にしましょう、というような問題。10年くらい前はそのコストを人手でメンテナンスしていたらしい(しかも、管理していたのはNAISTの松本研だということらしい)。そのメンテナンスも人を雇うとすごいお金かかるから形態素解析自動化したいよね、っていうことで登場したのが確率的形態素解析。マルコフモデルで単純化して近似、確率の積に対数を取ったものを最大化する、という問題に帰着する、というもの。しかし、これを変形すると実はコスト最小化問題と同値である、ということが分かるというのが面白かった。数式展開も簡単だし。このまま問題を愚直に解こうとすると組み合わせ爆発を起こすので、アルゴリズムを考えてあげないとね、ということで来週そのアルゴリズムを取り扱うようだ。月曜に受けている離散最適化理論(グラフ理論を主に取り扱っている)の内容とオーバーラップしていい感じだなーと思った。
で、5/26にid:ytoさんの講演が筑波であるということらしので、行きたいなーとか思っている。って、その日自然言語処理の授業とかぶってるんですけど、どうなんですかwwww。
あとはchasenで遊んだ。perlワンライナー忘れすぎでだめぽ。
PRML勉強会
去年の8月から今年の2月くらいでPRML読書会 on Skypeをやっていたのだけど、数式をちゃんと追っていなかった。というわけで、ちゃんと追いたいなーと思っていたので、専攻科の友達を誘ってPRMLの勉強会を今日からスタート。3章の線形回帰モデルのところをやりました。- ただの線形回帰じゃなくって、非線形変換をしてから線形回帰をやる
- どういう確率構造を与えるのか
- なんで条件付き期待値だといいのか(これは1章に戻りながらやった)
- 尤度関数、対数尤度の説明とその効用について説明
- 最尤法によるパラメータの求め方
- 行列代数の付近をちょっとだけ
という付近をやった。来週はその解釈と過学習を防ぐための正則化項の導入の付近の話をする予定である。3.1.*章は俺の担当になってます。