機械学習

不定期ML&NLP報#3

最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。前回はこちら。このエントリ忘れてるよというのがありましたら、たれこみフォームから教えてもらえるとうれしいです。 論文 ブログ/勉強会資料 ビジネス 学会/勉強会 NIPS2016 NL研 coling2…

異常検知本の読書メモ Part 5(密度比推定による変化検出)

前回に引き続き、密度比を直接推定するコーナー。時系列の変化検出や多変数の依存関係の崩れを捉える構造変化検知の手法を密度比推定で解く。 変化検知問題とカルバックライブラー密度比推定法 変化検知問題は第9節で取り扱った。ある時点tを含む前後で分布…

異常検知本の読書メモ Part 4(密度比推定による異常検知)

前回扱った内容を密度比推定により直接的にかっこよく解く。 やりたいこと 正常であると分かっているデータを元に異常が含まれるかもしれないデータの中から異常な標本を見つけ出す 個々に外れ値検出するのではなく、テストデータ全体の確率分布も考える 全…

異常検知本の読書メモ Part 3(疎構造学習による異常検知)

前回の復習 前回のChaper 9では「単一の」「時系列データ」に対し、部分空間法を使った変化検出法を見た。 概要はこんな感じであった。 小さいwindow幅でデータを切って、ベクトルデータにする 過去側と現在側の2つに領域に分割 時刻tにおける過去側と現在側…

異常検知本の読書メモ Part 2(方向データの異常検知と部分空間法による変化検出)

方向データの異常検知 方向データの異常検知は前回スキップしていたところ。部分空間法による変化検出をするときに方向データに関する知識が必要になったので、戻ってきた。 方向データを扱う際にキーになる分布はフォンミーゼスフィッシャー分布。こんな分…

不定期ML&NLP報#2

最近の機械学習&自然言語処理に関する情報をまとめるコーナーです。今回は医療品設計やセキュリティなど、自分があまり知らなかった分野での機械学習適用事例が多く、勉強になるものが多かったです。前回はこちら。 このエントリ忘れてるよというのがありま…

不定期ML&NLP報#1

先日、社内で定期的に行なわれているフロントエンド会にお邪魔してきました(podcastが配信されています)。jser.infoというサイトを参照しながら雑談していたのですが、最近のフロントエンドの動向を知るという目的にはこのサイトなかなかよさそうでした。 機…

自然言語処理の深層学習において転移学習はうまく行くのか?

このエントリはDeep Learning Advent Calendar 2016 5日目のエントリです。EMNLP2016に出ていたHow Transferable are Neural Networks in NLP Applications?を読んだので、それについて書きます。 [1603.06111] How Transferable are Neural Networks in NLP…

異常検知本の読書メモ Part 1

異常検知本を最近読み進めていたので、自分が知らなくて新しく勉強になったところのみメモ。 ホテリングの法による異常検知 異常度はマハラノビス距離で与えることができる サンプル数Nが次元数Mより圧倒的に多い場合はは自由度M、スケール因子1のカイ二乗分…

Visualizing and Understanding Curriculum Learning for Long Short-Term Memory Networksを読んだ

Curriculum Learning(簡単なやつから学習して、難しいのは後のほうがうまく行きそう)の方法をLSTMで試してみた報告っぽい内容。要約は以下の通り。 One-Pass CurriculumとBaby Steps Curriculumの2種類があるけど、Baby Steps Curriculumのほうがお勧めでき…

Google機械翻訳の仕組み&できるようになったこと/まだ難しいことについて、社内の機械学習勉強会で説明します

社内の機械学習勉強会で最近話題になった機械学習関連のエントリを取り上げているのですが、ここ一ヶ月ではGoogle Neural Machine Translation(GNMT)がとても話題になっていました。GNMTで使われているEncoder-Decoderやattentionのような仕組みを直近で使う…

機械学習をプロダクトに入れる際に考える採用基準について

サービスに機械学習技術(例えばSVM)を入れる際に、「この機械学習技術は本番サービスに投入しても大丈夫なものか?」を考える基準がまとまっていると人に説明するときに便利だなとふと思ったのでまとめてみました。散々言われ尽くされている話だとは思います…

機械学習ランチ会を始めたので雑談用エントリを集めてくれるslack botを作りました

4行概要 最近社内で機械学習勉強会(ランチ会)をやっている 紹介するエントリを毎回頑張って探すのは大変 spreadsheet上で教師データを作り、機械学習モデルを学習、おすすめエントリをslackに投稿 砂場ができて便利! Google Spreadsheet上でみんなでわいわい…

実タスクで能動学習を試してみた

実タスクで簡単な能動学習を試してみました。結論としては、1200件で到達できる精度に400件程度のアノテーションでも到達でき、それによりアノテーションに要する時間をかなり削減できそうということが分かりました*1。今後、アノテーションを必要とする機械…

Precision/Recallのいずれかを重視したい場合にどのように事例を追加するか

当たり前の話かもしれないけど、自分は経験したことがなかったのでメモがてら書いてみる。絶対これで行けるというわけではないと思うが、ある程度一般性はあるんじゃないかと。 状況設定 機械学習の評価を考える際に複数の指標がトレードオフの関係にあると…

はてな社内の勉強会で構造学習について発表しました

先週末、はてな社内の勉強会で構造学習、特に実装が簡単な構造化パーセプトロンについて発表しました。発表資料と説明用にサンプルで書いたPerlの品詞タグ付けのコードへのリンクを張っておきます。 今日からできる構造学習(主に構造化パーセプトロンについ…

lgammaの差を早く計算したい

ベイズを使った研究ではよく多項分布とディリクレ分布を使い、パラメータを積分消去したりするので、ポリヤ分布が頻出する。ポリヤ分布のcomponentはガンマ関数からなっており、普通は対数を取って計算することが多いので、ガンマ関数の対数の差(lgammaの差…

logsumexpを使って乱数生成 + X^2検定

空港で暇にしていたので書いてみる(出発時間が遅れた)。takanori-i君がベイジアンHMMを作っているらしく、相談に乗る。確率の積が入ってきて、数値計算で死んでしまうときがあるとのことだったので、logsumexpについて教える。logsumexpについては高村本が分…

Dual Decompositionチュートリアル

M1のryo-ko君がDual Decomposition(双対分解)のチュートリアルをやってくれた。DMLAメンバーで適当に持ち回って不定期に開催している。Dual DecompositionとはTheoremの証明とか細かいところはいくつか分からなかったが、例えばCFGとHMMのdecodeを一緒にやる…

#32 Word Features for Latent Dirichlet Allocation

休憩がてらにざっと読む(なのでいつも以上にちゃんと読んでない)。LDAに色々なfeatureを付っこむという話。"Germany"とか"politics"とかは表層こそ違うものの、政治とかそういうトピックにまとまって欲しい。LDAでもそういう風に持っていくことはできるが、f…

面白そうと思いつつ読めてない論文達

自分用メモ。今は読んでる場合じゃないのだけれど(誰か紹介して)、どっかにメモっとかないと忘れる論文。"かなり"重要そうなのをピックアップしてある。 Painless Unsupervised Learning with Features (pdf, presentation) Parsing Natural Scenes and Natu…

テンソル分解と生成モデル

ICML読み会でテンソル分解の論文が出てきたが、行列分解系はどうもなじみがないので理解しにくい部分があったり。NMFはPLSIと対応が取れるという話もあったりするし、テンソル分解もそういう確率モデルとの対応がないのかな、と思ってカーネル輪講が終わった…

#24 Sparse Additive Generative Models of Text

明日のICML読み会で読む論文。id:tsubosakaさんが紹介してくれている資料もあるし、明日はこの資料で手抜きをさせてもらおうかなと考えているのですが(ぇ)、自分の理解のためにメモも書いておきます。考え方はstraightforwardだし、実装も簡単そうだし、結果…

#23 Infinite Latent Feature Models and the Indian Buffet Process

DMLAにてtakuo-h君が紹介。途中から何をやっているか分かってきたが、できることとしては(Bayesian)sparse PCA + DPという感じ。latent featureというのが(PRMLとかに書いてあるような)Bayesian PCAでいうところのzに対応していて、そこの次元数がDPによって…

#22 Adaptive Sparseness for Supervised Learning

ICML2011にSparse Additive Generative Models of Textという論文が出ていて、あちこちで筋がよさそうな感じじゃね?と紹介されている(こことかこことか)。Motivation肝となるアイデアはsparsenessで、LDAのような生成モデルだと単語毎にどの多項分布を選んで…

カーネル輪講で発表しました

福水さんのカーネル法入門の3章、カーネルPCA、カーネルCCA、カーネルLDA(ベイズじゃないよ!!!)のところを担当しました。せっかくなので資料をアップロードしておきます。 Kernel20110619 View more presentations from syou6162 数理情報学講座(機械学習の…

head-to-head

今日からDMLAの輪講開始(今年はMacKayのInformation Theory, Inference, and Learning Algorithmsを読むのです)。今日は松本先生とid:mrcarrot君の担当。id:mrcarrot君は普通に読めてて素晴しい。途中で弁明現象の例が出てきたので、PRMLでいうところのhead-…

マルコフブランケット

HMMのGibbs Samplingを考えるとき、マルコフブランケットの変数のみを考えればよいのだがなんでだっけとかアホなことを考えたりしたのでメモ。なんでマルコフブランケットだけ考えればいいかについてはパターン認識と機械学習 下 - ベイズ理論による統計的予…

DMPにおけるハイパーパラメータのサンプリングの仕方

ハイパーパラメータの決め方Collapsed Gibbs samplingなどではパラメータは積分消去されることからハイパーパラメータが通常のパラメータの役割を果たすことが少なくありません。そういうわけで通常だと割と適当に「えいやっ!!」と決めてしまうようなハイパ…

Gamma分布からのサンプリング

自分用メモ。DPMにおいてハイパーパラメータのサンプリングをする必要がある場合、Gamma分布からサンプリングしてこなければならない。「Boostさんにお願いしてどうにかしてもらおう...」と思っていたところ、BoostさんはGamm分布の1変数のバージョンでしかA…