統計学

統計学勉強会でNPSの信頼区間について発表しました

以前ブログにも書いたNPSの信頼区間を題材に、統計学勉強会で発表しました(します)。資料はこちら。 自分の目的に合った統計量と そのバラ付きを計算しよう ~NPSを例に~(統計学勉強会) from syou6162 3/19に最終出社したばかりなので発表の時期としては微妙…

Log-normal distributionの性質

自分用メモ。 David M. Blei and John Lafferty. Correlated topic models. In Lawrence K. Saul, Yair Weiss, and L´eon Bottou, editors, Advances in Neural Information Processing Systems 17, Cambridge, MA, 2005. MIT Press. を調べる機会があって、…

確率論、統計学関連のWeb上の資料

確率論と統計学は俺がまとめるから、他の分野はお前らの仕事な。確率論 Index of /HOME/higuchi/h18kogi 確率空間 生成されたσ-加法族 確率の基本的性質 確率変数とその分布 分布の例 分布関数 期待値、分散、モーメント 期待値の性質 独立確率変数列の極限…

ノンパラメトリックなものの尤度関数

ノンパラメトリックな推定量(カーネル密度推定量とかナダラヤワトソン推定量とか)を計算するときに、MSE→MISE→ISE→Cross-Validationという感じで色々基準を変えていったんですが、そういえば最尤法で求めるということを考えていなかった。いや、最初は分けも…

Bootstrap法について色々書いてみる

2月に入ってから、Bootstrap Methods and their Application (Cambridge Series in Statistical and Probabilistic Mathematics)を読み始めている。で、数式はそこまでややこしくないのでわりと分かるんだが、Bootstrapを実行しなければならないシチュエーシ…

俺的統計の進め方

id:wakutekaとid:HashのIntroduction to the theory of statisticsの読書会にこっそりチャットのログを見たりしながら参加しているんだけど、統計な研究室にいる俺がほぼ一年間でどういう感じで勉強を進めてきたかを書いみようと思う。新4年生も入ってくる時…

統計と機械学習の間で

自分は機械学習も勉強している統計屋さんです、と立場表明した上で。 パターン認識と機械学習 上 - ベイズ理論による統計的予測 カーネル多変量解析―非線形データ解析の新しい展開 (シリーズ確率と情報の科学) などの機械学習の本を読んでいて感じた違和感と…

調べてまとめて書きたいなと思っているところ

PRMLの5章、ニューラルネットワーク(NN)のところで(4章のほうがむしろ書いてあるか)機械学習と統計のつながり(?)ということで一般化線形モデル(Genelized Liner Model:GLM)のはなしが書いてある。統計をやっている僕からすると活性化関数より連結関数のほう…

t分布とかX^2分布に従う乱数とか

初めに言っておくとRならt分布とかX^2分布に従う乱数とかすぐにできるんだけど、あえてそれを正規乱数から生成してみるというやつです。X^2分布wikipedia:カイ二乗分布より引用すると「を、平均で分散の正規分布に従う、k個の独立なランダム変数とすると、統…

Rを使った統計勉強法【中心極限定理編】

Rを使った統計の勉強法 中心極限定理とはなんぞや 要するに 正規分布 特徴 muはmodeを変化させるパラメータ sigmaは分布のすそのを決めるパラメータ 確認 一様乱数で確認 乱数の平均をいっぱい作る 確認 戻ってみよう 後半に行ってみよう 正規分布っぽいね! …

正規分布の和の分布と、混合正規分布の違い

なんか中学生が分からない、とか言ってそうな内容ですが。大学4年で分かってないのでRでやってみた。正規分布の和の分布最初はこっちが出てくるのをなかなか理解できない(たぶん)っていう例のほう。二山になる、かと思うんだけど違うんだよね。平均と分散も…

「Introduction to the Theory of Statistics」の読書会をやりたい

Introduction to the Theory of Statisticsという本を買って1週間くらいが過ぎようとするのだが、ちっとも進んでいない。電車の中で開いてみるもののスイマーに負けてしまう。「英語が難しい」とかそういうわけでもないのだが、仕組みづくりとかがうまくいっ…

GMLについて自分用まとめ

はげしく間違っている。ということで参考にしないほうがいい。一般の回帰モデル*1の統計モデルでは従属変数が 正規分布に従う 分散は一定 などの条件がある。正規分布に従う例も多いが、必ずしもデータが正規分布に従うということはない。また、ポアソン分布…

一般化線形モデルが分からない

図書館とかで調べてみたんだけど、リンク関数とかがよく分かりません。予測値が変なところに行かないようにしかけをしといてやるってことなのかなー?従属変数が正規分布しないときにもリンク関数に投げてやれば正規分布とかにできるってこと?本当か?

Live Analyzingとか企画してみたいんだけど

R勉強会第四回はどうやら多変量解析ということになりそうな感じなのですが、たぶんやるとしたら因子分析。別に他のやってもいいんだけど、僕が勉強しなおしたいしbenjoもやりたいと言っているので。onoueにこの前話したところもこの辺はやったほうが分かりや…

判別分析がようやく分かってきた

前までは分かったと思っていて、それが勘違いだったということが分かってきたのですが。ようやく分かんないところが分かってきた。線形判別関数を使うほうではなくて、マハラノビスの汎距離を使うほうです。共分散行列のところでS1とS2をプールするとかいう…

理論が本当かどうか確かめてみるテスト

まあ、一例を見たからと言って確かめたことにならないから証明するわけだが。一例をやってみて、理解を深めるというのはあるのでやってみるテスト。『が平均、分散の正規分布に、が平均、分散の正規分布に従い、が独立であるとすると、という確率変数は平均…

標本分散に関するお話

昨日くらいから標本分散の分布に関する話を勉強している。結局、証明した定理は Xが分散の正規分布に従う時(は未知)、そこから抽出された大きさnの無作為標本の標本分散をとすればは自由度n-1のχ二乗分布に従う。 というもの。分散に関する仮説検定を行っ…

最良推定量

朝マックならぬ、朝統計。最尤推定量を勉強したときに、「最尤推定量は最良推定量になるときが云々…」みたいなことが書いてあったので、最良推定量が何ものかを調べてみた。「不偏推定量の中で最小の分散を持つののなのね、ふんふん」ととりあえず理解。加重…

計量時系列分析で習ったことで遊んでみる

正規乱数から相関のあるデータの生成計量時系列分析で正規乱数から相関のあるデータを生成してみようというやつがあったので、遊んでみる。平均0、分散1の正規分布に従う乱数(正規乱数)のベクトルを2つ用意。このままでは2つのベクトルは独立なので、無相関…

晒せ、晒せ!!

2つ上のエントリでものすごい馬鹿をずっと晒していることにさっき気がついた。アホ過ぎてブログ消しそうになったが、なんとか踏み止まった。が、ブログに勉強していったことアップすると「こんなのも分からないなんてアホ過ぎる。。。」的な感覚になるので勝…

ダミー変数とかカテゴリー変数で相関を見たい

アンケート調査とかそういうので、ダミー変数とかカテゴリー変数*1とかそういうのをよく使うと思うのですが、こういう変数同士の相関を見たいっていうときにはどうすればいいのでしょうか?普通に相関係数を取るのって、直感的にもまずいですよね。たぶん。が…

待ち行列シミュレーション

この前提出したシミュレーションの課題をJavaでサクサクできるように作りました。とりあえず1行列1サービスのやつしか作ってないけどw。試しに客の人数300人、客の発生は[0,5]の一様乱数、サービスにかかる時間は[0,5]の一様乱数でやってみたところなんか面…