読者です 読者をやめる 読者になる 読者になる

データ解析

全ての組み

合わせを持つリストを生成 去年のデータ解析にて、Cpプロットを出すのに全ての組み合わせを出すという作業があった。手でやってる人が大半であったが、手でやったら負けですよね。というわけで去年はPerlを使ってRのコードを吐き出させていたわけですが、Rの…

Rで因子分析→クラスター分析→クロス分析の流れをやってみる

せっかくこの前インターンでこういうことやってるんだよ(ってのの一部)を書いたので、今日はそれをどうやるかについて書いてみようかと思う。といっても自分ではよく分からなかったところもあったので、人力で質問してたりするわけですが。ツールはいろいろ…

単純散布図で気をつけるべきこと

データ解析のレポートを出すときには必ず見直すこと。重回帰において、説明変数を複数使う場合、説明変数に強い相関がある場合は、応答変数と説明変数の単純散布図から回帰の係数情報を読み取ることはできない!!なぜならば、反例があるからである。以下のよ…

決定係数

説明変数の数を増やすと決定係数は上昇する(正確にいうならば減ることはない、だろうか)。なぜならば、増やした説明変数の係数を0としてしまえば前と同じなのだから。それを変えてよくなるのならば、決定係数は上がるしかない(上がらないなら0にするので)。

標準偏差の意味

回帰分析とかをやるときにXを使って、回帰直線なり曲線なりを出す。しかし、サンプルから取ってきたものはもういっかい取ってくれば別の点に動いて、回帰したものも変わってしまうかもしれない。ならば、Xは分布するものとしてとらえることにしよう。そのど…

t-valueについて

回帰の係数が有意かどうかを調べるときに。回帰をした係数のt-valueの値の絶対値が2より大きいならば、採用1と2の間なら、どうするか考える。1より小さいならば、不採用という風に考える。また、t-valueはestimate/std.errで出るものである。報告するときはe…

u(ミュー)の推定

Xの95%推定区間を100個取ってきたら、そのうち95個はuに触れる。母集団の数を増やしてnを無限大に近付けてやればuは一点に定まるのではないかという考え方。

車のデータについて学ぶ

データ解析をする上で、実際の市場や商品について知ることはある意味、解析の仕方を学ぶより重要である。ということで、車の特徴などについてメモしていくか。価格今回のデータについては価格の上限と下限が与えられている。回帰分析をするうえでこれらをど…

理論的分位点分位点プロット

3章で扱ったのは経験的分位点分位点プロット、すなわちあるデータとデータの分布が等しいものだった。しかし、論理的分位点分位点プロットはそうではない。実際のデータがある理論的な分布に従うかどうかを調べるものである。具体的には標準正規分布に従うか…

試験で使う関数について

試験ではplot.strip.n.medianやplot.strip.n.boxplotsなどを使う。このplotは普通の人には説明なしでは使ってはならない図であるから、説明のしかたを考えておかねばならない。これらはデータの数をほぼ同数にして、そのなかで、medianを取ったり、 boxplot…

散布図について

散布図には主に二つのパターンがある。まず、一つ目は説明変数と従属変数の関係になっている場合。この場合、2次元のデータという。二つ目はxとyが交換可能な場合である。この場合、2組のデータセットという。経験的分位点分位点プロットなどで分布が同じか…

分散の不均一性について

分散の不均一性とは、xが増えるにつれて、yの分散が大きくなってしまうこと。回帰分析をした結果、説明変数が従属変数をよく説明しているのならば、従属変数の残差の分散は(回帰の仮定より)一定になるはずである。モデルがいいものであるかどうかを判断する…

平滑化について

平滑化の基本的なアイデア、説明すべきことなどを記述していく。まず、なぜ平滑化が必要なのかを説明する。よくある考え方として直線回帰がある。しかし、現実の問題として直線でちょうど回帰できないものも存在する。例えば、ハムスターの睡眠時間と寿命の…

identifyの使いかた

identify関数はプロットしたものの具体的な値をその場で知ることができるので、非常に便利である。例えば異常値を調べたいときに、その属性を見たい、といったときに有用である。以下でその使いかたの例を示す。 array1<-c(1,2,3,4,5) array2<-c(5,4,3,2,1) …

比をプロットする

[2007-05-19-87]で見たように一方が他方の何倍かになっている、と結論づけたいときがある。しかし、経験的分位点分位点プロットでは正確に分からない可能性がある。そこで、y/xをプロットさせることを考える。仮説が正しければy/xは定数cになるはずである。 …

差をプロットする

[2007-05-19-87]の経験的分位点分位点プロットはy=xからどれくらい乖離しているかを見ることができた。これはy=xから点までの垂直の距離と対応している。y-xをxに対してプロットすればこの差をよりはっきりと見ることが可能になる。傾向などを見たいときには…

複数の密度トレイス

密度トレイス - yasuhisa's blogで密度トレイスの説明をした。密度トレイスはひとつのデータセットだけでなく、複数のデータセットに対しても使用することが可能である。例えば以下のように使うことができる。 plot(density(ykrs.ozone,n=50,window="c",widt…

密度トレイス

密度トレイスとはヒストグラムは柱の数などで、大きく影響を受けてしまうのが欠点である。そこでヒストグラムの欠点を補ったものを考えることにする。それがここで書く密度トレイスというものである。密度トレイスというのは、ヒストグラムの各点に対し、レ…

データの対称性

社会工学で扱うようなデータは「中間くらいまでは対称性を持っていると言えそうだが、大きな値になると対称性を持っているとは言えない」というようなデータによく遭遇する(所得など)。このようなデータはよく右にテールが長いと言われる。これらの分布など…

バイモーダルな分布

バイモーダルな分布、とはヒストグラムや密度関数で山がふたつあるようなもののことである。これはいくつかの密度関数の混合である可能性が高い。このような場合は、なぜバイモーダルな分布ができたのかメカニズムを明らかにする必要がある。バイモーダルな…

異常値と域外値違い

異常値と域外値は基本的に違うものであるから違いを押さえておかねばならない。 域外値とは ボックスプロットで言えば、ウィスカー(ひげ)より外側にあるもの。域外値は異常値である可能性があるが、必ずしもそれであるとは言えない。 また、上のような理由で…

分位点プロット

一組のデータセットを扱うための手段である分位点プロットについて記述する。 定義 ある一組のデータセットが与えられたときに、そのデータを小さい順に並べて順序統計量を作る。そして、fraction of dataをx軸に、順序統計量をy軸に持っていったものが分位…

ノッチの付いたボックスプロット

ボックスプロットは非常に分かりやすいプロットであるため、使い易いツールである。しかし、medianが統計的に有意に違うかどうかなどを顧客に説明するには足りない部分がある。そこでボックスプロットを用いてmedianが統計的に有意に異なるかを調べるための…

経験的分位点分位点プロット(empirical quantile-quantile plot)

定義、使いかた、他のプロットとの違いについて。定義ふたつのデータセットを小さい順に一番目、二番めと並べていって、それを組にしてプロットしていったものである。ふたつの分布が同じかどうか調べるときによく用いられる。特徴分布が同じような感じなら…

プロットの三つの基準

データ解析をするときに考えるべき、三つの基準。誰が作っても同じになるか(作り方に恣意性が含まれる可能性はないか)全てのデータ点を表しているかプレゼンテーションクオリティは高いか(単に見やすいというだけでなく、顧客が説明しなくても理解できるか、…

Cpプロットを書くプログラムを出力させるPerlスクリプト

Cpプロットを書くときに、説明変数の数がおおくなってくると、計算しなければならないCp値の数がとんでもないことになってしまいます。説明変数の数が6つくらいでも57個くらいか。まだまだ、増えると手に負いきれなくなるのでプログラムを書いてどうにかしま…

第七章

データに関する分布の仮定を評価することに関して勉強。ようやく正規分布とか登場。 どうして正規分布と仮定することが多いのか? 平均と標準偏差を与えると話をすごく簡単にできるから。 仮定を設けることが統計的順序自体を導いてくれることにつながるから…

第六章

多次元データをプロットする仕方について。 離散的な散布図について 乱数を足し引きしていって分布を分かりやすくするようにする。 (乱数を足し引きするときに離散データが交わらないように注意すること。) 三次元を一度にプロットする仕方について。 散布…

第五章

二次元データのプロットに関する話。 散布図の重要性 散布図はすべての点を示してくれる点で非常に有用である。その散布図に以下にして分かりやすいようにしていくかがさらに重要なことになっていく。 数値に関する要約は不十分である。 データをごまかしや…

第四章

さまざまなプロットが出てくるがそれぞれの特徴、性質、顧客に説明することなどを押さえることが大切。 経験的分位点分位点プロット(empirical q-q plot):X軸Y軸にくるデータが本物のものでプロットしたもの。 ⇔理論的プロット(x、yのどちらかが理論に基…

第三章

グラフィックスを評価する基準 誰が作っても一緒になるか。 ヒストグラムなどは幅の大きさなどによってデータの本質が隠されてしまうことがある。) すべてのデータを表示しているか。 (域外値が異常値として取り除かれたりしている場合は問題が発生してく…

第二章

欠損値の扱いについて 欠損値とは値が入っていないデータのこと。 生産工程の実験で方法に依存しない原因で結果の一部が欠損した。 所得に関する質問で回答を拒むなど。(分散が小さくなるなどの問題点がある。) 極端な考えを持っている人は自分の意見を隠…

第一章

探索的データ解析とは 探索的データ解析とは計量経済学でのモデルをが正しいかを確かめるのとは違う。与えられたデータからどのような規則性などが見出せるかを探すのが探索的データ解析である。 ls()を入力するとアサインメントされているものを示す。 (こ…

データ解析まとめ

今学期は期末の間全然アウトプット出来ていなかったので、まとめてどっかんとやりたいと思います。例によって、ここに書いてあることをそのまま使って、何かが起こったとしても責任を持ちません。御注意ください。

データ解析のプレゼン&最終レポート終わったよ!!

いろんな意味で終わったよw、とかそういうオチではなく、無事に終わりました。いやー、よかたよかた。Twinsでの成績はまだ出ませんが、プレゼンの途中で先生に「A++」と言われたので成績はAくるでしょ。先生に握手求められちゃったぜ。一学期はこれだけで僕…

調整済み散布図

調整済み散布図では、まず、一つの説明変数がモデルに入ると仮定する。そして、横軸に新たにモデルに加えたい説明変数と既に入っている説明変数との残差を横軸に、価格とすでにモデルに組み込まれている説明変数との残差を縦軸に取り、散布図を描く。描いた…

一般化ドラフツマン表示

書き方は簡単。 pairs(cbind(log.mid.price,mid.displacement,mhw,mid.mpg))

データハンドリング

データ解析をするときに、何が一番困るってデータハンドリングだと思う*1。欠損があったときにどう処理しようかとか、行を追加したとか、そういうときの細々したところがさくさくできると、本題の解析に時間をかけるようになれていいかなと思ったので、書い…

重回帰分析のやり方

いろいろな方法があるが、それぞれ見ていくことにする。ここではlog.mid.priceをmhw(mid rangeのhorse.power)とmid rangeのdisplacementで回帰することとする。授業で習ったやり方授業で習ったやり方はこんな感じ。cbindはベクトルを束ねて、行列にするよう…

プレゼン&最終レポートの流れ

これでやればいいってわけでもないとは思うけど、一つの例として。データハンドリング 従属変数の正規性 線形回帰モデルの仮定として、従属変数は正規分布をしているという仮定を置いているので、従属変数が正規分布に従っているかを見てみる必要性がある。…

データ解析を受けて思ってること

データ解析&自動車産業 今学期の授業の中で最難関であろうデータ解析が(一個目くらいの)山をむかえてきました。で、そんな中思うのですが、統計とかRの使いかたとかそういうのはある意味できて当たり前なんだよな。そういうの専攻しにきてるわけだし*1。そ…