2007-07-02から1日間の記事一覧

欠損値の処理の仕方

R

なぜ書いてないのか分からないけど。is.naを使って処理しよう。 price.test<-price[!is.na(mpg.with.missing)] あとは&を使ったりして、どうにかできる。と、このままで放置しとくと初心者の人から反感くらいそうなので、もう少し丁寧に載せとこ。例えば、こ…

単純散布図で気をつけるべきこと

データ解析のレポートを出すときには必ず見直すこと。重回帰において、説明変数を複数使う場合、説明変数に強い相関がある場合は、応答変数と説明変数の単純散布図から回帰の係数情報を読み取ることはできない!!なぜならば、反例があるからである。以下のよ…

決定係数

説明変数の数を増やすと決定係数は上昇する(正確にいうならば減ることはない、だろうか)。なぜならば、増やした説明変数の係数を0としてしまえば前と同じなのだから。それを変えてよくなるのならば、決定係数は上がるしかない(上がらないなら0にするので)。

標準偏差の意味

回帰分析とかをやるときにXを使って、回帰直線なり曲線なりを出す。しかし、サンプルから取ってきたものはもういっかい取ってくれば別の点に動いて、回帰したものも変わってしまうかもしれない。ならば、Xは分布するものとしてとらえることにしよう。そのど…

t-valueについて

回帰の係数が有意かどうかを調べるときに。回帰をした係数のt-valueの値の絶対値が2より大きいならば、採用1と2の間なら、どうするか考える。1より小さいならば、不採用という風に考える。また、t-valueはestimate/std.errで出るものである。報告するときはe…

u(ミュー)の推定

Xの95%推定区間を100個取ってきたら、そのうち95個はuに触れる。母集団の数を増やしてnを無限大に近付けてやればuは一点に定まるのではないかという考え方。

車のデータについて学ぶ

データ解析をする上で、実際の市場や商品について知ることはある意味、解析の仕方を学ぶより重要である。ということで、車の特徴などについてメモしていくか。価格今回のデータについては価格の上限と下限が与えられている。回帰分析をするうえでこれらをど…

理論的分位点分位点プロット

3章で扱ったのは経験的分位点分位点プロット、すなわちあるデータとデータの分布が等しいものだった。しかし、論理的分位点分位点プロットはそうではない。実際のデータがある理論的な分布に従うかどうかを調べるものである。具体的には標準正規分布に従うか…

試験で使う関数について

試験ではplot.strip.n.medianやplot.strip.n.boxplotsなどを使う。このplotは普通の人には説明なしでは使ってはならない図であるから、説明のしかたを考えておかねばならない。これらはデータの数をほぼ同数にして、そのなかで、medianを取ったり、 boxplot…

散布図について

散布図には主に二つのパターンがある。まず、一つ目は説明変数と従属変数の関係になっている場合。この場合、2次元のデータという。二つ目はxとyが交換可能な場合である。この場合、2組のデータセットという。経験的分位点分位点プロットなどで分布が同じか…

分散の不均一性について

分散の不均一性とは、xが増えるにつれて、yの分散が大きくなってしまうこと。回帰分析をした結果、説明変数が従属変数をよく説明しているのならば、従属変数の残差の分散は(回帰の仮定より)一定になるはずである。モデルがいいものであるかどうかを判断する…

平滑化について

平滑化の基本的なアイデア、説明すべきことなどを記述していく。まず、なぜ平滑化が必要なのかを説明する。よくある考え方として直線回帰がある。しかし、現実の問題として直線でちょうど回帰できないものも存在する。例えば、ハムスターの睡眠時間と寿命の…

identifyの使いかた

identify関数はプロットしたものの具体的な値をその場で知ることができるので、非常に便利である。例えば異常値を調べたいときに、その属性を見たい、といったときに有用である。以下でその使いかたの例を示す。 array1<-c(1,2,3,4,5) array2<-c(5,4,3,2,1) …

比をプロットする

[2007-05-19-87]で見たように一方が他方の何倍かになっている、と結論づけたいときがある。しかし、経験的分位点分位点プロットでは正確に分からない可能性がある。そこで、y/xをプロットさせることを考える。仮説が正しければy/xは定数cになるはずである。 …

差をプロットする

[2007-05-19-87]の経験的分位点分位点プロットはy=xからどれくらい乖離しているかを見ることができた。これはy=xから点までの垂直の距離と対応している。y-xをxに対してプロットすればこの差をよりはっきりと見ることが可能になる。傾向などを見たいときには…

複数の密度トレイス

密度トレイス - yasuhisa's blogで密度トレイスの説明をした。密度トレイスはひとつのデータセットだけでなく、複数のデータセットに対しても使用することが可能である。例えば以下のように使うことができる。 plot(density(ykrs.ozone,n=50,window="c",widt…

密度トレイス

密度トレイスとはヒストグラムは柱の数などで、大きく影響を受けてしまうのが欠点である。そこでヒストグラムの欠点を補ったものを考えることにする。それがここで書く密度トレイスというものである。密度トレイスというのは、ヒストグラムの各点に対し、レ…

データの対称性

社会工学で扱うようなデータは「中間くらいまでは対称性を持っていると言えそうだが、大きな値になると対称性を持っているとは言えない」というようなデータによく遭遇する(所得など)。このようなデータはよく右にテールが長いと言われる。これらの分布など…

バイモーダルな分布

バイモーダルな分布、とはヒストグラムや密度関数で山がふたつあるようなもののことである。これはいくつかの密度関数の混合である可能性が高い。このような場合は、なぜバイモーダルな分布ができたのかメカニズムを明らかにする必要がある。バイモーダルな…

異常値と域外値違い

異常値と域外値は基本的に違うものであるから違いを押さえておかねばならない。 域外値とは ボックスプロットで言えば、ウィスカー(ひげ)より外側にあるもの。域外値は異常値である可能性があるが、必ずしもそれであるとは言えない。 また、上のような理由で…

分位点プロット

一組のデータセットを扱うための手段である分位点プロットについて記述する。 定義 ある一組のデータセットが与えられたときに、そのデータを小さい順に並べて順序統計量を作る。そして、fraction of dataをx軸に、順序統計量をy軸に持っていったものが分位…

ノッチの付いたボックスプロット

ボックスプロットは非常に分かりやすいプロットであるため、使い易いツールである。しかし、medianが統計的に有意に違うかどうかなどを顧客に説明するには足りない部分がある。そこでボックスプロットを用いてmedianが統計的に有意に異なるかを調べるための…

経験的分位点分位点プロット(empirical quantile-quantile plot)

定義、使いかた、他のプロットとの違いについて。定義ふたつのデータセットを小さい順に一番目、二番めと並べていって、それを組にしてプロットしていったものである。ふたつの分布が同じかどうか調べるときによく用いられる。特徴分布が同じような感じなら…

プロットの三つの基準

データ解析をするときに考えるべき、三つの基準。誰が作っても同じになるか(作り方に恣意性が含まれる可能性はないか)全てのデータ点を表しているかプレゼンテーションクオリティは高いか(単に見やすいというだけでなく、顧客が説明しなくても理解できるか、…

Cpプロットを書くプログラムを出力させるPerlスクリプト

Cpプロットを書くときに、説明変数の数がおおくなってくると、計算しなければならないCp値の数がとんでもないことになってしまいます。説明変数の数が6つくらいでも57個くらいか。まだまだ、増えると手に負いきれなくなるのでプログラムを書いてどうにかしま…

第七章

データに関する分布の仮定を評価することに関して勉強。ようやく正規分布とか登場。 どうして正規分布と仮定することが多いのか? 平均と標準偏差を与えると話をすごく簡単にできるから。 仮定を設けることが統計的順序自体を導いてくれることにつながるから…

第六章

多次元データをプロットする仕方について。 離散的な散布図について 乱数を足し引きしていって分布を分かりやすくするようにする。 (乱数を足し引きするときに離散データが交わらないように注意すること。) 三次元を一度にプロットする仕方について。 散布…

第五章

二次元データのプロットに関する話。 散布図の重要性 散布図はすべての点を示してくれる点で非常に有用である。その散布図に以下にして分かりやすいようにしていくかがさらに重要なことになっていく。 数値に関する要約は不十分である。 データをごまかしや…

第四章

さまざまなプロットが出てくるがそれぞれの特徴、性質、顧客に説明することなどを押さえることが大切。 経験的分位点分位点プロット(empirical q-q plot):X軸Y軸にくるデータが本物のものでプロットしたもの。 ⇔理論的プロット(x、yのどちらかが理論に基…

第三章

グラフィックスを評価する基準 誰が作っても一緒になるか。 ヒストグラムなどは幅の大きさなどによってデータの本質が隠されてしまうことがある。) すべてのデータを表示しているか。 (域外値が異常値として取り除かれたりしている場合は問題が発生してく…