探索的データ解析とは
探索的データ解析とは計量経済学でのモデルをが正しいかを確かめるのとは違う。与えられたデータからどのような規則性などが見出せるかを探すのが探索的データ解析である。
ls()を入力するとアサインメントされているものを示す。
(これを頻繁に使ってちゃんと代入されているかを確認する癖をつけておくといい。)
c関数について
引数をまとめてオブジェクトを生成する。
x<-c(13.2,33.3,12.4)
と入力したとする。
そうすると引数をベクトルとして扱うことができる。
これを利用して変数にデータを配列のように代入することができる。
murder<c-(13.4,13.5,15.6)
と入力したとする。
するとmurderという変数には3つの数字が入った変数として扱うことができるようになる。「<-」の記号は代入を意味する。
統計量を計算する時によく使う関数
- mean(x):平均
- range(x):範囲を調べる最小値と最大値を返してくる
- lsfit(x,y):回帰分析を行うためのもの
変換を行うものとしてよく使う関数
sin(x),log(x),sqrt(x)
データを加工するものとしてよく使うもの
- sort(x):データを小さい順に並び替えてくれるメソッド。
- unique(x):引数にあたえられたものから、かぶっているのを取り除く。
特定の計算を行うもの
stem(x)簡単なヒスとグラムを表記する時に使うらしい。ヒストグラムの高さとして使われているのは小数点以下(?)の数字。(積み重なっている数字が小さい順になっている付近から想像できるはず。
データの抽出
- murder[1:3]
murderというオブジェクトから最初の三つを取り出す操作。
- murder[murder>12]
murderのオブジェクトから12以上のものを取り出す。
- states[murder>12]
謀殺率が12より高いstatesの名前を表示する。
- illit[states=="CA"]
カリフォルニアの文盲率を表示する。
- murder[-1]
一番目のデータおをのぞいてすべて表示することができる。
- which<-(1:10)[murder>12]
1から10番目のmurderの値の中で高率なものを表示する。これの問題点''→データの長さを知ってないと使えない。lenght(murder)を使うとその辺をうまく処理することができる。
グラフィックス
plot(illit,murder)
二次元平面でグラフを出力することができる。
(x,y)という感じで出力することを覚えておく。
lines(lowess(lottery.number,lottery.payoff,f=.2))
lowessは平滑化をあらわす。平滑化というのは全体のパターンに従うような中心線と思っておけばよい。lowessの第三引数はどれくらい局所的に見るかを表すもの。大きいほどグローバルに見る。