車のデータについて学ぶ

データ解析をする上で、実際の市場や商品について知ることはある意味、解析の仕方を学ぶより重要である。ということで、車の特徴などについてメモしていくか。

価格

今回のデータについては価格の上限と下限が与えられている。回帰分析をするうえでこれらをどう使うかが重要である。先生が二つのアプローチの仕方を説明していた。どちらをとってもいいが、それらを使うことで生まれるメリット、デメリットを把握しておくことが重要である。

一つ目のアプローチの方法。価格の下限を使う方法。メリットは回帰分析をするときのバラエアティが少なくなるというメリットがある。しかし、実際のディーラーは最低価格の車を扱うともうけが少なくなるので、最低価格のものをそのままおいておくということは考えがたいということになる。その点がデメリットである。

二つ目のアプローチの方法は上限と下限の値の間を取るという方法である。この間のことをmidrangeと呼ぶ。これが平均と違うということを抑えておくことが重要である(すべての車の価格を調べたわけではないので、平均ではない。上限と下限の平均ではあるが)。midrangeを使うメリットは、 midrangeである車は多くの人が手に入れられる車と見なすことができる。これは価格の下限を使うことではできなかった点である。しかし、ちょうど midrangeの価格で売っている車というのは少ない。これがデメリットである。

Reliability

Reliabilityが高いということはある程度価格が高くても売れるという指標となる。どういうことかと言えば、壊れる可能性が低く、保有コストが低いからということである。

Body Style

SUVは石油の価格の上昇の影響を受けて、苦しくなっていることを考慮にいれながら解析をするようにする。

Drive

  • AWD
    • 値段が一番高い。
  • 4WD
    • 2番目に価格が高い。

part-time:安全性の面であまりよくないらしいので、あまり高くないようである。
また、Driveにはfrontやrearのようなものがあるが、これらはあまり価格に影響を与えないようである。

Displacement

排気量のこと。これにも二つ程選択肢があるようだ。しかし、その選択の仕方は価格の時の選択にあわせないといけない。最低価格やmidrangeのどちらを使っているかによって、displacementの上限と下限のどちらを使ったかを書かなければならない。レポートのときとかはこれが必須。

Transmission

4AT:アメリカで普通の車。この数字が上がるにつれて、価格が上がる傾向があるようだ(減速や加速の仕方がスムーズなようだ)。この数字がいくつかあるような場合には下のほうにあわせて考えておいたほうがよい。
CVT:小さい車によく使われる。

MPG

重さにすごく影響を受けている。あまりに重い車は、燃費のよくしようがない。燃費のところで注意すべきはプリウスなどのハイブリッドカーの存在のこと。これらは燃費が普通の傾向に従わないために、普通に解析を進めていくと異常値のようになってしまう。なので、ハイブリットカーにはフラグをつけて、取り除いたほうがよい(種類がハイブリッドのみの話。いくつか種類があって、そのなかにハイブリッドが含まれるというものの場合、その車も解析には含めておく)。

ハイブリッドの車はトヨタのプリウス、ハイランダー、カムリー、FordのEscape、ホンダのAccord、Civicというものがある。