麻布十番で働くデータ分析者のブログ

グロースハック、プログラミング、データ分析の色々を発信します

「それ、根拠あるの?と言わせないデータ・統計分析ができる本」で学んだこと

f:id:nimi0370376:20180101013642p:plain

 

あけましておめでとうございます!

2018年もよろしくお願いします!

 

年末年始は空き時間に本を読んでいまして、ちょうど読み終わった本があったのでメモがてら残しておきます。

現在Rettyでデータ分析をしているのですが、そのデータ分析の入門書のようなものを借りていました。学んだことをいくつかシェアします!

 

 

 

 

 

それ、根拠あるの?と言わせないデータ・統計分析ができる本とは

まず本についての紹介です。

「それ、根拠あるの?と言わせないデータ・統計分析ができる本」は、データ分析をしていく上で必要最低限の知識と考え方を学べる本です。

内容は超入門者向けと言えるもので、出てくる数式も中学レベルのものに落ち着いています。

 

しかし、端的に重要なことが書かれており、非常に勉強になりました。年末のデータ分析と本書で学んだことを元旦にまとめておきます。

 

平均、中央値、分散、標準偏差について

平均値はデータを代表する値か?

データ分析や統計でよく聞かれる名前の一つに「平均」があります。

平均は、バラバラなデータをまとめるのに非常に役立ちます。

 

ただしこの平均値が全体を代表しているとは限りません。平均の特徴を頭に入れておきましょう。

  1. 平均はデータ全体の真ん中にあるとは限らない
  2. 平均の周りに最も多くのデータが存在するとは限らない

 

もしデータ全体の真ん中の値が知りたい場合は「中央値」を使います。また、中央値と平均値の乖離が少ない場合には外れ値が少ないことになります。

外れ値を排除する必要があるかどうかの判断にも使えるかもしれません。

 

各値がどれくらい平均から離れているか

データが平均からどれくらい離れているか、つまりどれくらい分散しているか知りたい場合があります。

その時は分散と呼ばれるものを使います。

f:id:nimi0370376:20180101013642p:plain

分散が2乗担っているのは計算上の問題のようです。各データごとに平均からどれくらい外れているのを知りたい場合に偏差と呼ばれるものを使います。

偏差は上記の式の

f:id:nimi0370376:20180101013907p:plain

 

の部分です。

ただし、プラスとマイナスが出た場合に平均からの距離の総和にならないのです。なので2乗して距離がマイナスにならないようにしています。

またこれにルートをつけたものが標準偏差です。標準偏差と分散はどちらも基本的にデータのばらつきの値を示していると言って大丈夫なようです。

 

ヒストグラムでばらつきを可視化

分散や標準偏差を使う他にもヒストグラムを利用してデータのばらつきを可視化する方法があります。

ヒストグラムを作る際に階級といって、どれくらいのレンジで分けていくかを決める作業が生じます。

その時に階級をどのように計算するか、下記の3つが使えそうです。

  1. 分割数 = √(データの数)
  2. 分割数 = 1+ log(データの数) / log (2)
  3. 常に10分割

これはどれが正解というわけでなく、あくまで一つの指標となります。また元データをみてどれくらいで分割するかを考えてみるのも有効な手段と言えそうです。

 

標準偏差STDEVP関数とSTDEV関数の違い

Excelやspread sheetで標準偏差を出そうと思った時に、stdevp関数とstdev関数があることが明らかになります。

 

stdevp関数は母集団全てを対象に分析する際に利用し、stdev関数はサンプルを元に分析する場合に使い分けます。

相関係数と回帰分析について

相関係数を扱う際に注意点について

2つの対応するデータを分析する際に相関係数を出す場合があります。しかし出した相関係数が本当に有効かどうかは吟味する必要があるようです。

(1)単なるデータの偶然

例えば、1週間下落し続けた株価と、冬に向かって下がり続けた気温の間には強い相関係数が得られるかもしれません。ただしこれは直接的な相関ではなく、偶然の場合があります。

自分の分析しようとしてる関係性が対応しているかどうかは十分に考慮する必要があるようです。

 

(2)単に"関連"のあるデータの組み合わせ

身長と体重、年齢と足の大きさなど当たり前の相関が導き出せる可能性があります。

 

(3)疑似相関

本当は、2種類のデータの間に直接の相関係数がないにも関わらず、そのほかの要因が影響して、計算上相関があるように見える場合です。

例えば、年収と起床時間に正の相関があった場合です。一見新たな発見のように思えますが、年齢が高くなるにつれ年収が高くなり、年齢が高くなるにつれ平均睡眠時間が短くなっているだけかもしれません。

 

このように様々な要因を疑うことが重要なようです。

(4)因果関係の有無

相関があったも因果関係があるとは限りません。例えば地球温暖化とCo2排出量の相関です。2つの値には相関があっても直接の因果があるかどうかは明らかにされていません。

 

時間的な前後関係が成り立っているか、一般的に考えて問題ない因果か、自分のとっているデータが自体が特殊でないかどうかなどを疑ってみましょう。

 

(5)原因を1つだけと決めてしまうリスク

例えば商品の値段と売り上げの相関です。これは一見値段が安いほうが売れるように思えますが、そこにはブランドや接客なども要因として含まれていることに注意しなければなりません。

 

(6)データの期間

自分のとっているデータが母体全体を扱っているのか、一部分を切り取っているかでも結果が変わる可能性があります。

季節性はないか、ほかの要因がないかなどを話し合った上で結論と分析を決めていきましょう。

 

回帰分析でより具体的な施策に落とし込む

相関係数で正の相関や負の相関がみられた場合には散布図に起こしてみましょう。

散布図に起こす理由は主に下記の2つです。

  1. 散布図から外れ値を探す
  2. 単回帰分析を行う

特に2つ目の単回帰分析を行う場合には散布図は必要不可欠です。

回帰分析はデータのばらつきを1つの直線で表します。

 

f:id:nimi0370376:20180101020742j:plain

ちなみに各データと直線がどれくらいが離れているか表す値としてR2乗値と言います。

これは相関係数を2乗したときの値です。R2乗値が0.5以上だと単回帰分析の式や直線が有効とみなせそうです。

 

単回帰分析の利点は、一次方程式になったことで、目標(Y)からの逆算がしやすくなったことやX = 0の時のシミュレーションができることです。

 

相関がみられたデータは積極的に単回帰分析を行い、施策を数字ベースで落とし込むのが良さそうです。

 

 

2018年はもっと色々な分析方法を勉強したい

ということで、上記が本に書いてあった分析やポイントになります。2018年はもっと様々な分析方法を学びたいと思っています。例えばロジスティック回帰分析などです。

 

また、RettyではBig Queryを使ってデータの取り出しを行なっています。SQL関連の技術発信やT検定を使った外れ値の排除方法などを近日中にまとめたいと思います。

 

今年もよろしくお願いします!