- @ThothChildren
- 2018.5.26
- PV 118
データの広がりの特徴を知りたい
ー 概要 ー
データ全体のひろがりがどれくらいなのかを知りたいときに使用することができる技術についてまとめます.分散や偏差など有名な特徴量について簡単に記述しています.
この章を学ぶ前に必要な知識
条件
- 複数のデータを持つデータ列
効果
- データの広がり具合の指標を持つ
解 説
データの広がりを示す指標には分散や偏差などの値があります.
これらには幾らかの指標がありますが、計算のしやすさなどを考慮してやはり標準偏差が頻繁に使われます.ただもちろん見たい目的によって当然特徴量は切り替えて行くべきですので、他の指標を使わないわけではありません. | データの広がりの特徴を知りたい |
ではどのような特徴量があるのか記述していきます.
レンジ (Range)
最大値-最小値によって求められる値.ノイズに弱いため基本的には使用されない.
四分位範囲(Interquartile range, IQR)
上下25パーセントを使用しないで求めるレンジ.こちらはノイズに強くよく使用される.またこの範囲を元に外れ値を推定できる.
標準偏差
各データの平均との差分の二乗を足し合わせて平方根を取った値.数学的にも扱いやすく、二乗しているため広く広がっている値があるとそれにより値も大きくなりやすい.二乗したままでは元のデータから単位が変わってしまうが平方根を取ることで単位が揃うようになっている.
平均絶対偏差(平均偏差)
全ての平均値の各データの差分を足し合わせて平均したもの.こちらは分布の広がり具合に関してあまり情報を得られないため使用されにくい.
中央絶対偏差
データの中央値から各データとの差分の中央値を取ったもの.標準偏差をとる場合は全ての値を考慮したい場合で、中央絶対偏差の場合は外れ値を考慮せずに広がり具合を考慮したいときに使用する. | データの広がりの特徴量の一覧 |
この章を学んで新たに学べる
Comments