- @ThothChildren
- 2018.1.10
- PV 104
k-means++
ー 概要 ー
k-meansを改良した非階層型クラスタリング手法。k-meansで課題だった初期値の決め方に関して、初めに適切な初期値の選び方をすることによって改善。
この章を学ぶ前に必要な知識
条件
- クラスタ数kをあらかじめ決めておく
効果
- kmeans法で初期値依存になる問題を改善
- 収束が早くなり速度も全体として改善
ポイント
- 初期値の決め方に工夫があり、kmeansより初期値決定に時間がかかる
解 説
kmeans++はkmeans法で課題だった初期値依存問題を解決した非階層型クラスタリング手法の一つ。 | kmeans++とは |
kmeans法とは、クラスタ初期値の決め方が異なる
kmeans法
クラスタの初期値はランダムに選択する
kmeans++
クラスタの初期値は距離に応じた確率の重みに基づいてランダムに選択する。
遠いデータ点ほどクラスタの初期値に選択されやすい。
初期値の決定に時間がかかるようになったが、
比較的よいクラスタ初期値を得られるのでその後のクラスタリングで収束が早い。 | kmeans法 |
KKZとも異なるのは初期値クラスタ中心の求め方のみである。
KKZ
最も離れたデータ点を次のクラスタ中心に採用.
しかし、外れ値で遠くなってしまったデータなどに引っ張られやすい。
kmeansにおいてそれらは確率的に選ばれにくいため、外れ値に対して強くなる。 | KKZ |
この章を学んで新たに学べる
Comments