- @ThothChildren
- 2019.1.29
- PV 638
ROC曲線
ー 概要 ー
ROC曲線(受信者操作特性, Receiver Operating Characteristic)は、2クラスの分類の評価指標を与える曲線.もともとは信号処理の分野において用いられていたものだが、他分野でも使用されている.ある閾値を変えていく過程で再現率を縦軸、偽陽性率を横軸にプロットしたグラフ.曲線の下側の面積をAUC(Area Under Curve)と呼び、1に近いほどよく、曲線は左上に張り付いている方がよい.
この章を学ぶ前に必要な知識
条件
- 2クラスの分類の評価指標
効果
- 分類器の性能を示す
ポイント
- もともとは信号処理の分野の技術
- ある閾値を変えていく過程で再現率を縦軸、偽陽性率を横軸にプロットしたグラフ
- 曲線の下側の面積をAUC(Area Under Curve)と呼び、1に近いほどよく、そのとき曲線は左上に張り付く
解 説
ROC曲線(受信者操作特性, Receiver Operating Characteristic)は、2クラスの分類の評価指標を与える曲線.もともとは信号処理の分野において用いられていたものだが、他分野でも使用されている.ある閾値を変えていく過程で再現率を縦軸、偽陽性率を横軸にプロットしたグラフとなっている.
曲線の下側の面積をAUC(Area Under Curve)と呼び、1に近いほどよく、曲線は左上に張り付いている方がよい. | ROC曲線とは |
初めにROC曲線の簡単な読み方について解説します.
背景
多数のデータがあって、そのデータそれぞれが二つのクラスNegativeクラスとPositiveクラスのどちらかに属するとします.
ある学習器がデータを受け取ってどれだけPositiveクラスっぽいか(Negativeクラスっぽい)を示す値を出力します.
あとは人間で出力された値のうち、どこからどこをPositiveクラスと判定してそれ以外をNegativeクラスとするかの閾値を決めます. | ROC曲線の簡単な読み方 |
データを学習器に与えると
そのクラスっぽさを与える出力値を与えるものとします.
閾値より右側ならPositive Classと判定
閾値より左側ならNegative Classと判定します. | |
ROC曲線は、上記のような背景をもとに、
閾値を動かしてどのように
・真陽性率(再現率:Positiveデータのうち正しくPositiveと答えられた割合)
・偽陽性率(Negativeデータのうち誤ってPositiveと答えた割合)
が変化したかをプロットしています.
例えば、上記の図で閾値を右端から少しずつ左にずらしていくと、
1. 初めは真陽性率は0,偽陽性率も0
2. NegativeClassの分布の裾野に閾値が当たるまでは、真陽性率は上がっていき、偽陽性率は0のまま
3. PositiveClassの分布の裾野を抜けるまでは、真陽性率は1になるまで上がっていき、偽陽性率も上がっていきます.
4. 最後に閾値がNegative Classの分布の左端につけば、真陽性率、偽陽性率ともに1となります.
分類器が出力したNegativeClassっぽさとPositiveClassっぽさが適切であれば、
分布は交わることがないため、2と3の過程がなくなります.
プロットしたグラフは左上に線が張り付くようになるはずです.
その線とx軸とで囲む領域を先ほど述べたようにAUCと呼びます. | ROC曲線の作り方見方 |
各段階とROC曲線での対応関係
閾値を動かしたときの段階的な違いを描画しています. | |
2と3の過程がほぼなくなった
性能のよい分類器の場合 |
この章を学んで新たに学べる
Comments