ROC曲線

概要

ROC曲線(受信者操作特性, Receiver Operating Characteristic)は、2クラスの分類の評価指標を与える曲線.もともとは信号処理の分野において用いられていたものだが、他分野でも使用されている.ある閾値を変えていく過程で再現率を縦軸、偽陽性率を横軸にプロットしたグラフ.曲線の下側の面積をAUC(Area Under Curve)と呼び、1に近いほどよく、曲線は左上に張り付いている方がよい.
Facebookシェア Twitterツイート LINEで送る このエントリーをはてなブックマークに追加
この章を学ぶ前に必要な知識
0
条件
  • 2クラスの分類の評価指標
効果
  • 分類器の性能を示す
ポイント
  • もともとは信号処理の分野の技術
  • ある閾値を変えていく過程で再現率を縦軸、偽陽性率を横軸にプロットしたグラフ
  • 曲線の下側の面積をAUC(Area Under Curve)と呼び、1に近いほどよく、そのとき曲線は左上に張り付く

解 説

ROC曲線(受信者操作特性, Receiver Operating Characteristic)は、2クラスの分類の評価指標を与える曲線.もともとは信号処理の分野において用いられていたものだが、他分野でも使用されている.ある閾値を変えていく過程で再現率を縦軸、偽陽性率を横軸にプロットしたグラフとなっている. 曲線の下側の面積をAUC(Area Under Curve)と呼び、1に近いほどよく、曲線は左上に張り付いている方がよい.
ROC曲線とは
初めにROC曲線の簡単な読み方について解説します. 背景 多数のデータがあって、そのデータそれぞれが二つのクラスNegativeクラスとPositiveクラスのどちらかに属するとします. ある学習器がデータを受け取ってどれだけPositiveクラスっぽいか(Negativeクラスっぽい)を示す値を出力します. あとは人間で出力された値のうち、どこからどこをPositiveクラスと判定してそれ以外をNegativeクラスとするかの閾値を決めます.
ROC曲線の簡単な読み方
データを学習器に与えると そのクラスっぽさを与える出力値を与えるものとします. 閾値より右側ならPositive Classと判定 閾値より左側ならNegative Classと判定します.
ROC曲線は、上記のような背景をもとに、 閾値を動かしてどのように ・真陽性率(再現率:Positiveデータのうち正しくPositiveと答えられた割合) ・偽陽性率(Negativeデータのうち誤ってPositiveと答えた割合) が変化したかをプロットしています. 例えば、上記の図で閾値を右端から少しずつ左にずらしていくと、 1. 初めは真陽性率は0,偽陽性率も0 2. NegativeClassの分布の裾野に閾値が当たるまでは、真陽性率は上がっていき、偽陽性率は0のまま 3. PositiveClassの分布の裾野を抜けるまでは、真陽性率は1になるまで上がっていき、偽陽性率も上がっていきます. 4. 最後に閾値がNegative Classの分布の左端につけば、真陽性率、偽陽性率ともに1となります. 分類器が出力したNegativeClassっぽさとPositiveClassっぽさが適切であれば、 分布は交わることがないため、2と3の過程がなくなります. プロットしたグラフは左上に線が張り付くようになるはずです. その線とx軸とで囲む領域を先ほど述べたようにAUCと呼びます.
ROC曲線の作り方見方
各段階とROC曲線での対応関係 閾値を動かしたときの段階的な違いを描画しています.
2と3の過程がほぼなくなった 性能のよい分類器の場合
この章を学んで新たに学べる
Comments

Reasons
>>隠す