<<展開

PR曲線

概要

PR曲線(Precision-Recall Curve)は、2クラスの分類の評価指標を与える曲線で、精度(Precision)と再現率(Recall)を軸にプロットしたグラフ.理想的な状態は右上に曲線が張り付く状態.大方ROC曲線と同じだが、ROC曲線より注目データに偏りがあって少ないデータしかないクラスがあるときに有用.
Facebookシェア Twitterツイート LINEで送る このエントリーをはてなブックマークに追加
この章を学ぶ前に必要な知識
1
条件
  • ニクラスの性能評価
  • 偽を偽と推定できることが大事でないとき、クラスデータの数に偏りがあるとき
効果
  • 学習器の性能を可視化することができる
  • 精度と再現度を軸にプロット.右上にプロット線が張り付けばよい学習器
  • ROCと同様にArea Under Curveの曲線の囲む面積は識別器の性能の要約となる
ポイント
  • ROC曲線と近しいが、クラスのデータ数に偏りがあり少ないクラスがあるときにより有用

解 説

PR曲線(Precision-Recall Curve)は、2クラスの分類の評価指標を与える曲線で、精度(Precision)と再現率(Recall)を軸にプロットしたグラフ.理想的な状態は右上に曲線が張り付く状態.大方ROC曲線と同じだが、ROC曲線より注目データに偏りがあって少ないデータしかないクラスがあるときに有用. 以下ではPositiveクラス(正)とNegativeクラス(負)のニクラスに分類することを想定する. ・精度(Precision): Positiveクラスと予測したもののうち実際にPositiveクラスだった割合 ・再現率 (Recall): Positiveクラスのデータのうち、Positiveクラスと予測できた割合
PR曲線(Precision-Recall Curve)とは
PR曲線の概要
上記のようにROC曲線と比べて、 ・imbalanced(データの数が不均衡な)データセットに向いていると 言われる. また、PR曲線はNegativeクラスに関する統計量(True Negative等)をプロットしないため、Positiveクラスの結果に興味があるだけの場合もPR曲線が選ばれうる. ROC曲線の真陽性率と偽陽性率はどちらも分母が訓練データのクラスを元にしたデータの母数を元に計算している.一方でPR曲線の精度(Precision)に関しては学習器がPositiveクラスとしたものを母数として計算しているため、与えられるデータセットによって値にばらつきが出やすいとされる.
この章を学んで新たに学べる
Comments

Reasons
>>隠す

知識: ROC曲線
ROC曲線(受信者操作特性, Receiver Operating Characteristic)は、2クラスの分類の評価指標を与える曲線.もともとは信号処理の分野において用いられていたものだが、他分野でも使用されている.ある閾値を変えていく過程で再現率を縦軸、偽陽性率を横軸にプロットしたグラフ.曲線の下側の面積をAUC(Area Under Curve)と呼び、1に近いほどよく、曲線は左上に張り付いている方がよい.