画像内の複数物体の位置と種類を認識

概要

画像内の複数物体の位置と種類を推定、計算するアルゴリズムについてまとめます。近年はDeepLearningによる検出が高い精度を出せています。
Facebookシェア Twitterツイート LINEで送る このエントリーをはてなブックマークに追加
この章を学ぶ前に必要な知識
0
条件
  • 画像を入力とする
効果
  • 画像に映る複数物体の位置と種類と外接矩形を推定できる
ポイント
  • 複数物体の一般物体認識はDeepLearningを用いる

解 説

近年はDeepLearningによって複数一般物体の認識が精度をあげています。 ここにまとめるタスクは、以下を検出するものとします。 ・外接矩形 ・位置(外接矩形の中心) ・物体の種類(人とか猫とか)
導入
余談ですが、画像内の各領域がどの物体に属しているかを塗り分ける領域分割も似たようなことを実現するかもしれません。

1.既存の画像処理技術による検出

高い精度を実現している従来の画像処理技術で目立ったものはない。 DeepLearning前において一つ画像から単一の対象のクラスを認識するのがせいぜい。
従来の画像処理技術について

2.DeepLearningによる検出

矩形とその種類を認識する研究はDeepLearningで多くの形で行われてきました。 以下に発表順に技術を列挙していきます。基本的に後半にいくにつれて、高速に精度よくなっていきます。 R-CNN Fast R-CNN Faster R-CNN YOLO(You look only once) SSD(Single Shot Multibox Detector) YOLOV2
DeepLearningによる手法
ここではYOLOとSSDに関して簡単にまとめます。
有名どころ
YOLOはそれまで複数の学習器を用意して行う必要があった学習を一つにし、高い精度を保ったまま高速に検出することができます。 結果には外接矩形と位置とクラスを得ることができます。 以下に実際のデモ動画へのリンクを貼っておきます。
Single Shot Multibox Detectorも同様に一つの学習器で物体の位置とクラスを推定することができる技術。複数の物体のスケールに対応するため、若干学習器のモデルは複雑になっている。YOLOよりは高速とされている。
この章を学んで新たに学べる
Comments

Reasons
>>隠す