DeepLearningによる画像解析
概要
http://www.image-net.org/challenges/LSVRC/ http://www.image-net.org/challenges/LSVRC/2012/
@yutakikuchi_です。 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)はImageNetが毎年主催するコンピュータを利用した画像解析による物体認識・検出のコンペ。2012年にDeepLearningの手法が登場し、物体認識・検出の技術として3位以降のMachineLearningチームとError率で圧倒的な差をつけて優勝したことから注目を集めた。DeepLearningによる画像解析タスクといっても目的が複数存在するため、言葉の定義を下記にまとめる。
- 物体認識(Object Recognition・Classification) : 1枚ずつの画像毎に何の物体であるかを認識する。(1枚の画像に対して1つの物体のラベルを付与する。)
- 物体位置特定(Object Localization) : 1枚の画像の中に物体が何処に映っているかの領域を認識する。
- 物体検出(Object Detection) : 1枚の画像の中に何が何処に映っているかを検出する。(1枚の画像に対して複数の物体のラベルと領域を認識する。)
- セグメンテーション(Segmentation) : 1枚の画像の中に何が何処に映っているかをピクセル単位で分離する。
Object Recognition: which object is depicted in the image?
Object detection: where is this object in the image?Ref : image processing - Object detection versus object recognition - Signal Processing Stack Exchange
画像解析アルゴリズム
DeepLearningの画像解析アルゴリズムは目的により多数あり、それぞれで使用目的が異なる。
- 物体認識(Object Recognition・Classification)
- VGG(Visual Geometry Group : team)
- Visual Geometry Group - University of Oxford
- 畳み込みとプーリング層で構成される基本的なCNN。層の数でVGG16、VGG19がある。
- ResNet(Residual Network)
- https://arxiv.org/pdf/1512.03385.pdf
- 層を深くしすぎると性能劣化が起こる点を解消し、深くすることによって精度を改善する。Microsoftのチームによって開発。
- GoogLeNet(Inception-V1)
- https://www.tensorflow.org/hub/modules/google/imagenet/inception_v1/classification/1
- 基本構造はCNN、縦と横の両方にネットワークを広げる。横方向の幅をInception構造と呼ぶ。名前の通りGoogle(インターン)が開発。Inception-V4など新しいVersionもある。
- 物体検出(Object Detection)
- YOLO(You only look once)
- YOLO: Real-Time Object Detection
- RealTimeに物体を検出する。その他のアルゴリズムと比較して処理速度が速いとされる。ただし、物体の検出ができるのは2個までのように制限がある。
- SSD(Single Shot MultiBox Detector)
- https://arxiv.org/pdf/1512.02325.pdf
- YOLOと同様にRealTimeに物体を検出するが、多クラスの物体検出も可能としている。
Ref : Object Localization and Detection - Artificial Inteligence A 2017 Guide to Semantic Segmentation with Deep Learning
物体認識の精度比較
左図はCNNベースの物体認識(Object Recognition・Classification)の精度比較グラフ(縦軸精度)であり、後発のアルゴリズムほど精度が高い様子が分かる。右図は精度(縦軸)、学習速度(横軸)、メモリ使用量(円の大きさ)を示している。一般的には精度が高くなれば学習速度が遅くなる。精度、学習速度・メモリ使用量はそれぞれtrade offの関係となるようだ。
Ref : Object Localization and Detection - Artificial Inteligence https://arxiv.org/pdf/1605.07678.pdf