目標視覺檢測是計算機視覺領域中一個非常重要的研究問題。隨著電子設備的應用在社會生產和人們生活中越來越普遍,數字圖像已經成為不可缺少的信息媒介,每時每刻都在產生海量的圖像數據。與此同時,對圖像中的目標進行準確識別變得越來越重要。下面國辰科技就來解析深度學習在目標視覺檢測系統中的應用進展。
我們不僅關注對圖像的簡單分類,而且希望能夠準確獲得圖像中存在的感興趣目標及其位置,并將這些信息應用到視頻監控、自主駕駛、人機交互等一系列現實任務中,因此目標視覺檢測技術受到了廣泛關注。
傳統的目標視覺檢測技術
傳統的目標視覺檢測技術在流程上大致分為三個步驟: 區域建議(Region proposal)、特征表示(Featurerepresentation)和區域分類(Region
classification),如圖1所示。該基本流程被許多工作所采用,它們在目標區域建議、圖像特征表示、候選區域分類上分別采用了不同的處理策略。近年來,隨著深度學習技術的發展,很多基于深度學習的目標視覺檢測算法陸續被提出,在精度上顯著優于傳統方法,成為研究熱點。

圖1 目標視覺檢測的基本流程
基于深度學習的目標視覺檢測算法
深度學習模型具有強大的表征和建模能力,通過監督或非監督的訓練方式,能夠逐層、自動地學習目標的特征表示,實現對物體層次化的抽象和描述。在圖像識別領域中,Krizhevsky等于2012年構建深度卷積神經網絡(CNN),在大規模圖像分類任務上取得了巨大成功,引起了對CNN模型的高度重視,也因此推動了目標檢測的研究進展。本文首先介紹了圖像分類中經典的AlexNet及其改進模型ZFNet、VGG、GoogLeNet、ResNet等。隨著模型變得越來越深,圖像分類的Top-5錯誤率也越來越低,目前已經降低到3%以下。與圖像分類一樣,目標檢測的輸入也是整幅圖像,它們在特征表示、分類器設計上具有很大的相通性。通過采用這些CNN模型得到更強大的特征表示,然后應用到目標檢測任務,可以獲得更高的檢測精度。本文從基于區域建議的方法和無區域建議的方法兩個方面來介紹深度學習在目標視覺檢測中的研究現狀,并匯總了公開的實驗結果進行定量比較。

圖2 平行視覺的基本框架
最后討論了深度學習方法應用于目標視覺檢測時存在的困難和挑戰,例如深度學習理論還不完善、大規模多樣性數據集還很缺乏。為了解決這些問題,我們認為可以采用平行視覺的思路來進行研究。通過“平行執行”在線優化視覺系統,能夠激發深度學習的潛力。我們相信,深度學習與平行視覺相結合,必將大力推動目標視覺檢測的研究和應用進展。
杭州國辰科技有著多年的機器視覺行業經驗,在機器視覺的應用領域上積累了豐富的經驗,有著不少成功的案例和解決方案,一直以來致力于機器視覺產品的生產、開發、應用以及銷售,為客戶提供整體機器視覺解決方案及服務,如果你的工業生產線中,可能需要用得上類似的機器視覺方面的技術,那么不妨和我們聊聊,我們會先根據你的需求分析,免費從一個專業的角度來給一個合適你的方案,然后再聽取你的意見,即使沒達成合作,我們也希望能多認識個朋友。