公務員期刊網 精選范文 卷積神經網絡識別方法范文

卷積神經網絡識別方法精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經網絡識別方法主題范文,僅供參考,歡迎閱讀并收藏。

卷積神經網絡識別方法

第1篇:卷積神經網絡識別方法范文

【關鍵詞】圖像分類深度 卷積神經網絡 加權壓縮近鄰

1 研究背景

手寫數字識別是一個經典的模式識別問題。從0 到9這10 個阿拉伯數字組成。由于其類別數比較小,它在些運算量很大或者比較復雜的算法中比較容易實現。所以,在模式識別中數字識別一直都是熱門的實驗對象。卷積神經網絡 (Convolutional Neural Networks,CNN),在手寫體識別中有著良好的性能。卷積神經網絡的神經元是局部連接,神經元之間能夠共享權值。深度卷積神經網絡不但可以解決淺層學習結構無法自動提取圖像特征的問題,并且提高了分類的泛化能力和準確度。

2 深度卷積神經網絡

深度卷積神經網絡是一種具有多層監(jiān)督的神經網絡,隱含層中的卷積層和池采樣層是實現深度卷積神經網絡提取特征的核心模塊,并通過使用梯度下降算法最小化損失函數來進行權重參數逐層反向調節(jié),再經過迭代訓練提高分類精確度。

深度卷積神經網絡的首層是輸入層,之后是若干個卷積層和若干個子采樣層和分類器。分類器一般采用Softmax,再由分類器去輸出相應的分類結果。正常情況下,一個卷積后面都跟一個子采樣層?;诰矸e層里權值共享和局部連接的特性,可以簡化網絡的樣本訓練參數。運算之后,獲得的結果通過激活函數輸出得到特征圖像,再將輸出值作為子采樣層的輸入數據。為了實現縮放、平移和扭曲保持不變,在子采樣層中將之前一層對應的特征圖中相鄰特征通過池化操作合并成一個特征,減少特征分辨率。這樣,輸入的數據就可以立即傳送到第一個卷積層,反復進行特征學習。將被標記的樣本輸入到Softmax分類器中。

CNN 能夠簡化網絡的樣本訓練參數,降低計算難度。這些良好的性能是網絡在有監(jiān)督方式下學會的,網絡的結構主要有局部連接和權值共享兩個特點:

2.1 局部連接

深度卷積神經網絡中,層與層之間的神經元節(jié)點是局部連接,不像BP 神經網絡中的連接為全連接。深度卷積神經網絡利用局部空間的相關性將相鄰層的神經元節(jié)點連接相鄰的上一層神經元節(jié)點。

2.2 權重共享

在深度卷積神經網絡中,卷積層中每一個卷積濾波器共享相同參數并重復作用,卷積輸入的圖像,再將卷積的結果變?yōu)檩斎雸D像的特征圖。之后提取出圖像的部分特征。

在得到圖像的卷積特征之后,需要用最大池采樣方法對卷積特征進行降維。用若干個n×n 的不相交區(qū)域來劃分卷積特征,降維后的卷積特征會被這些區(qū)域中最大的或平均特征來表示。降維后的特征更方便進行分類。

3 實驗結果

為了驗證卷積神經網絡的有效性,本實驗中使用以最經典的MNIST 和USPS 庫這兩個識別庫作為評測標準。手寫數字MNIST數據庫有集60000 個訓練樣本集,和10000 個測試,每個樣本向量為28×28=784維表示。手寫數字USPS 數據庫含有7291 個訓練樣本和2007 個測試樣本,每個樣本向量為16×16=256 維。

表1給出了卷積神經網絡在MNIST 和USPS 庫上的識別結果。從表1中可知,深度卷積神經網絡對MNSIT 庫識別率能夠達到97.89%,與用BP 算法得到的識別率94.26%相比,提高了兩個多百分點。對USPS 庫識別率能夠達到94.34%,與用BP 算法得到的識別率91.28%相比,也提高了三個多百分點。

因此,使用深度卷積神經網絡算法訓練在圖像識別中獲得更高識別率。因此,深度卷積神經網絡在識別手寫體字符時有著較好的分類效果。

4 總結

本文介紹深度卷積神經網絡的理論知識、算法技術和算法的結構包括局部連接、權重共享、最大池采樣以及分類器Softmax。本文通過深度卷積神經網絡對兩組手寫識別庫實驗來驗證CNN 有著較低的出錯率。

參考文獻

[1]趙元慶,吳華.多尺度特征和神經網絡相融合的手寫體數字識別簡介[J].計算機科學,2013,40(08):316-318.

[2]王強.基于CNN的字符識別方法研究[D].天津師范大學,2014.

[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.

[4]郝紅衛(wèi), 蔣蓉蓉.基于最近鄰規(guī)則的神經網絡訓練樣本選擇方法[J].自動化學報,2007,33(12):1247-1251.

作者簡介

關鑫(1982-),男,黑龍江省佳木斯市人。碩士研究生學歷。現為中國電子科技集團公司第五十四研究所工程師。研究方向為計算機軟件工程。

第2篇:卷積神經網絡識別方法范文

關鍵詞:車牌;識別;專利;分析

引言

車牌識別技術[1-2]是指自動提取受監(jiān)控區(qū)域車輛的車牌信息并進行處理的技術,其通過運用圖像處理、計算機視覺、模式識別等技術,對攝像頭捕獲的車輛照片或視頻進行分析,進而自動識別車輛的車牌號碼。車牌識別技術可應用于停車場自動收費管理、道路監(jiān)控等領域,在城市交通管理中發(fā)揮了重要作用。

1 中國專利申請情況分析

以CNABS專利數據庫中的檢索結果為分析樣本,介紹車牌識別技術的中國專利申請量趨勢以及重要申請人的狀況。

1.1 第一階段(2005年及之前)

在這階段,申請量極少且申請人也極少,且針對的環(huán)境較為簡單,處于技術的萌芽階段,其中,專利CN1529276,通過車牌定位、字符分割和分類識別完成機動車牌號自動識別,其實現過程較為簡單,具體細節(jié)描述較少。

1.2 第二階段(2006年-2010年)

在這階段的申請量比上一階段有所增加,而且申請人數量相較之前也有增長,其中來自高校的申請量明顯增加,反映出了高校研究者開始更加注重對研究成果的保護,這一階段的專利所針對的環(huán)境場景更為復雜,識別準確率得到提高,對車牌定位、字符分割、字符識別等關鍵技術的研究更為深入。

1.3 第三階段(2011年及以后)

在2011年之后車牌識別技術的專利申請量呈現快速增長,這一階段車牌識別技術得到了更進一步的豐富,涉及的關鍵技術的解決途徑也呈現出多樣性,檢測效率和精度也得到進一步提高,其中,專利CN104035954A,涉及一種基于Hadoop的套牌車識別方法,將云計算應用于車牌識別,使得與傳統環(huán)境下不經過優(yōu)化的方法相比具有^高的運行效率和加速比,可以有效地識別套牌車。

圖2示出了中國重要申請人分布情況,申請量分布前十的申請人包括:電子科技大學、深圳市捷順科技實業(yè)股份有限公司(捷順科技)、浙江宇視科技有限公司(宇視科技)、信幀電子技術(北京)有限公司(信幀電子)、中國科學院自動化研究所(自動化研究所)、安徽清新互聯信息科技有限公司(清新互聯)、青島海信網絡科技股份有限公司(海信網絡)、浙江工業(yè)大學、四川川大智勝軟件股份有限公司(川大智勝)、上海高德威智能交通系統有限公司(高德威智能交通),從圖2中可以看出,不同申請人的申請量差距不是很大,幾乎保持在一個比較持平的狀態(tài)。

電子科技大學在車牌識別技術的專利申請中,CN 101064011A提出一種基于小波變換的復雜背景中的車牌提取方法,可大大提高對晴天、雨天、霧天、白天及夜晚等環(huán)境的通用性和適用性,實現車牌的精確定位并提高車牌提取的準確度;CN 103455815A提出一種復雜場景下的自適應車牌字符分割方法,能快速、準確地搜索2、3字符間隔位置,實現自適應調整分割參數,使車牌字符分割穩(wěn)定可靠,在復雜的環(huán)境中魯棒性強,防止噪聲干擾;CN 105005757A提出一種基于Grassmann流行的車牌字符識別方法,最大限度地利用了已獲得的車牌字符信息以及同類字符之間的相互關系,對于車牌字符的成像質量要求更低,應用于復雜的環(huán)境中具有很好的魯棒性和準確性。

2 關鍵技術分析

一個完整的車牌定位與識別系統,其前端包括圖像采集和傳輸系統,末端還需要與數據庫相連接。從定位到識別的核心算法上,主要包括圖像預處理、車牌定位、字符分割和字符識別四大部分[3]。

圖像預處理,是指通過對攝像頭捕獲的彩色圖像進行預處理。常用的預處理方法包括圖像灰度化、圖像二值化、邊緣檢測等。

車牌定位,是指在經預處理后的車輛圖像中,定位出車輛的車牌所在位置。常用的車牌定位方法包括基于紋理分析的方法、基于數學形態(tài)學的方法、基于邊緣檢測的方法、基于小波變換的方法和基于神經網絡的方法等。CN 104298976A提出一種基于卷積神經網絡的車牌檢測方法,利用卷積神經網絡完整車牌識別模型對車牌粗選區(qū)域進行篩選,獲取車牌最終候選區(qū)域。

字符分割,是指將定位出的車牌區(qū)域圖像分割成單個的字符圖像。常用的字符分割方法包括基于輪廓的方法、基于投影的方法、基于模板匹配的方法和基于連通區(qū)域的方法等。CN 104408454A提出一種基于彈性模板匹配算法的車牌字符分割方法,基于彈性模板,通過插空進行模板序列形狀的彈性調整,將車牌圖片與理想模板進行匹配,獲得全局最優(yōu)匹配,確定字符位置,將分割算法作用于投影序列,實現對車牌字符的分割。

字符識別,是指對字符分割之后的單個字符圖像進行識別,進而得到車輛的車牌號碼。常用的車牌字符識別方法包括基于字符結構特征的識別方法、基于模板匹配的識別方法、基于神經網絡的識別方法、基于模糊理論的模式識別方法和基于支持向量機分類識別方法等。CN 105975968A提出一種基于Caffe框架的深度學習車牌字符識別方法,以基于Caffe架構的深度學習為基礎,解決了現有的車牌字符識別方法中對傾斜、斷裂、相近字符識別精度不高的問題,大大提高了對于車牌字符的識別精度。

3 結束語

本文以車牌識別相關專利文獻為樣本,分析統計了該技術中國專利申請現狀,并對車牌識別技術的關鍵技術進行簡單分析。在經歷了從無到有、從萌芽到飛速發(fā)展的階段之后,車牌識別技術慢慢走向成熟,越來越多的企業(yè)和高校在車牌識別的研究上投入了大量的精力,也獲得了豐碩的研究成果。

參考文獻

[1]尹旭.汽車牌照定位研究綜述[J].電腦知識與技術,2010,6(14):3729-3730.

第3篇:卷積神經網絡識別方法范文

關鍵詞人臉識別;特征提取

1人臉識別技術概述

近年來,隨著計算機技術的迅速發(fā)展,人臉自動識別技術得到廣泛研究與開發(fā),人臉識別成為近30年里模式識別和圖像處理中最熱門的研究主題之一。人臉識別的目的是從人臉圖像中抽取人的個性化特征,并以此來識別人的身份。一個簡單的自動人臉識別系統,包括以下4個方面的內容:

(1)人臉檢測(Detection):即從各種不同的場景中檢測出人臉的存在并確定其位置。

(2)人臉的規(guī)范化(Normalization):校正人臉在尺度、光照和旋轉等方面的變化。

(3)人臉表征(FaceRepresentation):采取某種方式表示檢測出人臉和數據庫中的已知人臉。

(4)人臉識別(Recognition):將待識別的人臉與數據庫中的已知人臉比較,得出相關信息。

2人臉識別算法的框架

人臉識別算法描述屬于典型的模式識別問題,主要有在線匹配和離線學習兩個過程組成,如圖1所示。

圖1一般人臉識別算法框架

在人臉識別中,特征的分類能力、算法復雜度和可實現性是確定特征提取法需要考慮的因素。所提取特征對最終分類結果有著決定性的影響。分類器所能實現的分辨率上限就是各類特征間最大可區(qū)分度。因此,人臉識別的實現需要綜合考慮特征選擇、特征提取和分類器設計。

3人臉識別的發(fā)展歷史及分類

人臉識別的研究已經有相當長的歷史,它的發(fā)展大致可以分為四個階段:

第一階段:人類最早的研究工作至少可追朔到二十世紀五十年代在心理學方面的研究和六十年代在工程學方面的研究。

J.S.Bruner于1954年寫下了關于心理學的Theperceptionofpeople,Bledsoe在1964年就工程學寫了FacialRecognitionProjectReport,國外有許多學校在研究人臉識別技術[1],其中有從感知和心理學角度探索人類識別人臉機理的,如美國TexasatDallas大學的Abdi和Tool小組[2、3],由Stirling大學的Bruce教授和Glasgow大學的Burton教授合作領導的小組等[3];也有從視覺機理角度進行研究的,如英國的Graw小組[4、5]和荷蘭Groningen大學的Petkov小組[6]等。

第二階段:關于人臉的機器識別研究開始于二十世紀七十年代。

Allen和Parke為代表,主要研究人臉識別所需要的面部特征。研究者用計算機實現了較高質量的人臉灰度圖模型。這一階段工作的特點是識別過程全部依賴于操作人員,不是一種可以完成自動識別的系統。

第三階段:人機交互式識別階段。

Harmon和Lesk用幾何特征參數來表示人臉正面圖像。他們采用多維特征矢量表示人臉面部特征,并設計了基于這一特征表示法的識別系統。Kaya和Kobayashi則采用了統計識別方法,用歐氏距離來表征人臉特征。但這類方法需要利用操作員的某些先驗知識,仍然擺脫不了人的干預。

第四階段:20世紀90年代以來,隨著高性能計算機的出現,人臉識別方法有了重大突破,才進入了真正的機器自動識別階段。在用靜態(tài)圖像或視頻圖像做人臉識別的領域中,國際上形成了以下幾類主要的人臉識別方法:

1)基于幾何特征的人臉識別方法

基于幾何特征的方法是早期的人臉識別方法之一[7]。常采用的幾何特征有人臉的五官如眼睛、鼻子、嘴巴等的局部形狀特征。臉型特征以及五官在臉上分布的幾何特征。提取特征時往往要用到人臉結構的一些先驗知識。識別所采用的幾何特征是以人臉器官的形狀和幾何關系為基礎的特征矢量,本質上是特征矢量之間的匹配,其分量通常包括人臉指定兩點間的歐式距離、曲率、角度等。

基于幾何特征的識別方法比較簡單、容易理解,但沒有形成統一的特征提取標準;從圖像中抽取穩(wěn)定的特征較困難,特別是特征受到遮擋時;對較大的表情變化或姿態(tài)變化的魯棒性較差。

2)基于相關匹配的方法

基于相關匹配的方法包括模板匹配法和等強度線方法。

①模板匹配法:Poggio和Brunelli[10]專門比較了基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法,并得出結論:基于幾何特征的人臉識別方法具有識別速度快和內存要求小的優(yōu)點,但在識別率上模板匹配要優(yōu)于基于幾何特征的識別方法。

②等強度線法:等強度線利用灰度圖像的多級灰度值的等強度線作為特征進行兩幅人臉圖像的匹配識別。等強度曲線反映了人臉的凸凹信息。這些等強度線法必須在背景與頭發(fā)均為黑色,表面光照均勻的前提下才能求出符合人臉真實形狀的等強度線。

3)基于子空間方法

常用的線性子空間方法有:本征子空間、區(qū)別子空間、獨立分量子空間等。此外,還有局部特征分析法、因子分析法等。這些方法也分別被擴展到混合線性子空間和非線性子空間。

Turk等[11]采用本征臉(Eigenfaces)方法實現人臉識別。由于每個本征矢量的圖像形式類似于人臉,所以稱本征臉。對原始圖像和重構圖像的差分圖像再次進行K-L變換,得到二階本征空間,又稱二階本征臉[12]。Pentland等[13]提出對于眼、鼻和嘴等特征分別建立一個本征子空間,并聯合本征臉子空間的方法獲得了好的識別結果。Shan等[14]采用特定人的本征空間法獲得了好于本征臉方法的識別結果。Albert等[15]提出了TPCA(TopologicalPCA)方法,識別率有所提高。Penev等[16]提出的局部特征分析(LFALocalFeatureAnalysis)法的識別效果好于本征臉方法。當每個人有多個樣本圖像時,本征空間法沒有考慮樣本類別間的信息,因此,基于線性區(qū)別分析(LDALinearDiscriminantAnalysis),Belhumeur等[17]提出了Fisherfaces方法,獲得了較好的識別結果。Bartlett等[18]采用獨立分量分析(ICA,IndependentComponentAnalysis)的方法識別人臉,獲得了比PCA方法更好的識別效果。

4)基于統計的識別方法

該類方法包括有:KL算法、奇異值分解(SVD)、隱馬爾可夫(HMM)法。

①KL變換:將人臉圖像按行(列)展開所形成的一個高維向量看作是一種隨機向量,因此采用K-L變換獲得其正交K-L基底,對應其中較大特征值基底具有與人臉相似的形狀。國外,在用靜態(tài)圖像或視頻圖像做人臉識別的領域中,比較有影響的有MIT的Media實驗室的Pentland小組,他們主要是用基于KL變換的本征空間的特征提取法,名為“本征臉(Eigenface)[19]。

②隱馬爾可夫模型:劍橋大學的Samaria和Fallside[20]對多個樣本圖像的空間序列訓練出一個HMM模型,它的參數就是特征值;基于人臉從上到下、從左到右的結構特征;Samatia等[21]首先將1-DHMM和2-DPseudoHMM用于人臉識別。Kohir等[22]采用低頻DCT系數作為觀察矢量獲得了好的識別效果,如圖2(a)所示。Eickeler等[23]采用2-DPseudoHMM識別DCT壓縮的JPEG圖像中的人臉圖像;Nefian等采用嵌入式HMM識別人臉[24],如圖2(b)所示。后來集成coupledHMM和HMM通過對超狀態(tài)和各嵌入狀態(tài)采用不同的模型構成混合系統結構[25]。

基于HMM的人臉識別方法具有以下優(yōu)點:第一,能夠允許人臉有表情變化,較大的頭部轉動;第二,擴容性好.即增加新樣本不需要對所有的樣本進行訓練;第三,較高的識別率。

(a)(b)

圖2(a)人臉圖像的1-DHMM(b)嵌入式隱馬爾科夫模型

5)基于神經網絡的方法

Gutta等[26]提出了混合神經網絡、Lawrence等[27]通過一個多級的SOM實現樣本的聚類,將卷積神經網絡CNN用于人臉識別、Lin等[28]采用基于概率決策的神經網絡方法、Demers等[29]提出采用主元神經網絡方法提取人臉圖像特征,用自相關神經網絡進一步壓縮特征,最后采用一個MLP來實現人臉識別。Er等[30]采用PCA進行維數壓縮,再用LDA抽取特征,然后基于RBF進行人臉識別。Haddadnia等[31]基于PZMI特征,并采用混合學習算法的RBF神經網絡進行人臉識別。神經網絡的優(yōu)勢是通過學習的過程獲得對這些規(guī)律和規(guī)則的隱性表達,它的適應性較強。

6)彈性圖匹配方法

Lades等提出采用動態(tài)鏈接結構(DLA,DynamicLinkArchitecture)[32]的方法識別人臉。它將人臉用格狀的稀疏圖如圖3所示。

圖3人臉識別的彈性匹配方法

圖3中的節(jié)點用圖像位置的Gabor小波分解得到的特征向量標記,圖的邊用連接節(jié)點的距離向量標記。Wiskott等人使用彈性圖匹配方法,準確率達到97.3%。Wiskott等[33]將人臉特征上的一些點作為基準點,構成彈性圖。采用每個基準點存儲一串具有代表性的特征矢量,減少了系統的存儲量。Wurtz等[34]只使用人臉I(yè)CI部的特征,進一步消除了結構中的冗余信息和背景信息,并使用一個多層的分級結構。Grudin等[35]也采用分級結構的彈性圖,通過去除了一些冗余節(jié)點,形成稀疏的人臉描述結構。另一種方法是,Nastar等[36]提出將人臉圖像I(x,y)表示為可變形的3D網格表(x,y,I(x,y)),將人臉匹配問題轉換為曲面匹配問題,利用有限分析的方法進行曲面變形,根據兩幅圖像之間變形匹配的程度識別人臉。

7)幾種混合方法的有效性

(1)K-L投影和奇異值分解(SVD)相融合的分類判別方法。

K-L變換的核心過程是計算特征值和特征向量。而圖像的奇異值具有良好的穩(wěn)定性,當圖像有小的擾動時,奇異值的變化不大。奇異值表示了圖像的代數特征,在某種程度上,SVD特征同時擁有代數與幾何兩方面的不變性。利用K-L投影后的主分量特征向量與SVD特征向量對人臉進行識別,提高識別的準確性[37]。

(2)HMM和奇異值分解相融合的分類判別方法。

采用奇異值分解方法進行特征提取,一般是把一幅圖像(長為H)看成一個N×M的矩陣,求取其奇異值作為人臉識別的特征。在這里我們采用采樣窗對同一幅圖片進行重疊采樣(如圖4),對采樣所得到的矩陣分別求其對應的前k個最大的奇異值,分別對每一組奇異值進行矢量標準化和矢量重新排序,把這些處理后的奇異值按采樣順序組成一組向量,這組向量是惟一的[38]。

圖4采樣窗采樣

綜合上述論文中的實驗數據表明[39],如表1:

表1人臉識別算法比較

8)基于三維模型的方法

該類方法一般先在圖像上檢測出與通用模型頂點對應的特征點,然后根據特征點調節(jié)通用模型,最后通過紋理映射得到特定人臉的3D模型。Tibbalds[40]基于結構光源和立體視覺理論,通過攝像機獲取立體圖像,根據圖像特征點之間匹配構造人臉的三維表面,如圖5所示。

圖5三維人臉表面模型圖6合成的不同姿態(tài)和光照條件下二維人臉表面模型

Zhao[41]提出了一個新的SSFS(SymetricShape-from-Shading)理論來處理像人臉這類對稱對象的識別問題,基于SSFS理論和一個一般的三維人臉模型來解決光照變化問題,通過基于SFS的視圖合成技術解決人臉姿態(tài)問題,針對不同姿態(tài)和光照條件合成的三維人臉模型如圖6所示。

三維圖像有三種建模方法:基于圖像特征的方法[42、43]、基于幾何[44]、基于模型可變參數的方法[45]。其中,基于模型可變參數的方法與基于圖像特征的方法的最大區(qū)別在于:后者在人臉姿態(tài)每變化一次后,需要重新搜索特征點的坐標,而前者只需調整3D變形模型的參數。三維重建的系統框圖,如圖7所示。

圖7三維建模的系統框圖

三維人臉建模、待識別人臉的姿態(tài)估計和識別匹配算法的選取是實現三維人臉識別的關鍵技術。隨著采用三維圖像識別人臉技術的發(fā)展,利用直線的三維圖像信息進行人臉識別已經成為人們研究的重心。

4總結與展望

人臉自動識別技術已取得了巨大的成就,隨著科技的發(fā)展,在實際應用中仍然面臨困難,不僅要達到準確、快速的檢測并分割出人臉部分,而且要有效的變化補償、特征描述、準確的分類的效果,還需要注重和提高以下幾個方面:

(1)人臉的局部和整體信息的相互結合能有效地描述人臉的特征,基于混合模型的方法值得進一步深入研究,以便能準確描述復雜的人臉模式分布。

(2)多特征融合和多分類器融合的方法也是改善識別性能的一個手段。

(3)由于人臉為非剛體性,人臉之間的相似性以及各種變化因素的影響,準確的人臉識別仍較困難。為了滿足自動人臉識別技術具有實時要求,在必要時需要研究人臉與指紋、虹膜、語音等識別技術的融合方法。

(4)3D形變模型可以處理多種變化因素,具有很好的發(fā)展前景。已有研究也表明,對各種變化因素采用模擬或補償的方法具有較好的效果。三維人臉識別算法的選取還處于探索階段,需要在原有傳統識別算法的基礎上改進和創(chuàng)新。

(5)表面紋理識別算法是一種最新的算法[52],有待于我們繼續(xù)學習和研究出更好的方法。

總之,人臉識別是極富挑戰(zhàn)性的課題僅僅采用一種現有方法難以取得良好的識別效果,如何與其它技術相結合,如何提高識別率和識別速度、減少計算量、提高魯棒性,如何采用嵌入式及硬件實現,如何實用化都是將來值得研究的。

參考文獻

[1]O''''TooleAJ,AbdiH,DeffenbacherKA,etal.Alowdimensionalrepresentationoffacesinthehigherdimensionsofspace.[J].JournaloftheOpticalSocietyof2America,1993,10:405~411

[2]張翠萍,蘇光大.人臉識別技術綜述.中國圖像圖形學報,2000,5(11):885-894

[3]A.Samal,P.A.Iyengar.Automaticrecognitionandanalysisofhumanfacesandfacialexpressions:asurvey[J].PatternRecognition,1992,25(1):65-67

[4]TurkM,PentlandA.Eigenfacesforrecognition[J].JournalofCognitiveNeuroscience,1991,3(1):71~86

[5]BartlettMS,MovellanJR,SejnowskiTJ.FaceRecognitionbyIndependentComponentAnalysis[J].IEEETrans.onNeuralNetwork,2002,13(6):1450-1464

[6]ManjunathBS,ShekharCandChellappaR.Anewapproachtoimagefeaturedetectionwithapplication[J].Patt.Recog,1996,29(4):627-640

[7]ChengY.LiuK,YangJ,etal.Humanfacerecognitionmethodbasedonthestatisticalmodelofsmallsamplesize.SPIEProc,Intell.RobotsandComputerVisionX:AlgorithmsandTechn.1991,1606:85-95

[8]NefianAVEmbeddedBayesianNetworksforFaceRecognition[A].Proceedings.IEEEInternationalConferenceonMultimediaandExpo[C]2002,2:133-136

[9]GuttaS,WechslerH.FaceRecognitionUsingHybridClassifiers[J].PatternRecognition,1997,30(4):539-553

[10]HaddadniaJ,AhmadiM,FaezKAHybridLearningRBFNeuralNetworkforHumanFaceRecognitionwithPseudoZernikeMomentInvariant[A].Proceedingsofthe2002InternationalJointConferenceonNeuralNetworks[C].2002,1:11-16

[11]M.Lades,J.C.Vorbruggen,J.Buhmann,ect.Distortioninvariantobjectrecognitioninthedynamiclinkarchitecture.IEEETrans.onComputer,1993,42(3):300-311

[12]NastarC,MoghaddamBA.FlexibleImages:MatchingandRecognitionUsingLearnedDeformations[J].ComputerVisionandImageUnderstanding,1997,65(2):179-191

[13]羊牧.基于KL投影和奇異值分解相融合人臉識別方法的研究[D].四川大學.2004,5,1

[14]白冬輝.人臉識別技術的研究與應用[D].北方工業(yè)大學.2006,5

第4篇:卷積神經網絡識別方法范文

關鍵詞:深度學習;人臉識別;深度信念網絡

中圖分類號:TP391.41 文獻標識碼:A 文章編號:1009-3044(2016)35-0184-03

在實際應用中,采集到的人臉圖像往往是具有多種姿態(tài)變化的,受姿態(tài)變化影響,人臉圖像識別性能迅速下降,這是人臉識別中一個最為突出的難題。姿態(tài)變化將非線性因素引入了人臉識別,而現有的一些機器學習方法大多使用淺層結構,難以有效表示復雜函數。而深度學習可通過一種深層非線性網絡結構實現復雜函數逼近,表征輸入數據分布式表示,體現出它對于輸入樣本數據的強大的本質特征的抽取能力。因此本文將運用深度神經網絡的方法克服姿態(tài)變量的影響,并在實驗數據集上進行一系列驗證試驗從而得出結論。

1 簡介

在實際應用中,姿態(tài)變化成為人臉識別的瓶頸問題??缱藨B(tài)人臉識別方法通常分為三類:通用型算法,二維算法和三維算法,在此僅介紹通用型算法。通用型算法是為解決一般的人臉識別而設計的,本身即包括處理圖像中姿態(tài)變化等因素。通用型算法主要有以主成分分析(Prinxipal Componet Analysis,PCA,也稱為特征臉)[[1]],Fisher判別分析(Fisher Discriminant Analysis,FDA,也稱為線性判別分析,簡稱LDA)[2],局部二值模式(LBP)[3],自組織映射和卷積網絡,模板匹配,模塊化PCA等,這些方法都基于二維面部圖像中提取的分類模式,從現有庫已知的圖像中識別輸入的人臉圖像。我們選取LDA方法作為研究基礎,同時引入深度學習,通過構建具有多層隱層的機器學習模型和海量訓練數據,來學習更有用的特征。

3.2 參數更新

采用自頂向下的監(jiān)督學習,通過最小化的損失函數重建誤差?;诘谝徊降玫降母鲗訁颠M一步調節(jié)整個多層模型的參數,利用梯度下降法微調整個網絡參數,對DBN進行優(yōu)化。這一步是一個有監(jiān)督訓練過程。由于深度學習的第一步不是隨機初始化,而是通過學習輸入數據的結構得到的,因而這個初值更接近全局最優(yōu),從而能夠取得更好的效果。

4 實驗

4.1 實驗數據

為了能夠在較大范圍不同姿態(tài)下評估該方法,我們選擇了MultiPIE人臉數據庫。它是由CMU采集的一組包含用姿態(tài)、光照和表情三個因素變化構成的人臉庫。庫中包含68個人,每個人有13種不同的姿態(tài),3-4種不同的表情和多組不同光照。相較于其他數據庫,MultiPIE人臉庫包含因素最為豐富,采集條件最為真實,且包含較大的姿態(tài)變化和垂直深度上的旋轉,便于我們對該方法進行充分評估。

4.2 實驗結果

我們采用MATLAB2012B編寫重構Demo,由此獲得了重構后的人臉圖像,圖3截取了一部分實驗結果。由此可以清晰看到,我們重構人臉的方法可以去除不同姿態(tài)的影響,并且保持了人臉輪廓和結構。

基于LDA算法,我們計算出了人臉重構前后的識別率,如表格1所示。顯然,重構后人臉的識別率遠高于重構前。經統計,旋轉角度為+15°和-15°的人臉圖像識別率平均上升7.75%,+30°和-30°的人臉圖像識別率平均上升8.67%,而+45°和-45°的人臉圖像識別率平均上升了13%,由此可見,我們的算法對于旋轉角度大的姿態(tài)優(yōu)勢更加明顯。

另外,我們將試驗結果與其他關于姿態(tài)變化的研究結果進行了比較。如表格2所示,LGBP[11]屬于二維方法,而VAAM,FA-EGFC[12]和SA-EGFC均為三維方法,且除FA-EGFC外,其他方法都需要知道探測器的角度。結果顯示,我們所用的方法識別率在各個角度均為最高,且忽略角度的影響。顯然,相較于這幾種方法,我們的方法更具有優(yōu)越性和穩(wěn)定性。

5 結語

從結果分析中可以看出經過深度學習網絡轉換后的人臉識別率明顯高于未經過轉換的,且部分識別率達到了100%,顯然本文的方法在姿態(tài)因素問題的處理上表現出明顯的優(yōu)勢,尤其在旋轉角度較大的情況下有較大提升。實驗說明FIP特征不僅僅對姿態(tài)變化具有健壯性,而且可以用來重建人臉圖像。

在未來的工作中,我們將擴展框架以便于在其他困難條件下進行人臉識別,同時會將FIP方法進行進一步的提高。

參考文獻:

[1] TURK M A,PENTLAND A P. Face recognition using eigenfaces [C]. Computer Vision and Pattern Recognition,San Diego,1991:22-28.

[2] ZHAO W,KRISHNASWAMY A,CHELLAPPA R,et al. Discriminant analysis of principal components for face recognition [M]. Face Recognition. Berlin Heidelberg :Springer.1998

[3] S. Li, X. Liu, X. Chai, H. Zhang, S. Lao, and S. Shan. Morphable displacement field based image matching for face recognition across pose. In ECCV. 2012.

[4] C. D. Castillo and D. W. Jacobs. Wide-baseline stereo for face recognition with large pose variation. In CVPR, 2011.

[5] A. Asthana, T. K. Marks, M. J. Jones, K. H. Tieu, and M. Rohith. Fully automatic pose-invariant face recognition via 3d pose normalization. In ICCV, 2011.

[6] Zhenyao Zhu1,? Ping Luo1,3,? Xiaogang Wang2 Xiaoou Tang1,3,Department of Information Engineering, The Chinese University of Hong Kong,Department of Electronic Engineering, The Chinese University of Hong Kong,Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences

[7] Q. V. Le, J. Ngiam, Z. Chen, D. Chia, P. W. Koh, and A. Y. Ng. Tiled convolutional neural networks. In NIPS, 2010.

[8] G. E. Hinton, S. Osindero, and Y.-W. Teh. A fast learning algorithm for deep belief nets. Neural Computation, 18(7):1527C1554, 2006.

[9] N. Qian. On the momentum term in gradient descent learning algorithms. Neural Networks, 1999

[10] V. Nair and G. E. Hinton. Rectified linear units improve restricted Boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.