前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡過程主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:樹葉識別;支持向量機;卷積神經(jīng)網(wǎng)絡
中圖分類號 TP18 文獻標識碼:A 文章編號:1009-3044(2016)10-0194-03
Abstract: In this paper, the convolution neural network recognition in the leaves, and the process by convolution of image visualization. Experiments show that the neural network application identification convolution leaves a 92% recognition rate. In addition , this neural network and support vector machine comparative study can be drawn from the study , convolutional neural network in either speed or accuracy better than support vector machines, visible, convolution neural network in the leaves aspect has good application prospects.
Key words recognition leaves; SVM; convolutional neural network
1 概述
樹葉識別與分類在對于區(qū)分樹葉的種類,探索樹葉的起源,對于人類自身發(fā)展、科普具有特別重要的意義。目前的樹葉識別與分類主要由人完成,但,樹葉種類成千上萬種,面對如此龐大的樹葉世界,任何一個植物學家都不可能知道所有,樹葉的種類,這給進一步研究樹葉帶來了困難。為了解決這一問題,一些模式識別方法諸如支持向量機(Support Vector Machine,SVM)[1],K最近鄰(k-NearestNeighbor, KNN)[2]等被引入,然而,隨著大數(shù)據(jù)時代的到來,這些傳統(tǒng)分類算法暴露出越來越多的不足,如訓練時間過長、特征不易提取等不足。
上世紀60年代開始,學者們相繼提出了各種人工神經(jīng)網(wǎng)絡[3]模型,其中卷積神經(jīng)網(wǎng)絡由于其對幾何、形變、光照具有一定程度的不變形,因此被廣泛應用于圖像領(lǐng)域。其主要特點有:1)輸入圖像不需要預處理;2)特征提取和識別可以同時進行;3)權(quán)值共享,大大減少了需要訓練的參數(shù)數(shù)目,是訓練變得更快,適應性更強。
卷積神經(jīng)網(wǎng)絡在國內(nèi)研究才剛剛起步。LeNet-5[4]就是一種卷積神經(jīng)網(wǎng)絡,最初用于手寫數(shù)字識別,本文研究將卷積神經(jīng)網(wǎng)絡LeNet-5模型改進并應用于樹葉識別中。本文首先介紹一下卷積神經(jīng)網(wǎng)絡和LeNet-5的結(jié)構(gòu),進而將其應用于樹葉識別,設(shè)計了實驗方案,用卷積神經(jīng)網(wǎng)絡與傳統(tǒng)的模式識別算法支持向量機(SVM)進行比較,得出了相關(guān)結(jié)論,并對進一步研究工作進行了展望。
2人工神經(jīng)網(wǎng)絡
人工神經(jīng)網(wǎng)絡方面的研究很早就已開展,現(xiàn)在的人工神經(jīng)網(wǎng)絡已經(jīng)發(fā)展成了多領(lǐng)域、多學科交叉的獨立的研究領(lǐng)域。神經(jīng)網(wǎng)絡中最基本的單元是神經(jīng)元模型。類比生物神經(jīng)元,當它“興奮”時,就會向相連的神經(jīng)元發(fā)送化學物質(zhì),從而改變這些神經(jīng)元的狀態(tài)。人工神經(jīng)元模型如圖1所示:
上述就是一個簡單的神經(jīng)元模型。在這個模型中,神經(jīng)元接收來自n個其他神經(jīng)元傳遞過來的輸入信號,這些信號通過帶權(quán)重的w進行傳遞,神經(jīng)元接收到的總輸入值將與神經(jīng)元的閾值進行比較,然后通過“激活函數(shù)”來產(chǎn)生輸出。
一般采用的激活函數(shù)是Sigmoid函數(shù),如式1所示:
[σz=11+e-z] (1)
該函數(shù)圖像圖2所示:
2.1多層神經(jīng)網(wǎng)絡
將上述的神經(jīng)元按一定的層次結(jié)構(gòu)連接起來,就得到了如圖3所示的多層神經(jīng)網(wǎng)絡:
多層神經(jīng)網(wǎng)絡具有輸入層,隱藏層和輸出層。由于每一層之間都是全連接,因此每一層的權(quán)重對整個網(wǎng)絡的影響都是特別重要的。在這個網(wǎng)絡中,采用的訓練算法是隨機梯度下降算法[5],由于每一層之間都是全連接,當訓練樣本特別大的時候,訓練需要的時間就會大大增加,由此提出了另一種神經(jīng)網(wǎng)絡―卷積神經(jīng)網(wǎng)絡。
2.2卷積神經(jīng)網(wǎng)絡
卷積神經(jīng)網(wǎng)絡(CNN)由于在圖像分類任務上取得了非常好的表現(xiàn)而備受人們關(guān)注。發(fā)展到今天,CNN在深度學習領(lǐng)域已經(jīng)成為了一種非常重要的人工神經(jīng)網(wǎng)絡。卷積神經(jīng)網(wǎng)絡的核心在于通過建立很多的特征提取層一層一層地從圖片像素中找出關(guān)系并抽象出來,從而達到分類的目的,CNN方面比較成熟的是LeNet-5模型,如圖4所示:
在該LeNet-5模型中,一共有6層。如上圖所示,網(wǎng)絡輸入是一個28x28的圖像,輸出的是其識別的結(jié)果。卷積神經(jīng)網(wǎng)絡通過多個“卷積層”和“采樣層”對輸入信號進行處理,然后在連接層中實現(xiàn)與輸出目標之間的映射,通過每一層卷積濾波器提取輸入的特征。例如,LeNet-5中第一個卷積層由4個特征映射構(gòu)成,每個特征映射是一個24x24的神經(jīng)元陣列。采樣層是基于對卷積后的“平面”進行采樣,如圖所示,在第一個采樣層中又4的12x12的特征映射,其中每個神經(jīng)元與上一層中對應的特征映射的2x2鄰域相連接,并計算輸出??梢?,這種局部相關(guān)性的特征提取,由于都是連接著相同的連接權(quán),從而大幅度減少了需要訓練的參數(shù)數(shù)目[6]。
3實驗研究
為了將LeNet-5卷積網(wǎng)絡用于樹葉識別并檢驗其性能,本文收集了8類樹葉的圖片,每一類有40張照片,如圖5所示的一張樹葉樣本:
本文在此基礎(chǔ)上改進了模型,使用了如圖6卷積神經(jīng)網(wǎng)絡模型:
在此模型中,第一個卷積層是由6個特征映射構(gòu)成,每個特征映射是一個28*28的神經(jīng)元陣列,其中每個神經(jīng)元負責從5*5的區(qū)域通過卷積濾波器提取局部特征,在這里我們進行了可視化分析,如圖7所示:
從圖中可以明顯地看出,卷積網(wǎng)絡可以很好地提取樹葉的特征。為了驗證卷積神經(jīng)網(wǎng)絡與傳統(tǒng)分類算法之間的性能,本文基于Python語言,CUDA并行計算平臺,訓練同樣大小8類,一共320張的一批訓練樣本,采用交叉驗證的方法,得到了如表1所示的結(jié)論。
可見,無論是識別率上,還是訓練時間上,卷積網(wǎng)絡較傳統(tǒng)的支持向量機算法體現(xiàn)出更好地分類性能。
4 總結(jié)
本文從人工神經(jīng)網(wǎng)絡出發(fā),重點介紹了卷積神經(jīng)網(wǎng)絡模型LeNet-5在樹葉識別上的各種研究并提取了特征且進行了可視化,并與傳統(tǒng)分類算法SVM進行比較。研究表明,該模型應用在樹葉識別上較傳統(tǒng)分類算法取得了較好的結(jié)果,對收集的樹葉達到了92%的準確率,并大大減少了訓練所需要的時間。由于卷積神經(jīng)網(wǎng)絡有如此的優(yōu)點,因此在人臉識別、語音識別、醫(yī)療識別、犯罪識別方面具有很廣泛的應用前景。
本文的研究可以歸納為探討了卷積神經(jīng)網(wǎng)絡在樹葉識別上的效果,并對比了傳統(tǒng)經(jīng)典圖像分類算法,取得了較好的分類精度。
然而,本文進行實驗的樣本過少,當數(shù)據(jù)集過多的時候,這個卷積神經(jīng)網(wǎng)絡算法的可行性有待我們進一步的研究;另外,最近這幾年,又有很多不同的卷積神經(jīng)網(wǎng)絡模型出現(xiàn),我們會繼續(xù)試驗其他的神經(jīng)網(wǎng)絡模型,力求找到更好的分類算法來解決樹葉識別的問題。
參考文獻:
[1]Bell A, Sejnowski T. An Information-Maximization Approach to Blind Separation and Blind Deconvolution[J]. Neural Computation, 1995, 7(6):1129-59.
[2]Altman N S. An Introduction to Kernel and Nearest-Neighbor Nonparametric Regression[J]. American Statistician, 1992, 46(3):175-185.
[3]Ripley B D, Hjort N L. Pattern Recognition and Neural Networks[M]. Pattern recognition and neural networks. Cambridge University Press,, 1996:233-234.
[4]Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡;點擊率預測;搜索廣告
中圖分類號:TP391.41 文獻標識號:A 文章編號:2095-2163(2015)04-
Click-Through Rate Prediction for Search Advertising based on Convolution Neural Network
LI Siqin, LIN Lei, SUN Chengjie
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)
Abstract: Click-Through Rate (CTR) prediction is the foundation of search advertising. Nowadays, lots of researches have been explored to predict CTR, and most of those researches either rely on liner model or employ method of recommendation system. However, the relations between different features in CTR predication have not been fully explored in previous works, and the relations between different features also cannot be fully embodied. In this paper, CTR prediction for search advertising based on convolution neural network is proposed, and process of convolution neural network simulating the process of human thought on feature learning is explained. Furthermore, the performance of different features have been analyzed in the task of predicting CTR. Experiments are conducted on the dataset of KDD Cup 2012 Track2 and the proposed method achieves 0.7925 in AUC, demonstrating the effectiveness of the proposed approach.
Keywords: Convolution Neural Network; Click-Through Rate Prediction; Search Advertising
0 引 言
隨著Web搜索技術(shù)的成熟,搜索廣告已經(jīng)成為互聯(lián)網(wǎng)行業(yè)的主要收入來源之一,其根據(jù)用戶輸入的查詢詞,在搜索的結(jié)果頁面呈現(xiàn)出相應的廣告信息。廣告媒介的收益通過每次點擊費用(CostPerClick,CPC)與廣告點擊率(Click-Through Rate,CTR)預測共同影響而得到,即CPC*CTR。由于用戶點擊廣告的概率隨著廣告位的排放順序呈遞減趨勢,因此對CTR進行準確高效的預測,并將CTR高的廣告投放在搜索結(jié)果頁面靠前的位置,不僅能增加廣告媒介的收益,還能提高用戶對搜索結(jié)果的滿意程度。
廣告點擊率預測是廣告算法中最核心的技術(shù),近年來被學術(shù)界廣泛關(guān)注。部分學者使用基于推薦方法的模型來解決CTR預測問題?;魰则E等人[1]采用協(xié)同過濾算法,為頁面找到與其相似的其他鄰居頁面,實現(xiàn)CTR的預測,以此作為基礎(chǔ)進行廣告推薦,但當相似頁面的數(shù)量增加時,該方法的結(jié)果質(zhì)量會嚴重下滑。Kanagal等人[2]提出了一種聚焦矩陣分解模型,針對用戶對具體的產(chǎn)品的喜好以及相關(guān)產(chǎn)品的信息進行學習,解決因用戶-產(chǎn)品交互活動少而造成的數(shù)據(jù)稀疏問題。在文獻[2]的基礎(chǔ)上,Shan等人[3]提出了一種立方矩陣分解模型,通過對用戶、廣告和網(wǎng)頁三者之間關(guān)系的立方矩陣進行分解,利用擬合矩陣的值來預測CTR,雖然立方矩陣分解模型增加了一維交互關(guān)系,但所刻畫的交互關(guān)系仍然十分局限,不能在CTR預測中充分挖掘廣告所有特征之間的聯(lián)系。
作為典型的預測問題,很多研究中通過將CTR預測問題看作分類或者回歸問題來解決,其中最常見的是應用線性模型來預測CTR。Chapelle等人[4]使用動態(tài)貝葉斯網(wǎng)絡,通過對用戶產(chǎn)生的點擊過程建立模型,考慮級聯(lián)位置的信息模擬出特定位置與相近位置的相關(guān)性,以判斷該位置上的廣告是否滿足用戶搜索要求。Chakrabarti等人[5]利用點擊反饋的相關(guān)性,通過在網(wǎng)頁和廣告詞等特征上使用邏輯回歸模型提高廣告檢索和預測的效果。Wu等人[6]基于融合的思想,將不同線性模型的實驗效果相結(jié)合,來提高搜索廣告CTR預測的結(jié)果。真實的場景中CTR的預測并非簡單的線性問題,因此,一些學者開始使用非線性模型來解決CTR的預測。Dave等人[7]在搜索廣告點擊信息以及廣告商賬戶信息上提取語義特征,使用基于投票思想的梯度提升決策樹模型,提高了CTR預測的效果。Zhang等人[8]利用神經(jīng)網(wǎng)絡模型對影響搜索廣告點擊率的因素進行的探索,從特征因素方面提高CTR預測的結(jié)果,但是資源單一,數(shù)據(jù)交互的關(guān)系沒有獲得良好的利用。
本文對基于卷積神經(jīng)網(wǎng)絡(Convolution Neural Network,CNN)的CTR預測進行研究,通過卷積與亞采樣操作的結(jié)合,能更好地學習出數(shù)據(jù)特征之間的關(guān)系,不僅解決了線性模型無法模擬真實廣告數(shù)據(jù)場景的問題,也解決了淺層學習模型無法深入挖掘特征間相互關(guān)系的問題,并且較之于傳統(tǒng)的神經(jīng)網(wǎng)絡,CNN能更好地理解特征之間的關(guān)系。在真實的數(shù)據(jù)集上的實驗驗證了本文的方法能夠提高搜索廣告中CTR預測的AUC值。
1卷積神經(jīng)網(wǎng)絡模型
1.1 卷積神經(jīng)網(wǎng)絡基本模型
卷積神經(jīng)網(wǎng)絡作為人工神經(jīng)網(wǎng)絡之一,目前已成為深度學習領(lǐng)域中研究的熱點,權(quán)值共享以及局部窗口滑動的特點使之能更好地模擬出生物神經(jīng)網(wǎng)絡。卷積神經(jīng)網(wǎng)絡在結(jié)構(gòu)上有兩個重要的組成部分:卷積層和亞采樣層。如圖1所示。
圖1 卷積層與亞采樣層結(jié)構(gòu)
Fig.1 Convolution layer and sub-sampling layer structure
在卷積層中,原始特征通過卷積核進行卷積得到輸出的特征,使用不同的卷積核就可以得到一系列不同的輸出特征。對卷積層的計算,有如下公式:
(1)
這里, 是sigmoid 函數(shù), , ; 代表輸入特征上選定的窗口,即在卷積過程中當前卷積核在計算時所對應在輸入特征上的位置; 和 分別是第 層輸入特征和第 層輸出特征上相應的值; 是卷積核的權(quán)重值; 是特征的偏置,每一層對應一個。
卷積過程,一個卷積核通過滑動會重復作用在整個輸入特征上,構(gòu)建出新的特征。同一個卷積核進行卷積時,共享相同的參數(shù),包括同樣的權(quán)重和偏置,這也使要學習的卷積神經(jīng)網(wǎng)絡參數(shù)數(shù)量大大降低了。而當我們使用不同的卷積核進行卷積時,可以得到相應的不同的輸出特征,這些輸出特征組合到一起,構(gòu)成卷積層的輸出。
在亞采樣層,前一個卷積層的輸出將作為該層的輸入特征,首先設(shè)定大小的窗口,然后通過滑動,用窗口區(qū)域中最大(或平均)的特征值來表示該窗口中的特征值,最后組合這些特征值得到降維后的特征。亞采樣過程可表示如下:
(2)
這里,類似于卷積層, 和 分別是第 層輸入特征和第 層輸出特征上相應的值, 是特征的偏置; 表示取最大值 或者平均值 的函數(shù)。
典型的卷積神經(jīng)網(wǎng)絡通常由n(n>=1)個卷積層和亞采樣層以及最末尾的m(m>=1)全連接層組合而成。一個亞采樣層跟隨在一個卷積層后出現(xiàn),通過這若干卷積層和亞采樣層后得到的特征,將經(jīng)過全連接層與輸出層相連。全連接層公式如下:
(3)
這里, 是sigmoid函數(shù), 是計算第 層到第 層時的權(quán)重值。
1.2基于卷積神經(jīng)網(wǎng)絡的CTR預測模型
研究中使用卷積神經(jīng)網(wǎng)絡對搜索廣告的CTR進行預測,網(wǎng)絡結(jié)構(gòu)如圖2所示。
圖2 卷積神經(jīng)網(wǎng)絡在搜索廣告點擊率預估中的應用
Fig.2 Convolution neural network in search ad click rate through prediction
實驗中一共設(shè)置了兩個卷積層、兩個亞采樣層以及一個全連接層。首先從歷史日志中提取相應的特征構(gòu)建出輸入(Feature_Input),設(shè)置好卷積的窗口大小后根據(jù)公式(1)對輸入特征進行卷積,每一次卷積是對窗口內(nèi)所有值的組合,因此卷積過程相當于特征融合過程。對卷積后得到的特征,設(shè)置亞采樣的窗口并根據(jù)公式(2)進行最大值-采樣,選取出窗口中的最有表達能力的特征值(最大特征值)表示整個窗口的特征,因此亞采樣過程相當于特征的萃取過程。整個卷積和亞采樣過程的結(jié)合,模擬出了人對事物的理解和總結(jié)的過程。最后將特征經(jīng)過一層全連接后連接到輸出,得到最終的預測結(jié)果。
在一次特定的卷積(或亞采樣)全過程中即訓練的一次迭代過程中,權(quán)值并不會隨著窗口的滑動而改變,即在計算中,所有窗口滑過的特征享受同樣的權(quán)值。這也是CNN區(qū)別于其他神經(jīng)網(wǎng)絡的特點――權(quán)值共享。如此即使得CNN更方便訓練,更能多角度地對特征進行學習。
2特征構(gòu)建
本文所采用的實驗數(shù)據(jù)集為KDD Cup 2012中Track 2提供的數(shù)據(jù)集。該數(shù)據(jù)由騰訊公司下的搜索品牌搜搜(SOSO)搜索引擎提供,因為涉及公司商業(yè)信息,數(shù)據(jù)經(jīng)過哈希處理。實驗數(shù)據(jù)集中,每條記錄包含12個屬性,各屬性詳解如表1所示。
研究按照實際含義將這12個屬性構(gòu)造了四大類特征:歷史點擊率特征、相似度特征、位置特征和高影響力特征。
2.1基于卷積神經(jīng)網(wǎng)絡的CTR預測模型
歷史點擊率特征是不同類別ID在歷史數(shù)據(jù)中的點擊率,雖然比較簡單但十分有效,因為歷史點擊率在一定程度上代表了類別ID對某個廣告感興趣程度的高低,當一個ID對某個廣告的歷史點擊率高時,意味著其對這個廣告更感興趣,后續(xù)點擊的概率也更大。
歷史點擊率( )是點擊數(shù)( )與展示數(shù)( )之比,在統(tǒng)計計算過程發(fā)現(xiàn)有很多情況下有些類別信息沒有點擊實例,因此研究采用了平滑方法解決零值問題,根據(jù)公式(4)來計算平均點擊率。計算公式如下:
(4)
公式中的 和 是調(diào)節(jié)參數(shù),根據(jù)公式(4)計算出AdID,AdvertiserID,QueryID,KeywordID,TitleID,DescriptiomID,UserID的歷史點擊率。
2.2相似度特征
相似度特征用來刻畫屬性兩兩之間的相似程度,用戶搜索的內(nèi)容與被投放的廣告屬性相似度高時,廣告被點擊的概率更大。例如當搜索內(nèi)容Query與廣告關(guān)鍵字屬性Keyword相似度高時,意味著網(wǎng)頁投放的廣告與用戶期望搜索的廣告結(jié)果相似度高,更符合用戶點擊廣告的動作。
通過對Query、Keyword、Title、Description的屬性描述文件構(gòu)造出相關(guān)的TF-IDF向量,Query為用戶搜索內(nèi)容,Keyword,Title,Description是廣告的相關(guān)屬性,數(shù)據(jù)集提供的屬性信息都是經(jīng)過哈希后的數(shù)字形式,但是屬性之間的相對含義不變,然后計算相互之間的余弦相似度作為特征。
2.3位置特征
該特征描述的是指定廣告在搜索結(jié)果頁面中的位置信息。用戶搜索時需求的多樣化要求在對廣告進行排序和投放時,在結(jié)果頁面靠前的位置中盡可能地投放滿足用戶需求的廣告,從而最大化用戶的滿意度、提高用戶點擊的興趣[9]。因此,研究即用當前預測廣告的相對位置Pos來刻畫該廣告在結(jié)果頁面中排序靠前的程度,其定義如下:
(5)
這里, 指頁面投放的廣告總數(shù), 指當前所預測廣告的位置。
2.4位置特征
在預測模型中,ID屬性信息通常采用one-hot形式的特征編碼方式,在將不同的屬性經(jīng)過one-hot編碼后的特征向量組合在一起,這樣方式簡單直觀,卻使得特征的維度巨大并且非常稀疏。然而在這龐大且稀疏的特征中,絕大部分維度上的特征值對整個模型的預測結(jié)果貢獻非常小甚至為零,只有少數(shù)維度上的特征值對預測結(jié)果有較高的影響力。因此研究采用L1范數(shù)正則化的方式,在邏輯回歸模型的代價函數(shù)中加入L1范數(shù)[10],使得模型學習得到的結(jié)果滿足稀疏化,在學習參數(shù)中按大小順序取出前N維權(quán)重較大的,將這N維權(quán)重對應位置上的特征值構(gòu)建新的特征,稱為高影響力特征,考慮到實驗硬件,取N=180。
3 實驗結(jié)果與結(jié)論分析
3.1數(shù)據(jù)準備
實驗目標是通過給定的信息預測搜索網(wǎng)頁的廣告點擊率,由于數(shù)據(jù)量過大并且正負樣本不平衡,實驗中從訓練集隨機采樣10%作為本文實驗中模型訓練的訓練集,既縮小了樣本空間,同時隨機采樣也保持了原始數(shù)據(jù)的分布信息。實驗中隨機抽取部分樣本作為驗證集用于參數(shù)的調(diào)節(jié)。本文所用測試集為 KDD Cup 2012中track 2的全部測試數(shù)據(jù),因此本文的結(jié)果與KDD Cup 2012中track 2比賽的結(jié)果具有可比性。數(shù)據(jù)的統(tǒng)計信息如表2所示。
這里, 、 分別表示結(jié)果中預測對的正樣本數(shù)和負樣本數(shù), 、 分別表示結(jié)果中預測錯的正樣本數(shù)和負樣本數(shù)。對于廣告點擊率預測問題,較大的AUC值代表了較好的性能。
3.2實驗設(shè)置和結(jié)果分析
實驗的操作系統(tǒng)為Ubuntu 12.04 LTS OS,卷積神經(jīng)網(wǎng)絡在4G RAM 的NVIDIA GeForce GT 610 GPU條件下運行。過程中選用了Dense Gaussian對卷積層、亞采樣層的邊和節(jié)點進行初始化,用常數(shù)初始化輸出層,學習卷積神經(jīng)網(wǎng)絡各邊權(quán)值時的優(yōu)化函數(shù)使用梯度下降算法,其中學習率為0.01、動量項為0.9,訓練步數(shù)為100,設(shè)置公式(4)中參數(shù)α=0.05,β=75。實驗時使用邏輯回歸模型(LR)、支持向量回歸模型(SVR)和深度神經(jīng)網(wǎng)絡(DNN)作為對比方法,所有方法都使用相同的特征,其中DNN的層數(shù)以及每層的節(jié)點數(shù)與卷積神經(jīng)網(wǎng)絡相同。
具體地,首先探究了卷積神經(jīng)網(wǎng)絡中節(jié)點的設(shè)置,因為在CNN中后續(xù)層的節(jié)點數(shù)根據(jù)第一個卷積層和每層卷積(或亞采樣)滑動窗口的大小計算得到,并以第一個卷積層節(jié)點的設(shè)置為實驗變量,同時控制DNN中每層的節(jié)點數(shù)均與CNN相同,在驗證集上的實驗結(jié)果如圖3所示。
從圖3可以看出,隨著節(jié)點的增加,AUC的值也在不斷增長,在一定范圍內(nèi),節(jié)點數(shù)越多,實驗的結(jié)果越好。但隨著節(jié)點數(shù)的增大,模型的訓練時間也在延長,對設(shè)備的開銷需求也在升高,綜合上述因素,最終將第一層的節(jié)點數(shù)設(shè)為9 216。
CNN與各對比實驗的實驗結(jié)果如表3所示,可以看出CNN的效果最佳,此外在表中還列出了KDD Cup 2012 track 2比賽中第一名的結(jié)果。DNN的AUC值優(yōu)于LR和SVR,驗證了深度學習模型比淺層學習模型更適合解決CTR預估問題,同時CNN的結(jié)果高于DNN,說明CNN中卷積層的特征融合和亞采樣層的特征萃取過程是有效的。本文中CNN目前的實驗結(jié)果略低于KDD Cup 2012 track 2中第一名的結(jié)果,原因是比賽隊伍使用了多模型融合并提取了龐大的(千萬維)輸入特征。
進一步地,實驗探索了每一類特征對搜索廣告點擊率預測的貢獻。在所有特征的情況下,去掉某一類特征來進行預測,實驗結(jié)果如表4所示。實驗結(jié)果表明,去掉任意一類特征都將使得實驗效果有所下降。其中去掉歷史點擊率特征效果下降得最明顯,說明用戶是否點擊廣告,與其之前的點擊行為非常相關(guān)。而去掉位置特征時,效果下降得最為不明顯,因為在實驗使用的數(shù)據(jù)集中,每個頁面最多僅呈現(xiàn)三個廣告,頁面中的廣告數(shù)少時,位置對用戶點擊的影響小。
4 結(jié)束語
對搜索廣告點擊率的有效預測不但能夠更好的提高在線廣告投放的性能,增加廣告商的收益,還能增強用戶的體驗。研究使用卷積神經(jīng)網(wǎng)絡CNN對搜索廣告點擊率進行預測,對特征因素的分析之后,在真實數(shù)據(jù)的環(huán)境下對搜索廣告點擊率進行預測的實驗本文的方法的效果相對于其他方法有明顯的提高。本文的主要貢獻有:(1)本文提出了基于卷積神經(jīng)網(wǎng)絡的搜索廣告點擊率預測的方法。(2)針對高維特征,提出了一種特征選擇策略,可以在計算能力受限的情況下使用CNN模型來解決廣告點擊預測問題,并取得較好效果。在未來的工作中,一方面要繼續(xù)研究更有效的特征來提高對點擊率的預測效果,另一方面也將嘗試對CNN模型的內(nèi)部細節(jié)進行改進,使之更適合我們的預測場景。
參考文獻:
[1] 霍曉駿,賀牛楊燕. 一種無位置偏見的廣告協(xié)同推薦算法[J]. 計算機工程, 2014, 40(12): 39-44.
[2] BHARGAV K, AHMED A, PANDEY S, et al. Focused matrix factorization for audience selection in display advertising[C]// Data Engineering (ICDE), 2013 IEEE 29th International Conference on, Brisbane , Australia: IEEE, 2013:386-397.
[3] SHAN Lili, LEI Lin, DI Shao, et al. CTR Prediction for DSP with Improved Cube Factorization Model from Historical Bidding Log[M]// C K Loo, et al(Eds.): Neural Information Processing. Switzerland:Springer,2014,8836:17-24.
[4] OLIVIER C, ZHANG Ya. A dynamic bayesian network click model for web search ranking[C]//Proceedings of the 18th international conference on World wide web. Madrid: ACM,2009:1-10.
[5] DEEPAYAN C, AGARWAL D, JOSIFOVSKI V. Contextual advertising by combining relevance with click feedback[C]//Proceedings of the 17th international conference on World Wide Web. Beijing: ACM,2008:417-426.
[6] WU Kuanwei, FERNG C S, HO C H, et al., A two-stage ensemble of diverse models for advertisement ranking in KDD Cup 2012[J]. KDDCup, 2012.
[7] DAVE K S, VARMA V. Learning the click-through rate for rare/new ads from similar ads[C]// Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Geneva, Switzerland:ACM,2010.
[8] ZHANG Ying, JANSEN B J , SPINK A. Identification of factors predicting clickthrough in Web searching using neural network analysis[J]. Journal of the American Society for Information Science and Technology, 2009, 60(3): 557-570.
[9] 林古立.互聯(lián)網(wǎng)信息檢索中的多樣化排序研究及應用[D].華南理工大學,2011.
關(guān)鍵詞:深度學習;行為識別;神經(jīng)網(wǎng)絡
1 概述
動作行為識別是計算機視覺領(lǐng)域中的一個研究熱點,已經(jīng)廣泛應用于智能監(jiān)控、人機交互、視頻檢索等領(lǐng)域中[1]。動作行為識別技術(shù)是通過對視頻或者圖像中人體動作行為做出有意義的判斷。有效表達圖像(視頻)中的實際目標和場景內(nèi)容是最基本,最核心的問題。因此,對于特征的構(gòu)建和選擇得到廣泛關(guān)注,例如STIP、SIFT、MSER等。但是,能通過無監(jiān)督方式讓機器自動從樣本中學習到表征樣本的特征,會讓人們更好地利用計算機來實現(xiàn)人的視覺功能。而深度學習作為神經(jīng)網(wǎng)絡的延伸和發(fā)展,是通過逐層構(gòu)建一個多層網(wǎng)絡來使得機器自動學習到隱含在數(shù)據(jù)內(nèi)部的關(guān)系,從而讓學習到的特征更加準確性。
文章旨在探討深度學習與機器學習(神經(jīng)網(wǎng)絡)之間的關(guān)系,并且介紹深度學習的由來、概念和原理;同時介紹目前深度學習在計算機視覺中的應用。最后提出深度學習目前發(fā)展所面臨的問題,以及對未來的展望。
2 深度學習
2.1 深度學習概述
深度學習源于人工神經(jīng)網(wǎng)絡的研究,是機器學習的拓展。深度學習是經(jīng)過組合低層特征來形成更加抽象的屬性類別和特征,從中發(fā)現(xiàn)原始數(shù)據(jù)的特征表征[2]?,F(xiàn)在用于動作行為識別的技術(shù)是通過“動作表征”+“動作分類器”的框架來進行行為識別的。其中“動作表征”是人們手動設(shè)計特征獲取到的,也就是在目前識別框架內(nèi)存在一個對動作圖像(視頻)的預處理過程。
深度學習和淺層學習相對。目前許多學習算法是淺層網(wǎng)絡學習方法,具有一定的局限性,例如在樣本有限的狀況下,表示復雜函數(shù)的能力有限制,且對復雜分類問題的泛化能力也會受到一定約束[3]。而深度學習通過學習深層非線性網(wǎng)絡結(jié)構(gòu),達到復雜函數(shù)逼近,又能在樣本少的情況下學習原始數(shù)據(jù)的特征。BP算法作為傳統(tǒng)神經(jīng)網(wǎng)絡的典型算法,雖然訓練多層網(wǎng)絡,但僅含幾層網(wǎng)絡,訓練方法很不理想[3]。因為其輸入和輸出間非線性映射讓網(wǎng)絡誤差函數(shù)形成含多個極小點的非線性空間,因而經(jīng)常收斂到局部最小,且隨著網(wǎng)絡層數(shù)的增加,容易過擬合。而深度學習可以獲得分布式表示,通過逐層學習算法來得到原始輸入數(shù)據(jù)的主要變量。通過深度學習的非監(jiān)督訓練完成,同時利用生成性訓練避免因函數(shù)表達能力過強而出現(xiàn)過擬合情況。
2.2 深度學習原理
傳統(tǒng)機器學習僅含單層非線性變換的淺層網(wǎng)絡結(jié)構(gòu),而且淺層模型單一。這對于深度網(wǎng)絡來說易造成陷入最優(yōu)或產(chǎn)生梯度分散等問題。因此,Hinton等人在基于深度置信網(wǎng)(DBNs)的情況下提出非監(jiān)督貪婪逐層訓練算法,隨后提出了多層次自動編碼器深層結(jié)構(gòu),這給解決深層網(wǎng)絡結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來了希望。此外Lecun等人提出的卷積神經(jīng)網(wǎng)絡是第一個多層次結(jié)構(gòu)的學習算法。同時深度學習還出現(xiàn)了許多結(jié)構(gòu):多層感知機、去噪自動編碼器、稀疏編碼等。
卷積神經(jīng)網(wǎng)絡是第一個真正采用多層次網(wǎng)絡結(jié)構(gòu),具有魯棒性的深度學習算法,通過探究數(shù)據(jù)在空間上的相關(guān)性,減少訓練參數(shù)的數(shù)量。而且卷積神經(jīng)網(wǎng)絡(CNN)適應性強,善于發(fā)現(xiàn)數(shù)據(jù)的局部特征。它的權(quán)重共享結(jié)構(gòu)降低了網(wǎng)絡模型的復雜度,減少了權(quán)值的數(shù)量,使得卷積神經(jīng)網(wǎng)絡在模式識別中取得了很好的結(jié)果。
自動編碼器的核心關(guān)鍵是將原始圖像(視頻)輸入信號進行編碼,使用編碼后的信號來重建原始信號,使得兩者之間的重建誤差最小。通過將原始信號編碼成另一形式,能夠有效地提取信號中的主要信息,能夠簡潔地表達原始圖像(視頻)的特征。
3 深度學習的應用
3.1 語音識別
從2009年開始,微軟研究院語音識別專家通過與Hinton合作,首先將RBM和DBN引入到語音識別聲學模型訓練中,使得語音識別的錯誤率相對減低30%,這徹底改變了語音識別原有的技術(shù)框架。在國際上,IBM、google等公司都快速進行了DNN語音識別的研究,并且速度飛快。國內(nèi)方面,阿里巴巴,科大訊飛、百度、中科院自動化所等公司或研究單位,也在進行深度學習在語音識別上的研究。
3.2 視頻中的動作行為識別
準確迅速識別視頻中人的動作行為對于視頻搜索和視頻監(jiān)控具有劃時代的意義。最近幾年,深度學習技術(shù)被應用于視頻動作行為識別中。如Ji等人[4]提出多層網(wǎng)絡的3D卷積神經(jīng)網(wǎng)絡來學習視頻中的時空特征,并通過卷積來實現(xiàn)對整個視頻特征的學習,從而代替之前的時空興趣點檢測和特征描述提取。在TRECVID數(shù)據(jù)庫上進行的實驗取得了不錯效果。
4 結(jié)束語
文章對深度學習的主要概念進行了全面闡述,包括其由來、原理、研究進展和相應的應用等。在很多領(lǐng)域中,深度學習都表現(xiàn)了潛在的巨大價值,但深度學習作為淺層學習的延伸,仍處于發(fā)展階段,還有很多問題值得我們深入探討:
(1)我們需要了解深度學習的樣本復雜度,需要多少訓練樣本才能學習到足夠的深度模型。
(2)在推進深度學習的學習理論和計算理論的同時,我們是否可以建立一個通用的深度學習網(wǎng)絡模型,作為統(tǒng)一的框架來處理語音、圖像和語言。
(3)神經(jīng)網(wǎng)絡具有前饋性連接和反饋性連接,可是我們研究的深度網(wǎng)絡中還沒有加入反饋連接,這些都給深度學習的研究帶來了嚴峻的挑戰(zhàn)。
參考文獻
[1]王亮,胡衛(wèi)明,譚鐵牛.人運動的視覺分析綜述[J].計算機學報,2002,25(3):225-237.
[2]余凱,賈磊,陳雨強.深度學習的昨天、今天和明天[J].計算機研究與發(fā)展,2013,50(9):1799-1804.
關(guān)鍵詞:人工智能 機器學習 機器人情感獲得 發(fā)展綜述
中圖分類號:TP18 文獻標識碼:A 文章編號:1003-9082 (2017) 04-0234-01
引言
人類自從工業(yè)革命結(jié)束之后,就已然開始了對人工智能的探索,究其本質(zhì),實際上就是對人的思維進行模仿,以此代替人類工作。人工智能的探索最早可以追溯到圖靈時期,那時圖靈就希望未來的智能系統(tǒng)能夠像人一樣思考。在20世紀五十年代,人工智能被首次確定為一個新興的學科,并吸引了大批的學者投入到該領(lǐng)域的研究當中。經(jīng)過長時間的探索和嘗試,人工智能的許多重要基本理論已經(jīng)形成,如模式識別、特征表示與推理、機器學習的相關(guān)理論和算法等等。進入二十一世紀以來,隨著深度學習與卷積神經(jīng)網(wǎng)絡的發(fā)展,人工智能再一次成為研究熱點。人工智能技術(shù)與基因過程、納米科學并列為二十一世紀的三大尖端技術(shù), 并且人工智能涉及的學科多,社會應用廣泛,對其原理和本質(zhì)的理解也更為復雜。 一、人工智能的發(fā)展歷程
回顧人工智能的產(chǎn)生與發(fā)展過程 ,可以將其分為:初期形成階段,綜合發(fā)展階段和應用階段。
1.初期形成階段
人工智能這一思想最早的提出是基于對人腦神經(jīng)元模型的抽象。其早期工作被認為是由美國的神經(jīng)學家和控制論學者 Warren McCulloch與Walter Pitts共同完成的。在1951年,兩名普林斯頓大學的研究生制造出了第一臺人工神經(jīng)元計算機。而其真正作為一個新的概念被提出是在1956年舉行的達茅斯會議上。由麥卡錫提議并正式采用了“人工智能”(Artificial Intelligence)礱枋穌庖謊芯咳綰斡沒器來模擬人類智能的新興學科。1969年的國際人工智能聯(lián)合會議標志著人工智能得到了國際的認可。至此,人工智能這一概念初步形成,也逐漸吸引了從事數(shù)學、生物、計算機、神經(jīng)科學等相關(guān)學科的學者參與該領(lǐng)域的研究。
2.綜合發(fā)展階段
1.7 7年, 費根鮑姆在第五屆國際人工智能聯(lián)合會議上正式提出了“知識工程”這一概念。而后其對應的專家系統(tǒng)得到發(fā)展,許多智能系統(tǒng)紛紛被推出,并應用到了人類生活的方方面面。20世紀80年代以來,專家系統(tǒng)逐步向多技術(shù)、多方法的綜合集成與多學科、多領(lǐng)域的綜合應用型發(fā)展。大型專家系統(tǒng)開發(fā)采用了多種人工智能語言、多種知識表示方法、多種推理機制和多種控制策略相結(jié)合的方式, 并開始運用各種專家系統(tǒng)外殼、專家系統(tǒng)開發(fā)工具和專家系統(tǒng)開發(fā)環(huán)境等等。在專家系統(tǒng)的發(fā)展過程中,人工智能得到了較為系統(tǒng)和全面的綜合發(fā)展,并能夠在一些具體的任務中接近甚至超過人類專家的水平。
3.應用階段
進入二十一世紀以后,由于深度人工神經(jīng)網(wǎng)絡的提出,并在圖像分類與識別的任務上遠遠超過了傳統(tǒng)的方法,人工智能掀起了前所未有的。2006年,由加拿大多倫多大學的Geoffery Hinton及其學生在《Science》雜志上發(fā)表文章,其中首次提到了深度學習這一思想,實現(xiàn)對數(shù)據(jù)的分級表達,降低了經(jīng)典神經(jīng)網(wǎng)絡的訓練難度。并隨后提出了如深度卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN),以及區(qū)域卷積神經(jīng)網(wǎng)絡(Region-based Convolutional Neural Network, R-CNN),等等新的網(wǎng)絡訓練結(jié)構(gòu),使得訓練和測試的效率得到大幅提升,識別準確率也顯著提高。
二、人工智能核心技術(shù)
人工智能由于其涉及的領(lǐng)域較多,內(nèi)容復雜,因此在不同的應用場景涉及到許多核心技術(shù),這其中如專家系統(tǒng)、機器學習、模式識別、人工神經(jīng)網(wǎng)絡等是最重要也是發(fā)展較為完善的幾個核心技術(shù)。
1.專家系統(tǒng)
專家系統(tǒng)是一類具有專門知識和經(jīng)驗的計算機智能程序系統(tǒng),通過對人類專家的問題求解能力建模,采用人工智能中的知識表示和知識推理技術(shù)來模擬通常由專家才能解決的復雜問題,達到具有與專家同等解決問題能力的水平。對專家系統(tǒng)的研究,是人工智能中開展得較為全面、系統(tǒng)且已經(jīng)取得廣泛應用的技術(shù)。許多成熟而先進的專家系統(tǒng)已經(jīng)被應用在如醫(yī)療診斷、地質(zhì)勘測、文化教育等方面。
2.機器學習
機器學習是一個讓計算機在非精確編程下進行活動的科學,也就是機器自己獲取知識。起初,機器學習被大量應用在圖像識別等學習任務中,后來,機器學習不再限于識別字符、圖像中的某個目標,而是將其應用到機器人、基因數(shù)據(jù)的分析甚至是金融市場的預測中。在機器學習的發(fā)展過程中,先后誕生了如凸優(yōu)化、核方法、支持向量機、Boosting算法等等一系列經(jīng)典的機器學習方法和理論。機器學習也是人工智能研究中最為重要的核心方向。
3.模式識別
模式識別是研究如何使機器具有感知能力 ,主要研究圖像和語音等的識別。其經(jīng)典算法包括如k-means,主成分分析(PCA),貝葉斯分類器等等。在日常生活各方面以及軍事上都有廣大的用途。近年來迅速發(fā)展起來應用模糊數(shù)學模式、人工神經(jīng)網(wǎng)絡模式的方法逐漸取代傳統(tǒng)的基于統(tǒng)計學習的識別方法。圖形識別方面例如識別各種印刷體和某些手寫體文字,識別指紋、癌細胞等技術(shù)已經(jīng)進入實際應用。語音識別主要研究各種語音信號的分類,和自然語言理解等等。模式識別技術(shù)是人工智能的一大應用領(lǐng)域,其非常熱門的如人臉識別、手勢識別等等對人們的生活有著十分直接的影響。
4.人工神經(jīng)網(wǎng)絡
人工神經(jīng)網(wǎng)絡是在研究人腦的結(jié)構(gòu)中得到啟發(fā), 試圖用大量的處理單元模仿人腦神經(jīng)系統(tǒng)工程結(jié)構(gòu)和工作機理。而近年來發(fā)展的深度卷積神經(jīng)網(wǎng)絡(Convolutional neural networks, CNNs)具有更復雜的網(wǎng)絡結(jié)構(gòu),與經(jīng)典的機器學習算法相比在大數(shù)據(jù)的訓練下有著更強的特征學習和表達能力。含有多個隱含層的神經(jīng)網(wǎng)絡能夠?qū)斎朐紨?shù)據(jù)有更抽象喝更本質(zhì)的表述,從而有利于解決特征可視化以及分類問題。另外,通過實現(xiàn)“逐層初始化”這一方法,實現(xiàn)對輸入數(shù)據(jù)的分級表達,可以有效降低神經(jīng)網(wǎng)絡的訓練難度。目前的神經(jīng)網(wǎng)絡在圖像識別任務中取得了十分明顯的進展,基于CNN的圖像識別技術(shù)也一直是學術(shù)界與工業(yè)界一致追捧的熱點。
三、機器人情感獲得
1.智能C器人現(xiàn)狀
目前智能機器人的研究還主要基于智能控制技術(shù),通過預先定義好的機器人行動規(guī)則,編程實現(xiàn)復雜的自動控制,完成機器人的移動過程。而人類進行動作、行為的學習主要是通過模仿及與環(huán)境的交互。從這個意義上說,目前智能機器人還不具有類腦的多模態(tài)感知及基于感知信息的類腦自主決策能力。在運動機制方面,目前幾乎所有的智能機器人都不具備類人的外周神經(jīng)系統(tǒng),其靈活性和自適應性與人類運動系統(tǒng)還具有較大差距。
2.機器人情感獲得的可能性
人腦是在與外界永不停息的交互中,在高度發(fā)達的神經(jīng)系統(tǒng)的處理下獲得情感。智能機器人在不斷的機器學習和大數(shù)據(jù)處理中,中樞處理系統(tǒng)不斷地自我更新、升級,便具備了獲得情感的可能性及幾率。不斷地更新、升級的過程類似于生物的進化歷程,也就是說,智能機器人有充分的可能性獲得與人類同等豐富的情感世界。
3.機器人獲得情感的利弊
機器人獲得情感在理論可行的情況下,伴之而來的利弊則眾說紛紜。一方面,擁有豐富情感世界的機器人可以帶來更多人性化的服務,人機合作也可進行地更加深入,可以為人類帶來更為逼真的體驗和享受。人類或可與智能機器人攜手共創(chuàng)一個和諧世界。但是另一方面,在機器人獲得情感時,機器人是否能徹底貫徹人類命令及協(xié)議的擔憂也迎面而來。
4.規(guī)避機器人情感獲得的風險
規(guī)避智能機器人獲得情感的風險應預備強制措施。首先要設(shè)計完備的智能機器人情感協(xié)議,將威脅泯滅于未然。其次,應控制智能機器人的能源獲得,以限制其自主活動的能力,杜絕其建立獨立體系的可能。最后,要掌控核心武器,必要時強行停止運行、回收、甚至銷毀智能機器人。
三、總結(jié)
本文梳理了人工智能的發(fā)展歷程與核心技術(shù),可以毋庸置疑地說,人工智能具有極其廣闊的應用前景,但也伴隨著極大的風險?;仡櫰浒l(fā)展歷程,我們有理由充分相信,在未來人工智能的技術(shù)會不斷完善,難題會被攻克。作為世界上最熱門的領(lǐng)域之一,在合理有效規(guī)避其風險的同時,獲得情感的智能機器人會造福人類,并極大地幫助人們的社會生活。
參考文獻
[1]韓曄彤.人工智能技術(shù)發(fā)展及應用研究綜述[J].電子制作,2016,(12):95.
[2]曾毅,劉成林,譚鐵牛.類腦智能研究的回顧與展望[J].計算機學報,2016,(01):212-222.
[3]張越.人工智能綜述:讓機器像人類一樣思考
【關(guān)鍵詞】人工智能 醫(yī)學領(lǐng)域
1 引言
人工智能(AI)是上世紀50年展起來的新興學科,主要內(nèi)容包括:知識表示、自然語言理解、機器學習和知識獲取、知識處理系統(tǒng)、計算機視覺、自動推理和搜索方法、智能機器人、自動程序設(shè)計等方面。在過去的幾十年里人工智能涌現(xiàn)出了大量的方法,大致可分為兩大類:第一類是基于Newell和Simon的物理符號系統(tǒng)假說的符號處理方法。這種方法大多采用從知識階段向下到符號和實施階段的自上而下的設(shè)計方法,第二類是采用自下而上設(shè)計的“字符號”方法。
2 人工智能的發(fā)展
全球?qū)θ斯ぶ悄艿难邪l(fā)經(jīng)歷了已經(jīng)有70年的發(fā)展,從上個世紀的50年代開始一直到今天,歷經(jīng)了兩次大起大落,但伴隨著深度學習的重燃、龐大的大數(shù)據(jù)支撐以及計算能力的不斷提升和成本的不斷下降這些因素的出現(xiàn),尤其是在摩爾定律、大數(shù)據(jù)、互聯(lián)網(wǎng)和云計算、新方法這些人工智能進步的催化劑作用下,將迎來人工智能新的春天。
3 人工智能在醫(yī)學領(lǐng)域上的應用
3.1 在神經(jīng)網(wǎng)絡中人工智能的應用
在醫(yī)學診斷中人工智能的應用會出現(xiàn)一些難題,例如知識獲取比較難、推理速度慢、自主學習以及自適應變化能力弱。研究人腦連接發(fā)現(xiàn)了以人工神經(jīng)為特點可以解決在獲取知識中所出現(xiàn)的瓶頸和知識種類繁瑣問題,能夠提高對知識的推理能力,包括自主學習,自組織等方面的能力,促進了神經(jīng)網(wǎng)絡在醫(yī)學專家系統(tǒng)中的快速發(fā)展。
人工智能領(lǐng)域ANN,有不同于其他人工智能的方法,在傳統(tǒng)的結(jié)構(gòu)上,它只是AI分支中的一個,只能通過邏輯符號來模擬人腦的思維方式,進一步來實現(xiàn)人工智能,與之相比,不同的ANN是學習和訓練為一體來達到智能的。ANN具有學習的能力及特殊方法,用戶不用編寫復雜的程序來解決所遇到的問題,只用提供有效的數(shù)據(jù)就可以完成。迄今為止,醫(yī)學領(lǐng)域中對大部分的病理原因無法解釋,無法確定病理原因,加上各種疾病的表現(xiàn)種類復雜多變。在醫(yī)學的日常實踐中,疾病相應的治療只能以經(jīng)驗為基礎(chǔ)來判斷。所以,ANN有著記憶,學習和歸納總結(jié)為一體的人工智能服務,在醫(yī)學領(lǐng)域有很好的應用發(fā)展趨勢。
3.2 在中醫(yī)學中人工神經(jīng)網(wǎng)絡的應用
在中醫(yī)學中,所提出的“辨證論治”中的“證”具有模棚性、不確定性的特點,主觀性比較強,因此中醫(yī)的診斷方法和治療手段與醫(yī)師的經(jīng)驗水平有很大聯(lián)系。數(shù)年來在實驗研究,臨床觀察,文章整理,經(jīng)驗總結(jié)上,都有著對“證”的研究思想的深入調(diào)查。一部分“辨證”的過程可以用人工神經(jīng)網(wǎng)絡來替換使用。恰當?shù)闹嗅t(yī)癥狀可以作為基本輸入和適當人工神經(jīng)網(wǎng)絡模型,人工神經(jīng)網(wǎng)絡能夠根據(jù)以往的學習“經(jīng)驗”來進行綜合分析,從而提出中醫(yī)診斷方法。
由神經(jīng)元結(jié)構(gòu)模型、網(wǎng)絡連接模型、網(wǎng)絡學習算法等幾個要素組成了人工神經(jīng)網(wǎng)絡。具有某些智能系統(tǒng)的功能。 按照網(wǎng)絡結(jié)構(gòu)來劃分,人工神經(jīng)網(wǎng)絡有很多不同的種類,例如感知器、BP網(wǎng)絡、Hopfield網(wǎng)絡等,目前應用最為廣泛的神經(jīng)網(wǎng)絡就是其中的BP網(wǎng)絡。這種前沿網(wǎng)絡非 BP網(wǎng)絡所屬,網(wǎng)絡的結(jié)構(gòu)與權(quán)值能夠表達復雜的非線性 I/0映射關(guān)系。憑借 BP網(wǎng)絡優(yōu)良的自主學習功能,既可以通過誤差的反向傳播方法,對照已知樣本反復進行訓練,也可以調(diào)整網(wǎng)絡的權(quán)值,直到網(wǎng)絡的 I/0關(guān)系在某一塊訓練指標下最接近樣本為止。
3.3 人工智能在臨床醫(yī)療診斷中的應用
計算機編寫的程序主要根據(jù)專家系統(tǒng)的設(shè)計原理和方法來模擬醫(yī)生的醫(yī)學診斷,以及通常治療手段的思維過程來進行。醫(yī)療專家系統(tǒng)是臨床醫(yī)療診斷中人工智能的很好體現(xiàn),不僅能夠處理較為復雜的醫(yī)學治療問題,還能當做醫(yī)生診斷疾病的重要工具,更重要的是傳承了專家們的寶貴醫(yī)學治療經(jīng)驗。
3.4 人工智能技術(shù)在醫(yī)學影像診斷中的應用
目前,在醫(yī)學影像中存在著的問題,比如:誤診率高、缺口大。這些問題需要通過人工智能的方法來解決。在醫(yī)學影像技術(shù)領(lǐng)域人工智能的應用包括主要的兩個方面,分別是:第一個方面為圖像識別,第二個方面為深度學習,其中人工智能應用最核心的部分實深度學習。這兩個部分都是基于醫(yī)學影像大數(shù)據(jù)所進行的數(shù)據(jù)上的挖掘和應用。這兩個方面所進行的數(shù)據(jù)挖掘及其應用都是依據(jù)醫(yī)學影像大數(shù)據(jù)來完成的。
Geoffrey Hinton教授是神經(jīng)網(wǎng)絡領(lǐng)域的大師,2006年,他與其博士生在《Science》和相關(guān)的期刊上發(fā)表了論文,第一次提出了“深度信念網(wǎng)絡”的概念。2012年,由斯坦福大學Fei-Fei Li教授舉辦的ImageNet ILSVRC大規(guī)模圖像識別評測任務是由Hinton教授的研究團隊參加的。這個任務包括了120萬張高分辨率圖片,1000個類比。Hinton教授團隊使用了全新的黑科技多層卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),將圖像識別錯誤率突破性地從26.2%降低到了15.3%。 這個革命性的技術(shù),讓神經(jīng)網(wǎng)絡深度學習以迅速的速度進入了醫(yī)療和工業(yè)的領(lǐng)域范圍,隨后這一技術(shù)被陸續(xù)出現(xiàn)的醫(yī)療影像公司使用。例如:國際知名的醫(yī)學影像公司Enlitic和國內(nèi)剛剛獲得有峰瑞資本600萬天使輪融資的DeepCare。都是不斷積累大量影像數(shù)據(jù)和診斷數(shù)據(jù),繼續(xù)對神經(jīng)元網(wǎng)絡進行深度的學習訓練,從而有效的提高了醫(yī)生診斷的準確率。
人工智能不僅能使患者的健康檢查快速進行,包括X光、B超、核磁共振等。另外還能大量減少醫(yī)生的讀片時間,提升了醫(yī)生的工作效率,降低誤診率。
4 總結(jié)
人工智能軟件工作效率遠遠超過了人類大腦,不僅能夠更快速的找到數(shù)據(jù)的模式和相似性,還能有效幫助醫(yī)生和科學家提取重要的信息。隨著人工智能的發(fā)展及其在醫(yī)學領(lǐng)域的逐漸普及和應用,兩者的互相融合在未來必定成為醫(yī)學發(fā)展的重要方向。
參考文獻
[1]馮伍,張俊蘭.人工智能在醫(yī)學上的應用[J].電子設(shè)計工程,2010(01).
[2]楊琴,陳家榮.人工智能在醫(yī)學領(lǐng)域中的應用[J].科技風,2012(12),100-101.
[3]王宇飛,孫欣.人工智能的研究與應用[J].信息與電腦,2016(05).
[4]鉛筆道.人工智能與影像診斷相結(jié)合的醫(yī)生界阿爾法狗,2016(03).
人工智能的概念已提出60年,從原來的理論框架體系的搭建,到實驗室關(guān)鍵技術(shù)的準備,如今已開始進入全新的發(fā)展階段――產(chǎn)業(yè)化。
目前,從基本的算法到腦科學研究,人工智能都還沒有突破性進展的可能性。但是,以深度神經(jīng)網(wǎng)絡為代表的人工智能,結(jié)合日新月異的大數(shù)據(jù)、云計算和移動互聯(lián)網(wǎng),就可以在未來5到10年改變我們的世界。
人工智能+時代的兩大機遇
人工智能不僅將替代簡單重復的勞動,還將替代越來越多的復雜的高級腦力活動,創(chuàng)造一個個新的機會??梢哉f,任何一個行業(yè)、企業(yè)或今天的創(chuàng)業(yè)者,如果不用人工智能改變今天的生產(chǎn)和生活方式,5年后一定會出局。
第一個趨勢是以語音為主導、以鍵盤和觸摸為輔助的人機交互時代正在到來。如今越來越多的設(shè)備不再需要屏幕,越來越多的場景我們不用直接碰觸。比如,想把燈光調(diào)亮,想打開五米之外的設(shè)備,我們的手沒法直接觸碰。再如,開車時不方便用手、用眼做其他事情。這時,語音就成為最主要的一個交互方式。
第二個趨勢是人工智能正在全球范圍內(nèi)掀起一股浪潮,“人工智能+”的時代到來,而且會比我們想象的還要快。為什么呢?麥肯錫分析認為,當前45%的工作可以被技術(shù)自動化,不只是簡單重復性的工作,CEO20%的工作也可以被機器取代?!犊茖W》雜志預測,2045年人工智能會顛覆全球50%、中國77%的就業(yè)。也就是說,今天的我們3/4的工作30年后會被人工智能取代。埃森哲認為,到2035年人工智能會讓12個發(fā)達國家經(jīng)濟增長率翻一倍。我國的增長率只有比這還高,才對得起今天的時代機遇。
從科大訊飛的情況可以看出,人工智能將迎來兩大產(chǎn)業(yè)機遇。
第一,未來3到5年,萬物互聯(lián)的時代到來,以語音為主、鍵盤觸摸為輔的人機交互將廣泛應用。第二,未來5到10年,人工智能會像水和電一樣進入各行各業(yè),深刻改變我們的生活。
認知智能是最大技術(shù)瓶頸
人工智能技術(shù)有兩種分類方法。一種分為強人工智能和弱人工智能;另一種是訊飛研究院提出的、跟技術(shù)演進路徑相關(guān)的分類,分成計算智能、感知智能和認知智能。
計算智能就是機器能存會算。就像當年IBM的深藍電腦下象棋超過卡斯帕羅夫,典型的就是因為運算能力強,提前算到了所有的結(jié)果。
感知智能,比如語音合成技術(shù),能夠讓機器開口說話。再如語音識別技術(shù),就像今天的演講,后臺系統(tǒng)把它變成文字,準確率可達95%。
認知智能是讓機器具備能理解、會思考的能力。這是最大的挑戰(zhàn),也是大家最熱切期待的技術(shù)突破。工業(yè)革命讓我們從繁重的體力勞動中解放出來,未來的認知智能會讓人從今天很多復雜的腦力勞動中解放出來。
科大訊飛選擇以語音為入口解決認知難題,進行認知革命。以人機交互為入口的目的,就是為了解決自然語言理解的技術(shù)難題。這個入口可以把人類的智慧最便捷地匯聚到后臺,供機器學習和訓練,也可以使后臺人工智能的成果最簡單直接地輸出,從社會不斷取得它學習需要的反饋信息,在此基礎(chǔ)上實現(xiàn)知識管理和推理學習。
科大訊飛承擔的科技部第一個人工智能重大專項――高考機器人。目標是為了“考大學”,但其核心技術(shù)正是語言理解、知識表達、聯(lián)想推理和自主學習。
人工智能技術(shù)正走向產(chǎn)業(yè)化
目前,科大訊飛的人工智能研究已經(jīng)取得了階段性成果。
在教育行業(yè),科大訊飛的機器人通過構(gòu)建學生全過程的學習數(shù)據(jù)和老師上課的數(shù)據(jù),提升了課堂效率,原來45分鐘的課堂,現(xiàn)在15分鐘就搞定。因為大量的內(nèi)容學生都是知道的,老師只需向個別沒掌握的學生單獨講授。這樣,老師就有時間把課堂的重點放在大家都不了解的知識上,學生可以用大量時間進行啟發(fā)式學習。借助這些手段,學生的重復性訓練可以降低50%以上。
在醫(yī)療行業(yè),科大訊飛利用語音解決門診電子病歷,利用人工智能輔助診療。學習最頂尖醫(yī)療專家知識后的人工智能產(chǎn)品,可以超過一線全科醫(yī)生的水平。當前,醫(yī)療行業(yè)一線最缺的是全科醫(yī)生和兒科醫(yī)生,引入人工智能技術(shù)就可以緩解醫(yī)療資源短缺壓力。
科大訊飛的人工智能技術(shù)還應用在汽車領(lǐng)域。在寶馬汽車去年的國際測試中,科大訊飛以86%的準確率名列第一。
在客服領(lǐng)域,機器已經(jīng)替代掉了30%的人工服務。目前,安徽移動呼叫中心有75%的服務內(nèi)容已被機器替代。
機器人還將從服務后臺走向前端。今年第四季度末或明年,服務機器人將開始在銀行和電信營業(yè)廳上崗工作,它們不僅好玩、有趣,吸引人氣,還能幫客戶解決實際問題。
【關(guān)鍵詞】人臉識別;人臉檢測;方法
Abstract:Face recognition system is one of the most popular current scientific research,In this paper,the process and prospects of face recognition system to do a simple review.The application of the system to do a simple analysis and the main method of face recognition for the corresponding category.For the future development of face recognition systems were mainly discussed.
Key words:Face Recognition;Face Detection;Methods
一、引言
隨著科學技術(shù)的突飛猛進,計算機及網(wǎng)絡的高速發(fā)展,信息的安全性、隱蔽性越來越重要,如何有效、方便的進行身份驗證和識別,已經(jīng)成為人們?nèi)找骊P(guān)心的問題。生物認證的方法,即利用人類自身的特征來進行身份認證,具有傳統(tǒng)方法沒有的有點,也解決了身份認證技術(shù)所面臨的一大難題。其具有方便、強化安全、不會丟失、遺忘或轉(zhuǎn)讓等優(yōu)點。現(xiàn)在人體生物識別技術(shù)的研究主要針對人臉、指紋、虹膜、手型、聲音等物理或行為特征來進行。本文主要對人臉識別技術(shù)的介紹。
人臉識別是指給定一個靜止或動態(tài)圖像,利用已有的人臉數(shù)據(jù)庫來確認圖像中的一個或多個人。如同人的指紋一樣,人臉也具有唯一性,也可用來鑒別一個人的身份?,F(xiàn)在己有實用的計算機自動指紋識別系統(tǒng)面世,并在安檢等部門得到應用,但還沒有通用成熟的人臉自動識別系統(tǒng)出現(xiàn)。人臉圖像的自動識別系統(tǒng)較之指紋識別系統(tǒng)、DNA鑒定等更具方便性,因為它取樣方便,可以不接觸目標就進行識別,從而開發(fā)研究的實際意義更大。另一方面,人臉表情的多樣性;以及外在的成像過程中的光照,圖像尺寸,旋轉(zhuǎn),姿勢變化等給識別帶來很大難度。因此在各種干擾條件下實現(xiàn)人臉圖像的識別,也就更具有挑戰(zhàn)性。
二、人臉識別系統(tǒng)流程
(1)人臉圖像的獲?。簣D像的獲取都是通過攝像頭攝取,但攝取的圖像可以是真人,也可以是人臉的圖片或者為了相對簡單,可以不考慮通過攝像頭來攝取頭像,而是直接給定要識別的圖像。
(2)人臉的檢測:人臉檢測的任務是判斷靜態(tài)圖像中是否存在人臉。若存在人臉,給出其在圖像中的坐標位置、人臉區(qū)域大小等信息。而人臉跟蹤則需要進一步輸出所檢測到的人臉位置、大小等狀態(tài)隨時間的連續(xù)變化情況。
圖1 人臉識別框架
(3)特征提?。和ㄟ^人臉特征點的檢測與標定可以確定人臉圖像中顯著特征點的位置(如眼睛、眉毛、鼻子、嘴巴等器官),同時還可以得到這些器官及其面部輪廓的形狀信息的描述。根據(jù)人臉特征點檢測與標定的結(jié)果,通過某些運算得到人臉特征的描述(這些特征包括:全局特征和局部特征,顯式特征和統(tǒng)計特征等)。
(4)基于人臉圖像比對的身份識別:即人臉識別問題。通過將輸入人臉圖像與人臉數(shù)據(jù)庫中的所有已知原型人臉圖像計算相似度并對其排序來給出輸入人臉的身份信息。
(5)基于人臉圖像比對的身份驗證:即人臉確認問題。系統(tǒng)在輸入人臉圖像的同時輸入一個用戶宣稱的該人臉的身份信息,系統(tǒng)要對該輸入人臉圖像的身份與宣稱的身份是否相符作出判斷。
三、人臉識別技術(shù)現(xiàn)狀及發(fā)展前景
自1995年以來,國外一些公司看準了人臉識別系統(tǒng)廣闊的應用前景,動用了大量人力和物力,自己獨立研發(fā)或與高校合作,開發(fā)了多個實用的人臉識別系統(tǒng),例如:加拿大Imagis公司的ID-2000面部識別軟件,美國Identix公司1的FaceIt人臉識別系統(tǒng),德國Human Scan公司的BioID身份識別系統(tǒng),德國Cognitec Systems公司的Face VACS人臉識別系統(tǒng)等;美國A4vision公司的3D人臉識別產(chǎn)品;等等。
國內(nèi)相關(guān)領(lǐng)域較為出名的公司有上海銀晨智能識別科技有限公司(IS'vision),他們與中科院計算所聯(lián)合開發(fā)了會議代表身份認證/識別系統(tǒng)、嫌疑人面像比對系統(tǒng)、面像識別考勤/門禁系統(tǒng)、出人口黑名單監(jiān)控系統(tǒng)等多種自動人臉識別應用系統(tǒng)。2008年,北京奧運會開幕式正式使用了中國自主知識產(chǎn)權(quán)的人臉識別比對系統(tǒng);2010年4月1日起,國際民航組織(ICAO)已確定其118個成員國家和地區(qū)必須使用機讀護照,人臉識別技術(shù)是首推識別模式,該規(guī)定已經(jīng)成為國際標準;2011年,F(xiàn)ace book初次引入人臉識別技術(shù),登陸人員可以免信息驗證而激活頁面;2012年3月6日,江蘇省公安廳與南京理工大學日前簽約共建“社會公共安全重點實驗室”,開展“人臉識別”技術(shù)相關(guān)領(lǐng)域項目攻關(guān)。
到目前為止,雖然有關(guān)自動人臉識別的研究已經(jīng)取得了一些可喜的成果,但在實際應用環(huán)境下仍面臨著許多難以解決的問題:人臉的非剛體,表情、姿態(tài)、發(fā)型和化妝的多樣性以及環(huán)境光照的復雜性都給正確的人臉識別帶來了很大的困難。即使在大量來自模式識別、計算機視覺、生理學、心理學、神經(jīng)認知科學等領(lǐng)域的研究人員對自動人臉識別艱苦工作40余年之后,其中不少問題至今仍然困繞著研究人員,始終找不到完善的解決辦法。
在人臉識別市場,特別是在中國的市場,正經(jīng)歷著迅速的發(fā)展,而且發(fā)展的腳步也將越來越快。主要有三大原因:
1.是科技界和社會各個領(lǐng)域都認識到人臉識別技術(shù)的重要性,國家政策對人臉識別技術(shù)研究給予了很大支持,使得我國人臉識別技術(shù)取得了很大進展。國際上,美國國家標準技術(shù)局(NIST)舉辦的Face Recognition Vendor Test 2006(FRVT2006)通過大規(guī)模的人臉數(shù)據(jù)測試表明,當今世界上人臉識別方法的識別精度比2002年的FRVT2002至少提高了一個數(shù)量級(10倍)。其中一些方法的識別精度已經(jīng)超過人類的平均水平。而對于高清晰、高質(zhì)量人臉圖像識別,機器的識別精度幾乎達到100%。
2.各種應用需求不斷出現(xiàn)。人臉識別市場的快速發(fā)展一方面歸功于生物識別需求的多元化,另一方面則是由于人臉識別技術(shù)的進步。從需求上來說,除了傳統(tǒng)的公司考勤、門禁等應用外,視頻監(jiān)控環(huán)境下的身份識別正成為一種迫切的需求,即在一個較復雜的場景中,在較遠的距離上識別出特定人的身份,這顯然是指紋識別的方法不能滿足的,而人臉識別卻是一個極佳的選擇。
3.人口基數(shù)因素。人臉識別系統(tǒng)的市場大小,很大程度上是和人口的數(shù)量大小相關(guān)的。而我國有13億人口,這從本質(zhì)上說明了我國是世界上規(guī)模最大的生物識別市場。
四、常用的人臉識別方法
人臉識別技術(shù)和方法可分為兩大類:基于幾何特征的方法和基于模板匹配的方法?;趲缀翁卣鞣椒ǖ乃枷胧鞘紫葯z測出嘴巴,鼻子,眼睛,眉毛等臉部主要部分的位置和大小,然后利用這些部件的總體幾何分布關(guān)系以及相互之間的參數(shù)比例來識別人臉?;谀0宓姆椒ㄊ抢媚0搴驼麄€人臉圖像的像素值之間的自相關(guān)性進行識別,這種方法也叫做基于表象的方法。
本文主要分析了常用的人臉識別方法為:幾何特征的方法、模型的方法、神經(jīng)網(wǎng)絡的方法和多分類器集成方法。
1.幾何特征的方法
最早的人臉識別方法就是Bledsoe提出的基于幾何特征的方法,這種方法以面部特征點之間的距離和比率作為特征通過最近鄰方法來識別人臉。該方法建立的人臉識別系統(tǒng)是一個半自動系統(tǒng),其面部特征點必須由人手工定位,也正是由于人工的參與,該系統(tǒng)對光照變化和姿態(tài)變化不敏感。
Kanade首先計算眼角、鼻孔、嘴巴、下巴等面部特征之間的距離和它們之間的角度以及其它幾何關(guān)系然后通過這些幾何關(guān)系進行人臉的識別工作在一個20人的數(shù)據(jù)庫上識別率為45%一75%。
Brunelli和Poggio通過計算鼻子的寬度和長度、嘴巴位置和下巴形狀等進行識別,在一個47人的人臉庫上的識別率為90%.然而,簡單模板匹配方法在同一人臉庫上的識別率為100%。
基于幾何特征的方法比較直觀,識別速度快,內(nèi)存要求較少,提取的特征在一定程度上對光照變化不太敏感。但是,當人臉具有一定的表情或者姿態(tài)變化時,特征提取不精確,而且由于忽略了整個圖像的很多細節(jié)信息且識別率較低,所以近年來已經(jīng)很少有新的發(fā)展。
2.模型的方法
隱馬爾可夫模型,是一種常用的模型,原HMM的方法首先被用于聲音識別等身份識別上,之后被Nefian和Hayrs引人到人臉識別領(lǐng)域。它是用于描述信號統(tǒng)計特性的一組統(tǒng)計模型。
在人臉識別過程中,首先抽取人臉特征,得到后觀察向量,構(gòu)建HMM人臉模型,然后用EM算法訓練利用該模型就可以算出每個待識別人臉觀察向量的概率,從而完成識別,HMM方法的魯棒性較好,對表情、姿態(tài)變化不太敏感,識別率高。
3.神經(jīng)網(wǎng)絡的方法
神經(jīng)網(wǎng)絡在人臉識別領(lǐng)域有很長的應用歷史,1994年就出現(xiàn)了神經(jīng)網(wǎng)絡用于人臉處理的綜述性文章。
動態(tài)鏈接結(jié)構(gòu)(DLA)是用于人臉識別系統(tǒng)中最有影響的神經(jīng)網(wǎng)絡方法。DLA試圖解決傳統(tǒng)的神經(jīng)網(wǎng)絡中一些概念性問題,其中最突出的是網(wǎng)絡中語法關(guān)系的表達。DLA利用突觸的可塑性將神經(jīng)元集合劃分成若干個結(jié)構(gòu),同時保留了神經(jīng)網(wǎng)絡的優(yōu)點。
自組織映射神經(jīng)網(wǎng)絡(SOM)與卷積神經(jīng)網(wǎng)絡相結(jié)合的混合神經(jīng)網(wǎng)絡方法進行人臉識別。SOM實現(xiàn)對圖像的采樣向量降維,且對圖像樣本的小幅度變形不敏感。卷積網(wǎng)絡用來實現(xiàn)相鄰像素間的相關(guān)性知識,在一定程度對圖象的平移、旋轉(zhuǎn)、尺度和局部變形也都不敏感。
神經(jīng)網(wǎng)絡方法較其他人臉識別方法有著特有的優(yōu)勢,通過對神經(jīng)網(wǎng)絡的訓練可以獲得其他方法難以實現(xiàn)的關(guān)于人臉圖像的規(guī)則和特征的隱性表示,避免了復雜的特征抽取工作,并有利于硬件的實現(xiàn)。缺點主要在于其方法的可解釋性較弱,且要求多張人臉圖像作為訓練集,所以只適合于小型人臉庫。
4.多分類器集成方法
人臉的表象會因為光照方向、姿態(tài)、表情變化而產(chǎn)生較大的變化,每種特定的識別器只對其中一部分變化比較敏感,因此,將可以整合互補信息的多個分類器集成能夠提高整個系統(tǒng)的分類準確率。
Gutta等人提出將集成的RBF與決策樹結(jié)合起來進行人臉識別。結(jié)合了全局的模板匹配和離散特征的優(yōu)點,在一個350人的人臉庫上測試,取得了較好的實驗結(jié)果。
五、總結(jié)及展望
隨著圖像處理、模式識別、人工智能以及生物心理學的研究進展,人臉識別技術(shù)也將會獲得更大的發(fā)展。面對這種高新技術(shù),人臉識別技術(shù)有著不可代替的優(yōu)點。近幾年對三維模型的人臉識別研究以成為一個熱點。從二維模型到三維模型是一個階躍性的發(fā)展,中間必須克服三維模型的開銷大,所占空間大等因素。因此如何增強這類系統(tǒng)的保密性將是人臉識別系統(tǒng)要考慮的問題,它將是這種識別系統(tǒng)投入使用后人們最關(guān)心的問題,同時也是人臉識別領(lǐng)域需要研究的新課題。我們期待在不久的將來,人們將告別鑰匙,迎來人臉開門的新時代。
參考文獻
[1]李武軍,王崇駿,張煒,等.人臉識別研究綜述[J].模擬識別與人工智能,2006,19(1):58-65.
[2]李子青.人臉識別技術(shù)應用及市場分析[J].中國安防,2007,8:42-46.
[3]柴秀娟,山世光,卿來云,等.基于3D人臉重建的光照、姿態(tài)不變?nèi)四樧R別[J] .軟件學報,2006,17(3):525-534.
關(guān)鍵詞 車輛自動駕駛;人工智能;應用實踐;智能汽車
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2017)182-0080-02
車輛自動駕駛系統(tǒng)是改變傳統(tǒng)駕駛方式的重要技術(shù)類型,但仍舊處于研發(fā)測試階段,并未展開全面應用。車輛自動駕駛系統(tǒng)主要是由感知部分和控制部分構(gòu)成,控制部分主要完成對車輛的控制,促使車輛按照設(shè)計的線路展開行駛,而感知部分則是對路線中障礙進行識別,促使車輛進行規(guī)避,保障車輛安全。然而現(xiàn)階段,車輛自動駕駛的感知部分卻存在一定的瓶頸,制約車輛自動駕駛系統(tǒng)的功能?;诖耍疚膶囕v自動駕駛中人工智能的應用展開分析,具體內(nèi)容如下。
1 車輛自動駕駛現(xiàn)狀分析
車輛自動駕駛是借助網(wǎng)絡技術(shù)相關(guān)算法、高敏感度的傳感器和相關(guān)信息采集設(shè)備,綜合的對車輛行駛過程中路況信息進行采集,由信息處理部分完成對車輛行駛過程中采集數(shù)據(jù)的分析,再由控制系統(tǒng)完成對車輛前進、后退和停止等動作進行實施,可有效改變傳統(tǒng)車輛的駕駛方式,在提高車輛駕駛有效性的基礎(chǔ)上,可以解放駕駛?cè)藛T的雙手,并達到降低交通事故發(fā)生幾率,達到智能化汽車的構(gòu)建。
近年來,以百度、谷歌為首的行業(yè),致力于人工智能技術(shù)應用車輛自動駕駛系統(tǒng)中,于2016年谷歌將無人駕駛的汽車測試到城市,并于2016年12月無人駕駛汽車項目剝離為獨立的公司waymo,完成對車輛自動駕駛的研究,該公司的基于自動駕駛的車輛的自動行駛的距離>1.61×106km,并獲得大量的數(shù)據(jù)。
較比國外的車輛自動駕駛的自主研究形式,國內(nèi)主要選擇汽車廠商與科研所高校等聯(lián)合研究的方式,主要有一汽、上汽、奇瑞等,均投入一定資金和研究力度,致力于研發(fā)可無人駕駛的智能汽車。同時,網(wǎng)絡技術(shù)和算法技術(shù)、硬件技術(shù)的不斷成熟,為車輛自動駕駛提供了基礎(chǔ),對智能汽車的構(gòu)建具有十分積極的意義。
隨著世界各類尖端行業(yè)重視到汽車自動駕駛大有可為,逐漸加大對車輛自動駕駛的研究,并將具備車輛自動駕駛能力的汽車作為未來汽車市場的主要方向,促使汽車可以在自動駕駛的狀態(tài)下,完成對復雜環(huán)境的駕駛,達到高度自動化駕駛的效果。
2 人工智能在車輛自動駕駛中的應用
人工智能是計算機科學的分支之一,所包含的領(lǐng)域較多,涵蓋機器人、語言識別、圖像識別等,隨著人工智能研究的不斷深入,人工智能逐漸應用到各個領(lǐng)域中。將人工智能應用到車輛自動駕駛中,可以對車輛自動駕駛的瓶頸進行突破,推動車輛自動駕駛的早日實現(xiàn)。
2.1 基于深度思考的人工智能
車輛自動駕駛系統(tǒng)對基于深度思考的人工智能進行應用,深度思考是一種機器學習的算法,可完成多元非線性數(shù)據(jù)轉(zhuǎn)換、高級數(shù)據(jù)概念模型的構(gòu)建,促使車輛自動駕駛系統(tǒng)的感知部分發(fā)生轉(zhuǎn)變。具體的基于深度思考的人工智能學習結(jié)構(gòu),有深度神經(jīng)網(wǎng)絡(DNNs)、卷積神經(jīng)網(wǎng)絡(CNNs)、深度信念網(wǎng)絡等,在具體的車輛自動駕駛系統(tǒng)中,完成對車輛的視覺、語言等信息的識別。蘋果手機編制程序?qū)<褿eorge?Hotz創(chuàng)建的企業(yè),構(gòu)建的基于卷積神經(jīng)網(wǎng)絡的自動駕駛車輛,并借助人工智能實現(xiàn)車輛訓練。在具體的車輛訓練過程中,選擇激光雷達作為主要視覺裝置,完成周邊環(huán)境的精準三維掃描,進而實現(xiàn)對周邊環(huán)境的識別,且可以完成對車位置信息的報告。
2.2 基于人工智能解讀的儀表板攝像頭
選擇以帕洛阿爾托為基地的NAUTO使用的prosumer相機中發(fā)現(xiàn)的各類圖像傳感器,并運用運動感應器、GPS等,轉(zhuǎn)變激光雷達傳感器昂貴的情況,達到降低車輛自動駕駛的感知成本,并有效完成對周邊地形的識別。借助NAUTO系統(tǒng),不但能夠完成對道路前方情況的識別,還能對車輛內(nèi)部的情況信息進行采集,車輛乘坐人員可以根據(jù)面部表情、手勢和語言完成對車輛的控制,達到改善人機交互界面。
2.3 基于人工智能的尾剎
現(xiàn)階段,汽車輔助系統(tǒng)不斷發(fā)展和完善,切實應用到車輛中,基于人工智能的ADAS技術(shù),配合ACC(自適應循環(huán))、LDWS(車道偏移報警系統(tǒng))、自動泊車等系統(tǒng)的應用,使得目前車輛具備良好的自動能力。而ADAS技術(shù)的應用,可以使得汽車在具體運行中如果前方存在車輛或是前方存在障礙物不能繞過的情況,借助ADAS技術(shù)的應用,可以實現(xiàn)自動剎車,進而保障車輛的行駛安全。
2.4 感知、計劃、動作的agent結(jié)構(gòu)應用
車輛自動駕駛系統(tǒng)中對人工智能進行應用,對改善自動車輛駕駛的效果顯著,改善車輛自動駕駛的效果。
借助知識庫的十二構(gòu)建,可以給予自動駕駛行駛過程中的地理信息、電子地圖、交通信息和相關(guān)法律法規(guī)這些內(nèi)容。且這些知識主要是以知識的形式展示,并借助知R推理中的A算法,可以有效完成對下一個被檢查的結(jié)點時引入已知的全局信息進行解讀,達到對最優(yōu)路線的選擇,獲得可能性最大的結(jié)點,繼而保障知識所搜的效率。借助感知―計劃―動作agent結(jié)構(gòu)的人工職能,可以將車輛自動行駛的速度分為3個檔次:High、Middle、Fast,轉(zhuǎn)向角度為7等,分別為0°,±10°,±20°,±30°。且可以完成對各類障礙的規(guī)避。
3 車輛自動駕駛中人工智能應用的相關(guān)問題
1)車輛自動駕駛具有良好的發(fā)展前景,而人工智能的應用,進一步優(yōu)化了車輛自動駕駛系統(tǒng)的功能,達到減少錯誤的情況,借助人工智能盡可能降低各類錯誤的存在,規(guī)避自動駕駛風險的存在。需不斷加強對人工智能的研究和分析,促使人工智能和車輛自動駕駛有機的結(jié)合,為智能汽車的構(gòu)建奠定基礎(chǔ)。
2)人工智能應用時,需要對車輛電腦程序和信息網(wǎng)絡的安全系數(shù)進行控制,避免非法入侵對車輛造成不利影響,進而導致安全隱患的發(fā)生。
3)人工智能在具體的應用中,需要對預測和回應人類行為的問題進行處理,進而增加自動駕駛車輛與人的互動。
4)基于人工智能的智能汽車定責的法律問題,國家需要建立相關(guān)的法律法規(guī),不斷完善車輛自動駕駛的相關(guān)立法,完成對各類問題的處理,提升法律的適應性。
4 結(jié)論
分析車輛自動駕駛的現(xiàn)狀,再詳細的對人工智能在車輛自動駕駛的應用,再解讀基于感知―計劃―動作agent結(jié)構(gòu)的人工智能的具體應用,并分析人工智能在車輛自動駕駛中應用的相關(guān)問題,為推動車輛自動駕駛的水平和智能化水平提供基礎(chǔ),達到改善人們生活的效果。
參考文獻
[1]黃健.車輛自動駕駛中的仿人控制策略研究[D].合肥:合肥工業(yè)大學,2013.
[2]謝基雄.探析人工智能技術(shù)對電氣自動化的實踐運用[J].電源技術(shù)應用,2013(9).
[3]禹昕.人工智能在電氣工程自動化中的運用實踐研究[J].工程技術(shù):全文版,2016(12):00247.
[4]余阿東,陳睿煒.汽車自動駕駛技術(shù)研究[J].汽車實用技術(shù),2017(2):124-125.
雖然目前公眾媒體將無線通信炒的很熱,但這個領(lǐng)域從1897年馬可尼成功演示無線電波開始,已經(jīng)有超過一百年的。到1901年就實現(xiàn)了跨大西洋的無線接收,表明無線通信技術(shù)曾經(jīng)有過一段快速發(fā)展時期。在之后的幾十年中,眾多的無線通信系統(tǒng)生生滅滅。
20世紀80年代以來,全球范圍內(nèi)移動無線通信得到了前所未有的發(fā)展,與第三代移動通信系統(tǒng)(3g)相比,未來移動通信系統(tǒng)的目標是,能在任何時間、任何地點、向任何人提供快速可靠的通信服務。因此,未來無線移動通信系統(tǒng)應具有高的數(shù)據(jù)傳輸速度、高的頻譜利用率、低功耗、靈活的業(yè)務支撐能力等。但無線通信是基于電磁波在自由空間的傳播來實現(xiàn)傳輸?shù)?。信號在無線信道中傳輸時,無線頻率資源受限、傳輸衰減、多徑傳播引起的頻域選擇性衰落、多普勒頻移引起的時間選擇性衰落以及角度擴展引起的空間選擇性衰落等都使得無線鏈路的傳輸性能差。和有線通信相比,無線通信主要由兩個新的問題。一是通信行道經(jīng)常是隨時間變化的,二是多個用戶之間常常存在干擾。無線通信技術(shù)還需要克服時變性和干擾。由于這個原因,無線通信中的信道建模以及調(diào)制編碼方式都有所不同。
1.無線數(shù)字通信中盲源分離技術(shù)分析
盲源分離(bss:blind source separation),是信號處理中一個傳統(tǒng)而又極具挑戰(zhàn)性的問題,bss指僅從若干觀測到的混合信號中恢復出無法直接觀測的各個原始信號的過程,這里的“盲”,指源信號不可測,混合系統(tǒng)特性事先未知這兩個方面。在研究和工程應用中,很多觀測信號都可以看成是多個源信號的混合,所謂“雞尾酒會”問題就是個典型的例子。其中獨立分量分析ica(independent component analysis)是一種盲源信號分離方法,它已成為陣列信號處理和數(shù)據(jù)分析的有力工具,而bss比ica適用范圍更寬。目前國內(nèi)對盲信號分離問題的研究,在理論和應用方面取得了很大的進步,但是還有很多的問題有待進一步研究和解決。盲源分離是指在信號的理論模型和源信號無法精確獲知的情況下,如何從混迭信號(觀測信號)中分離出各源信號的過程。盲源分離和盲辨識是盲信號處理的兩大類型。盲源分離的目的是求得源信號的最佳估計,盲辨識的目的是求得傳輸通道混合矩陣。盲源信號分離是一種功能強大的信號處理方法,在醫(yī)學信號處理,陣列信號處理,語音信號識別,圖像處理及移動通信等領(lǐng)域得到了廣泛的應用。
根據(jù)源信號在傳輸信道中的混合方式不同,盲源分離算法分為以下三種模型:線性瞬時混合模型、線性卷積混合模型以及非線性混合模型。
1.1 線性瞬時混合盲源分離
線性瞬時混合盲源分離技術(shù)是一項產(chǎn)生、研究最早,最為簡單,理論較為完善,算法種類多的一種盲源分離技術(shù),該技術(shù)的分離效果、分離性能會受到信噪比的影響。盲源分離理論是由雞尾酒會效應而被人們提出的,雞尾酒會效應指的是雞尾酒會上,有聲、談話聲、腳步 聲、酒杯餐具的碰撞聲等,當某人的注意集中于欣賞音樂或別人的談話,對周圍的嘈雜聲音充耳不聞時,若在另一處有人提到他的名字,他會立即有所反應,或者朝 說話人望去,或者注意說話人下面說的話等。該效應實際上是聽覺系統(tǒng)的一種適應能力。當盲源分離理論提出后很快就形成了線性瞬時混合模型。線性瞬時混合盲源分離技術(shù)是對線性無記憶系統(tǒng)的反應,它是將n個源信號在線性瞬時取值混合后,由多個傳感器進行接收的分離模型。
20世紀八、九十年代是盲源技術(shù)迅猛發(fā)展的時期,在1986年由法國和美國學者共同完了將兩個相互獨立的源信號進行混合后實現(xiàn)盲源分離的工作,這一工作的成功開啟了盲源分離技術(shù)的發(fā)展和完善。在隨后的數(shù)十年里對盲源技術(shù)的研究和創(chuàng)新不斷加深,在基礎(chǔ)理論的下不斷有新的算法被提出和運用,但先前的算法不能夠完成對兩個以上源信號的分離;之后在1991年,法國學者首次將神經(jīng)網(wǎng)絡技術(shù)應用到盲源分離問題當中,為盲源分離提出了一個比較完整的框架。到了1995年在神經(jīng)網(wǎng)絡技術(shù)基礎(chǔ)上盲源分離技術(shù)有了突破性的進展,一種最大化的隨機梯度學習算法可以做到同時分辨出10人的語音,大大推動了盲源分離技術(shù)的發(fā)展進程。
1.2 線性卷積混合盲源分離
相比瞬時混合盲源分離模型來說,卷積混合盲源分離模型更加復雜。在線性瞬時混合盲源分離技術(shù)不斷發(fā)展應用的同時,應用中也有無法準確估計源信號的問題出現(xiàn)。常見的是在通信系統(tǒng)中的問題,通信系統(tǒng)中由于移動客戶在使用過程中具有移動性,移動用戶周圍散射體會發(fā)生相對運動,或是交通工具發(fā)生的運動都會使得源信號在通信環(huán)境中出現(xiàn)時間延遲的現(xiàn)象,同時還造成信號疊加,產(chǎn)生多徑傳輸。正是因為這樣問題的出現(xiàn),使得觀測信號成為源信號與系統(tǒng)沖激響應的卷積,所以研究學者將信道環(huán)境抽象成為線性卷積混合盲源分離模型。線性卷積混合盲源分離模型按照其信號處理空間域的不同可分為時域、頻域和子空間方法。
1.3 非線性混合盲源分離
非線性混合盲源分離技術(shù)是盲源分離技術(shù)中發(fā)展、研究最晚的一項,許多理論和算法都還不算成熟和完善。在衛(wèi)星移動通信系統(tǒng)中或是麥克風錄音時,都會由于乘性噪聲、放大器飽和等因素的影響造成非線性失真。為此,就要考慮非線性混合盲源分離模型。非線性混合模型按照混合形式的不同可分為交叉非線性混合、卷積后非線性混合和線性后非線性混合模型三種類型。在最近幾年里非線性混合盲源分離技術(shù)受到社會各界的廣泛關(guān)注,特別是后非線性混合模型。目前后非線性混合盲源分離算法中主要有參數(shù)化方法、非參數(shù)化方法、高斯化方法來抵消和補償非線性特征。
2.無線通信技術(shù)中的盲源分離技術(shù)
在無線通信系統(tǒng)中通信信號的信號特性參數(shù)復雜多變,實現(xiàn)盲源分離算法主要要依據(jù)高階累積量和峭度兩類參數(shù)。如圖一所示,這是幾個常見的通信信號高階累積量。
在所有的通信系統(tǒng)中,接收設(shè)備處總是會出現(xiàn)白色或是有色的高斯噪聲,以高階累積量為準則的盲源分離技術(shù)在處理這一問題時穩(wěn)定性較強,更重要的是對不可忽略的加性高斯白噪聲分離算法同時適用。因此,由高階累積量為準則的盲源分離算法在通信系統(tǒng)中優(yōu)勢明顯。
分離的另一個判據(jù)就是峭度,它是反映某個信號概率密度函數(shù)分布情況與高斯分布的偏離程度的函數(shù)。峭度是由信號的高階累積量定義而來的,是度量信號概率密度分布非高斯性大小的量值。