前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞: 模式識別; 神經(jīng)網(wǎng)絡(luò); 卷積; 文字識別
中圖分類號: TN711?34; TP391.4 文獻標(biāo)識碼: A 文章編號: 1004?373X(2014)20?0019?03
Large pattern online handwriting character recognition based on multi?convolution neural network
GE Ming?tao1, WANG Xiao?li1, PAN Li?wu2
(1. SIAS International School, Zhengzhou University, Zhengzhou 451150, China;
2. Henan University of Animal Husbandry and Economy, Zhengzhou 450011, China)
Abstract: Online handwriting character recognition is an important field in the research of pattern recognition. The traditional recognition method is based on the common convolutional neural networks (CNNs) technology. It has an efficient recognition rate for the small pattern character set online handwriting characters, but has low recognition rate for the large pattern character set recognition. A recognition method based on multi?convolutional neural networks (MCNNs) is presented in this paper to overcome the situation that the previous methods have the low recognition rate for large pattern character set and improve the recognition rate for the large pattern handwriting character set recognition. The stochastic diagonal Levenbert?Marquardt method is used in the system for training optimization. The experimental results show that the proposed method has the recognition rate of 89% and has a good prospect for online handwriting character recognition for large scale pattern.
Keywords: pattern recognition; neural network; convolution; character recognition
0 引 言
隨著全球信息化的飛速發(fā)展和對自動化程度要求的不斷提高 ,手寫文字識別技術(shù)被廣泛地應(yīng)用到許多方面。特別是近幾年擁有手寫功能的手機、平板電腦等智能電子產(chǎn)品的普及,聯(lián)機手寫文字識別研究已經(jīng)成為一個備受關(guān)注的主題。聯(lián)機手寫字符識別要求實時性較高,識別過程中要求特征空間的維數(shù)比較高,在進行特征樣本訓(xùn)練時要求訓(xùn)練的數(shù)目很大,要匹配的特征值或特征對象比較多 [1?2]。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)的優(yōu)點在于圖像的識別過程中對視覺模式的獲得是直接從原始圖像中獲得的,所以在設(shè)計系統(tǒng)時圖像的預(yù)處理工作很少,與一般神經(jīng)網(wǎng)絡(luò)相比是一種高效的識別方法。卷積神經(jīng)網(wǎng)絡(luò)在模式識別的一些領(lǐng)域具有很好的魯棒性,如在識別有變化的模式和對幾何變形的識別方面。利用卷積神經(jīng)網(wǎng)絡(luò)的手寫識別方法具有如下一些優(yōu)點:對于要檢測的圖像可以與事先制定網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)之間有較高的匹配率;特征提取和模式分類同時進行;訓(xùn)練參數(shù)往往是系統(tǒng)計算量的重要參數(shù),而卷積神經(jīng)網(wǎng)絡(luò)中利用權(quán)值共享技術(shù),這樣就可以大大降低該參數(shù),在設(shè)計系統(tǒng)結(jié)構(gòu)時使得結(jié)構(gòu)變得更簡單,從而使得整個系統(tǒng)具有更好的適應(yīng)性[3?5]。
目前,人機交互系統(tǒng)的手寫字符識別、汽車車牌號識別和信息安全中常用的人臉識別等領(lǐng)域都有卷積神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用。文獻[6]用一個4層的卷積神經(jīng)網(wǎng)絡(luò)LeNet?5對Mnist庫進行識別實驗,獲得了98.4%的識別率,用2層的BP網(wǎng)絡(luò)的識別率[4,6]是87%。許多學(xué)者對卷積神經(jīng)網(wǎng)絡(luò)在聯(lián)機手寫文字識別方面做了多方位的研究。 但是,這些成功的聯(lián)機手寫文字識別主要是針對小模式字符集,利用以往的這些方法對大規(guī)模模式分類的聯(lián)機手寫文字的識別依然有識別率不高的問題。本文介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本概念和一種典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),給出了基于多重卷積神經(jīng)網(wǎng)絡(luò)的字符識別和詞語識別模型。通過使用大字符集的UNIPEN數(shù)據(jù)庫進行訓(xùn)練和測試,本文提出的方法在大模式聯(lián)機手寫識別上,取得了較高的識別速度和滿意的識別率。
1 卷積神經(jīng)網(wǎng)絡(luò)
文獻[6?7]中詳細(xì)地描述了卷積神經(jīng)網(wǎng)絡(luò)如何保證圖像對位移、縮放、扭曲魯棒性能。典型的手寫字符卷積神經(jīng)網(wǎng)絡(luò)LeNET 5的結(jié)構(gòu)圖如圖1所示[6?7]。
圖1 典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在圖1中,輸入層接收要識別32×32的手寫字符圖像,經(jīng)過簡單的大小歸一化和圖像灰度處理,之后的結(jié)果作為一個采樣層的圖像;然后用一個可學(xué)習(xí)核進行卷積操作,卷積結(jié)果經(jīng)過激活函數(shù)的輸出形成這一層的神經(jīng)元,每個神經(jīng)元與輸入圖像的一個5×5的鄰域相連接,從而得到由6幅特征圖組成的第一個隱層(C1層)。每個特征圖有25個權(quán)值(如方向線段,端點、角點等),考慮到邊界效果,得到的特征圖的大小是28×28,小于輸入圖層[3?9]。卷積層的數(shù)學(xué)計算過程可表示為:
[xlj=fi∈Mjxl-1j*kernellij+blj] (1)
式中:[l] 代表層數(shù);kernel是卷積核;[Mj]代表輸入特征圖的一個選擇。每個輸出圖有一個偏置[b]。
每個卷積層的結(jié)果作為下一個次采樣層的輸入,次采樣層的作用是對輸入信息進行抽樣操作。如果輸入的特征圖為n個,則經(jīng)過次采樣層后特征圖的個數(shù)仍然為n,但是輸出的特征圖要變?。ɡ?,各維變?yōu)樵瓉淼?0%)。因此隱層S2是由6個大小為14×14的特征圖組成的次采樣層。次采樣層計算公式可以用式(2)表示:
[xlj=fβl-1jdown(xl-1j)+blj] (2)
式中down(?) 表示次采樣函數(shù)。次采樣函數(shù)一般是對該層輸入圖像的一個n×n大小的區(qū)域求和,因此,輸出圖像的大小是輸入圖像大小的[1n]。每一個輸出的特征圖有自己的β和b。
類似的,C3層有16個10×10的特征圖組成的卷積層,特征圖的每個神經(jīng)元與S2網(wǎng)絡(luò)層的若干個特征圖的5×5的鄰域連接。網(wǎng)絡(luò)層S4是由16個大小為5×5的特征圖組成的次采樣層。特征圖的每個神經(jīng)元與C3層的一個2×2大小的鄰域相連接。網(wǎng)絡(luò)層C5是由120個特征圖組成的卷積層。每個神經(jīng)元與S4網(wǎng)絡(luò)層的所有特征圖的5×5大小的鄰域相連接。網(wǎng)絡(luò)層F6,包括84個神經(jīng)元,與網(wǎng)絡(luò)層C5進行全連接。最后,輸出層有10個神經(jīng)元,是由徑向基函數(shù)單元(RBF)組成,輸出層的每個神經(jīng)元對應(yīng)一個字符類別。RBF單元的輸出yi的計算方法如式(3)所示:
[yi=j(xj-wij)2] (3)
很多研究人員通過對字符集作彈性訓(xùn)練,經(jīng)測試發(fā)現(xiàn)在MNIST字符集上的識別率可以高達99%以上[6?7] 。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢主要是對小模式集上,如對數(shù)字或26個英文字母組成的集合都有著較高的識別率。然而,對大模式集的識別仍然是一個挑戰(zhàn),因為設(shè)計一個優(yōu)化的并足夠大的單一網(wǎng)絡(luò)是比較困難的,且訓(xùn)練時間也較長。因此,本文的目的旨在通過組合多個對某一字符集有高識別率的卷積神經(jīng)網(wǎng)絡(luò),從而構(gòu)成多重卷積神經(jīng)網(wǎng)絡(luò),進而提高卷積神經(jīng)網(wǎng)絡(luò)對大模式集手寫字符的識別率。
2 多重卷積神經(jīng)網(wǎng)絡(luò)
2.1 多重卷積神經(jīng)網(wǎng)絡(luò)字符識別
根據(jù)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的運算過程以及其在處理大模式集手寫字符時存在的不足,本文提出一種多重卷積神經(jīng)網(wǎng)絡(luò)來改進傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型,用多個擁有高識別率的小卷積神經(jīng)網(wǎng)絡(luò)組成一個多重卷積神經(jīng)網(wǎng)絡(luò)。每一重小卷積神經(jīng)網(wǎng)絡(luò)對某一具體字符集有較高的識別率,另外,單重卷積神經(jīng)網(wǎng)絡(luò)除了有一個正式的輸出集之外,還產(chǎn)生一個未知的輸出(即難以識別的字符),即如果一個輸入字符沒有被正確識別,它將被輸出為一個未知字符,然后輸入模式轉(zhuǎn)到下一重卷積神經(jīng)網(wǎng)絡(luò)進行識別。最后,通過一個拼寫檢查模塊進行判斷,選擇最好的結(jié)果輸出。系統(tǒng)的流程如圖2所示。
其中CNN 1是識別手寫數(shù)字的卷積神經(jīng)網(wǎng)絡(luò),CNN 2是識別手寫小寫英文字母的卷積神經(jīng)網(wǎng)絡(luò),該模型具有極強的擴展性,可以添加多任意模式的卷積神經(jīng)網(wǎng)絡(luò)(如中文,日文等)。
圖2 多重卷積神經(jīng)網(wǎng)絡(luò)字符識別示意圖
2.2 隨機對角Levenberg?Marquardt訓(xùn)練方法
傳統(tǒng)的結(jié)構(gòu)比較簡單、單一的卷積神經(jīng)網(wǎng)絡(luò)多采用基本的Back Propagation(BP)規(guī)則訓(xùn)練網(wǎng)絡(luò),往往需要幾百次迭代,網(wǎng)絡(luò)的收斂速度較慢。本文采用LeCun博士提出的隨機對角Levenberg?Marquardt 算法對網(wǎng)絡(luò)作訓(xùn)練,該算法需要的迭代次數(shù)明顯比基本的BP 算法少[4,9]。隨機對角Levenberg?Marquardt算法的公式為:
[ηki=ε?2E?w2ij+μ] (4)
式中[ε]是全局的學(xué)習(xí)率,一般取初始值0.01,太大會使網(wǎng)絡(luò)無法收斂,太小則會降低收斂速度,且使網(wǎng)絡(luò)更容易陷入局部極小值,訓(xùn)練過程中可以用啟發(fā)式規(guī)則改變[ε]的值,本文取最下值為5e-005; [?2E?w2ij]是一個估計值,根據(jù)訓(xùn)練集的大小可以調(diào)整樣本數(shù)量,文中隨機選取200個樣本估算它的值;[μ]用來避免[?2E?w2ij] 太小時[ηki]的變化過大 。
2.3 多重卷積神經(jīng)網(wǎng)絡(luò)詞句識別
本文提出的多重卷積神經(jīng)網(wǎng)絡(luò)對手寫詞語的識別方法可以簡單地描述為:首先對輸入的手寫圖像進行預(yù)處理和分割,然后通過多重卷積神經(jīng)網(wǎng)絡(luò)模塊分別進行識別,最后采用單詞識別模塊對識別結(jié)果進行判斷,選擇最好的結(jié)果輸出。其過程如圖3所示。
圖3 多重卷積神經(jīng)網(wǎng)絡(luò)聯(lián)機手寫詞句識別過程
本文提出的多重卷積神經(jīng)網(wǎng)絡(luò)聯(lián)機手寫文字識別方法克服了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)文字識別的對字符集的限制,每一重卷積神經(jīng)網(wǎng)絡(luò)是一個針對小模式的卷積神經(jīng)網(wǎng)絡(luò),易于訓(xùn)練和優(yōu)化,更重要的是此方案的靈活性非常好易于調(diào)節(jié)參數(shù),可擴展性強。每一重卷積神經(jīng)網(wǎng)絡(luò)都具有可重用能力,可以根據(jù)需要加載一個或多個網(wǎng)絡(luò),可以根據(jù)新的模式添加新的網(wǎng)絡(luò)而不需改變或重建原來的網(wǎng)絡(luò)。
3 訓(xùn)練和實驗
為了評估多重卷積神經(jīng)網(wǎng)絡(luò)對基于大模式字符集的聯(lián)機手寫文字識別的性能,本系統(tǒng)采用MNIST和UNIPEN兩種不同的手寫字符訓(xùn)練集進行測試。UNIPEN數(shù)據(jù)庫是在1992年舉行的IEEE IAPR會議上提出并建立的,其目的是創(chuàng)建一個大型的手寫體數(shù)據(jù)庫用于為在線手寫識別提供研究和開發(fā)的基礎(chǔ),得到了多個知名公司或研究所的支持并完成了UNIPEN的規(guī)范設(shè)計。在進行數(shù)據(jù)比對實驗中,本文采用許多研究使用的MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫,該數(shù)據(jù)庫是NEC 研究中心設(shè)計的,是NIST(The National Institute of Standards and Technology)數(shù)據(jù)庫的一個子集,該訓(xùn)練集中有大量訓(xùn)練樣本和測試用例。本文默認(rèn)用以下定義:
[識別率=正確識別數(shù)樣本總數(shù)×100%]
[失誤率誤識率=錯誤識別數(shù)樣本總數(shù)×100%]
實驗測試是在通用的臺式電腦上進行的。整個識別原型系統(tǒng)采用C#編寫,運行在.NetFrame 4.5平臺上。經(jīng)測試對MNIST訓(xùn)練集識別正確率可達[9]99%,對UNIPEN數(shù)字識別正確率可達97%,對UNIPEN數(shù)字和大寫字母識別正確率可達89%(1a,1b) ,對UNIPEN小寫字母識別正確率可達89%(1c) 。圖4是對UNIPEN小寫字母3次訓(xùn)練的均方誤差比較。
圖4 訓(xùn)練的誤差數(shù)據(jù)
從圖4中可以看出,在開始的幾個訓(xùn)練周期內(nèi),均方誤差(MSE)下降得很快,然后在第13個周期后神經(jīng)網(wǎng)絡(luò)達到一個穩(wěn)定的值,約為0.148 5。也就是說,網(wǎng)絡(luò)在第13個周期后,改善程度就很小。所以修改訓(xùn)練錯誤率的值為0.000 45后重新進行18代的第二次訓(xùn)練,均方誤差有所降低。經(jīng)過第三次的訓(xùn)練后趨于穩(wěn)定,對UNIPEN小寫字母識別正確率可達89%。經(jīng)測試,通過使用隨機對角Levenberg?Marquardt方法,收斂速度比基本BP算法快了許多,經(jīng)過68代訓(xùn)練后識別正確率可達89%。
4 結(jié) 語
本文提出了基于多重卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)機手寫字符的識別方法,通過使用多個識別率高的卷積神經(jīng)網(wǎng)絡(luò)和隨機對角 Levenberg? Marquardt方法,可以適用于大模式聯(lián)機手寫識別。經(jīng)過實驗數(shù)據(jù)比較,該方法在大模式聯(lián)機手寫識別過程中具有很高的識別率,與此同時識別速度也很快,有很好的實時性,總體效果很好。在當(dāng)今觸摸屏應(yīng)用遍及生產(chǎn)生活的各個方面的趨勢下,該方法有著廣闊的應(yīng)用前景。同時此方法為今后多手寫漢字識別的研究提供了很好的借鑒。
注:本文通訊作者為潘立武。
參考文獻
[1] 吳鳴銳,張鈸.一種用于大規(guī)模模式識別問題的神經(jīng)網(wǎng)絡(luò)算法[J].軟件學(xué)報,2001,12(6):851?855.
[2] 張輝.大規(guī)模聯(lián)機手寫漢字識別數(shù)據(jù)庫整理、統(tǒng)計與實驗分析[D].廣州:華南理工大學(xué),2012.
[3] 徐姍姍,劉應(yīng)安,徐,等.基于卷積神經(jīng)網(wǎng)絡(luò)的木材缺陷識別[J].山東大學(xué)學(xué)報:工學(xué)版,2013,43(2):23?28.
[4] 呂剛.基于卷積神經(jīng)網(wǎng)絡(luò)的多字體字符識別[J].浙江師范大學(xué)學(xué)報:自然科學(xué)版,2011,34(4):425?428.
[5] PHAM D V. Online handwriting recognition using multi convolution neural networks [M]. Berlin Heidelberg: Springer, 2012: 310?319.
[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [C]// Proceeding of IEEE. USA: IEEE, 1998: 2278?2324.
[7] SIMARD P Y, STEINKRAUS Dave, PLATT John. Best practices for convolutional neural networks applied to visual document analysis [C]// International Conference on Document Analysis and Recognition (ICDAR). Los Alamitos: IEEE Computer Society, 2003: 958?962.
【關(guān)鍵詞】壓縮緊鄰 字符識別 正確率
1 研究背景
樣本選擇是從原有的樣本集中某一種選擇方式來選出樣本子集,是一個能加快數(shù)據(jù)處理效率,可以節(jié)省存儲資源并且保證不降低分類性能的可靠方法。樣本選擇和特征選擇在某些方面上有相似之處,一般都是與具體分類預(yù)測方法相關(guān)聯(lián)。字符識別是模式識別中一類熱門的研究問題,本文將利用樣本選擇方法結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)進行字符識別。
2 加權(quán)壓縮近鄰方法
基于壓縮近鄰的樣本選擇方法具有擁有降低存儲、縮短運算等特點。郝紅衛(wèi)等人在此基礎(chǔ)上提出了加權(quán)壓縮近鄰規(guī)則,針對那些未被選中的邊緣樣本,可以重復(fù)數(shù)次對壓縮近鄰的過程,從而確保樣本數(shù)據(jù)均能夠被選上。對于中心樣本也能被保留的問題,通過對樣本加權(quán)評估、再次選擇的方式來解決。在選擇的過程中可以根據(jù)實驗需要進行樣本數(shù)量進行控制,稱之為加權(quán)壓縮近鄰規(guī)則(Weighted Condensed Nearest Neighbor)。
該算法是通過壓縮近鄰規(guī)則過程的循環(huán)保證子集P中有足夠多的邊界樣本,但是其中仍存在大量的冗余,我們依據(jù)投票的原則對子集P中樣本的代表性進行評估并且再次選擇。其具體過程是對于U中的每個樣本x找出P中距離最接近的樣本xi,如果x和xi的類別是相同的,那么投xi一票。樣本獲得的票數(shù)最高,說明它最具有代表性。根據(jù)投票的實際情況和樣本的數(shù)量來得到最終的子集A。用加權(quán)壓縮近鄰規(guī)則獲得的子集比壓縮近鄰規(guī)則得到的子集包含更少的冗余樣本和更多的具有代表性樣本,同時還可以根據(jù)實驗來控制子集中所含有的樣本數(shù)。
3 實驗結(jié)果與分析
本次實驗分別使用MNIST和USPS手寫體識別庫作為訓(xùn)練和測試樣本集。
實驗平臺采用英特爾酷睿i5-4430CPU 3.00GHz,8GB內(nèi)存,Windows10操作系統(tǒng),Matlab R2010b。我們設(shè)定隨機選擇和壓縮近鄰選取MNIST中樣本數(shù)目為6600個,樣本壓縮比為10%,USPS庫中選取樣本數(shù)目為1767個,樣本壓縮比為20.34%。設(shè)置深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練次數(shù)設(shè)為100次。
算法給出了基于壓縮近鄰和BP神經(jīng)網(wǎng)絡(luò)手寫體字符識別結(jié)果。通過融合壓縮近鄰規(guī)則選取樣本和BP神經(jīng)網(wǎng)絡(luò)實驗,在訓(xùn)練時間上雖然沒有融合隨機選取樣本和深度卷積網(wǎng)絡(luò)實驗短,但是在時間上并沒有很大幅度延長。在實驗的識別錯誤率上,MNIST庫中比隨機選擇實驗提升了1.52%,分類效果提升明顯??梢妷嚎s近鄰方法可以選擇到更好的代表性樣本。這兩組數(shù)據(jù)依然說明了壓縮近鄰對樣本選擇的可靠性。表1給出了基于壓縮近鄰和卷積神經(jīng)網(wǎng)絡(luò)的手寫體字符識別結(jié)果。
4 總結(jié)
本文主要介紹了基于壓縮近鄰的樣本選擇方法。樣本選擇的提出是為了有效減少樣本數(shù)量,并且保證不降低訓(xùn)練精確度。在實驗中進行驗證,通過壓縮近鄰規(guī)則選取樣本和深度卷積神經(jīng)網(wǎng)絡(luò)實驗,證明其能夠減少訓(xùn)練樣本,提升訓(xùn)練速度,降低存儲空間還可以提高識別正確率。
參考文獻
[1]郝紅衛(wèi),蔣蓉蓉.基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本選擇方法[J].自動化學(xué)報,2007,33(12):1247-1251.
[2]姜文瀚.模式識別中的樣本選擇研究及其應(yīng)用[D].南京理工大學(xué),2008.
[3]余凱,賈磊,陳雨強.深度學(xué)習(xí)的昨天、今天和明天[J].計算機研究與發(fā)展,2013,50(09):1799-1804.
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);年齡分類
0引言
人臉作為人類個體鮮明顯著的生物特征之一,包含著豐富的個人信息。隨著計算機視覺和機器學(xué)習(xí)技術(shù)的發(fā)展,相關(guān)的人臉識別等技術(shù)已成為這些項目任務(wù)的熱點課題,并在法醫(yī)、電子化客戶關(guān)系管理、安防、生物識別和娛樂影音等諸多領(lǐng)域中得到廣泛應(yīng)用。人臉除了可進行身份認(rèn)證和識別外,還可以提取出性別、種族和年齡等信息,特別是可以將年齡及分布特征用于人機交互和商業(yè)智能等應(yīng)用中,因此年齡估計研究具有重要的科學(xué)意義和實用價值。
相對于人臉識別,人臉?biāo)鼙碚鞯哪挲g信息要受到很多因素的影響,例如不同個體的基因差異、生活習(xí)慣、環(huán)境、抗壓能力、健康情況和種族差別等有很大的關(guān)系。同時,相同個體因發(fā)型、化妝和表情的不同也會影響年齡的估計。因此,如果要基于傳統(tǒng)的分類算法(如支持向量機)并利用人臉圖像信息來進行年齡分類將很難得到理想的結(jié)果。針對這些問題,目前的研究還相對不足,如果能有效解決上述問題,對大部分潛在的應(yīng)用領(lǐng)域也都將帶來深刻的影響。
1相關(guān)工作
年齡分類的主要流程是先根據(jù)人臉圖像獲取特征,再通過機器學(xué)習(xí)方法構(gòu)建模型,通過把年齡分為多個年齡區(qū)段,即每個年齡段對應(yīng)一個類別(比如未成年或成年人等)。因此可以把年齡分類看成是一個二分類或者多分類的分類問題來進行求解。1994年,Kwon和Lobo則從人臉圖像中獲取年齡分類,把人分為3種不同的類別,也就是兒童、青年人和老年人,強調(diào)重要特征點的選擇。2002年Lanitis等人提出了能自動對年齡實現(xiàn)估計的年齡量化方法。而且,王先梅等的綜述中也整體梳理了相關(guān)年齡估計技術(shù)的研究發(fā)展。王紹宇等人還基于SMV采用生物特征對人進行分類,分為小孩和成人。此外在2016年,董遠等人更將遷移學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)用于人的年齡和性別分類。
黑科技?神經(jīng)網(wǎng)絡(luò)是個什么鬼
說到神經(jīng)網(wǎng)絡(luò),很多朋友都會認(rèn)為這是一個高大上的概念。從生物學(xué)角度來說,人類復(fù)雜的神經(jīng)系統(tǒng)是由數(shù)目繁多的神經(jīng)元組合而成,它們互相聯(lián)結(jié)形成神經(jīng)網(wǎng)絡(luò),經(jīng)過對信息的分析和綜合,再通過運動神經(jīng)發(fā)出控制信息,從而實現(xiàn)各種精密活動,如識別各種物體、學(xué)習(xí)各種知識、完成各種邏輯判斷等。
隨著人工智能技術(shù)的發(fā)展,科學(xué)家開發(fā)出人工神經(jīng)網(wǎng)絡(luò),它的構(gòu)成原理和功能特點等方面更加接近人腦。它不是按給定的程序一步一步地執(zhí)行運算,而是能夠自身適應(yīng)環(huán)境、總結(jié)規(guī)律、完成某種運算、識別或過程控制。比如多倫多大學(xué)的Krizhevsky等人構(gòu)造了一個超大型卷積神經(jīng)網(wǎng)絡(luò),有9層,共65萬個神經(jīng)。第一層神經(jīng)元只能識別顏色和簡單紋理,但是第五層的一些神經(jīng)元可以識別出花、圓形屋頂、鍵盤、烏、黑眼圈等更為抽象豐富的物體(圖1)。因此神經(jīng)網(wǎng)絡(luò)實際上是基于人工智能技術(shù)而形成的一種和人類神經(jīng)網(wǎng)絡(luò)相似的網(wǎng)絡(luò)系統(tǒng)。
媲美Photoshop 神經(jīng)網(wǎng)絡(luò)磨皮技術(shù)背后
如上所述,現(xiàn)在神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展已經(jīng)非常迅猛,而且運用在各個領(lǐng)域。神經(jīng)網(wǎng)絡(luò)磨皮則是指該技術(shù)在照片識別和美化方面的運用。那么它是怎樣實現(xiàn)對照片的美化?在Photoshop中磨皮操作是用戶先選中人臉區(qū)域,然后再使用Photoshop內(nèi)置的方法實現(xiàn)磨皮。神經(jīng)網(wǎng)絡(luò)磨皮原理類似,只不過這些操作是自動完成的。
首先是對照片人臉識別。要實現(xiàn)對照片的美容就必須先精確識別人臉,由于人臉有五官這個顯著特征,因此神經(jīng)網(wǎng)絡(luò)磨皮技術(shù)只要通過機器對一定數(shù)量的人臉照片進行識別、讀取,然后就可以精確識別人臉。它的原理和常見的人臉識別技術(shù)類似(圖2)。
其次則是美化。在完成人臉識別后就需要對美化操作進行機器學(xué)習(xí),以磨皮為例。因為人臉的每個年齡階段皮膚性質(zhì)是不同的,為了達到更真實的磨皮效果,神經(jīng)網(wǎng)絡(luò)磨皮是實現(xiàn)用戶“回到”幼年或者“穿越”到老年臉部皮膚的效果。研究人員將年齡段分類為0~18歲、19~29歲、30~39歲、40~49歲、50~59歲和60歲以上這幾個階段(圖3)。
然后準(zhǔn)備兩個深度學(xué)習(xí)機器同時工作。兩個機器一個用來生成人臉,一個用來鑒別人臉。而且兩個機器會通過分析人臉圖像,提前學(xué)習(xí)到各年齡段人臉大概是什么樣子的。在每個年齡分組里,研究人員讓機器學(xué)習(xí)超過5000張標(biāo)記過年齡的人臉圖像。通過大量的照片學(xué)習(xí)后,機器就可以學(xué)會每個年齡分組內(nèi)的標(biāo)簽,它可以準(zhǔn)確知道每個人不同年齡階段的臉部特征。這樣無論你是要磨皮為年輕時的皮膚光滑、圓潤狀態(tài),還是要變?yōu)?0歲以后皺褶、粗糙的皮膚,神經(jīng)磨皮都可以輕松幫助你實現(xiàn)。
當(dāng)然學(xué)習(xí)有個通病,就是在合成過程中,機器可能會喪失掉圖片原有的識別資料(1D)。為了解決這個問題,上述介紹中的人臉鑒別機器就發(fā)揮功效了。它通過查看這個照片的識別資料是不是唯一的,如果不是的話照片則會被拒絕輸出。研究人員讓機器合成10000張從數(shù)據(jù)庫中抽取出來的人像,這些照片之前從未用來訓(xùn)練機器。然后他們用開發(fā)的軟件程序來檢測訓(xùn)練前后的兩張照片是否為同一個人,測試結(jié)果顯示有80%經(jīng)訓(xùn)練的照片都被認(rèn)為和原照片是同一個人(而作為對比,用其他方法加工照片,平均測試結(jié)果只有50%)。舉個簡單例子,如果40歲的用戶將自己磨皮為20歲的樣子,如果軟件程序來檢測訓(xùn)練前后的兩張照片為同一個人,那么就輸出磨皮效果,從而讓用戶可以輕松磨皮到20歲的狀態(tài)。這樣經(jīng)過訓(xùn)練的神經(jīng)磨皮算法可以很真實地實現(xiàn)人臉的磨皮。
神經(jīng)網(wǎng)絡(luò) 不H僅是磨皮
根據(jù)美國New Scientist雜志報道,F(xiàn)acebook的人工智能團隊已經(jīng)開發(fā)出一種識別算法,即使看不清楚人臉,也能根據(jù)各種線索,例如發(fā)型、服飾、身材和姿勢等進行識別―比如Facebook就能輕松地認(rèn)出它的創(chuàng)始人扎克伯格,因為他總是穿一件灰色T恤。這項技術(shù)的準(zhǔn)確率據(jù)稱可以達到83%。
傳統(tǒng)的人臉識別是程序員預(yù)先將整套鑒別系統(tǒng)寫好,告訴計算機一些標(biāo)簽信息,例如,人臉是由哪幾個部分組成、各個部分的相對位置等等。隨后再用大量照片讓計算機學(xué)習(xí),對其進行訓(xùn)練―簡單地說,就是事先給出標(biāo)準(zhǔn)答案,然后讓計算機學(xué)習(xí)。
這種訓(xùn)練方式叫有監(jiān)督學(xué)習(xí),程序員像是老師一樣給出幾個標(biāo)簽作為標(biāo)準(zhǔn)答案,讓計算機“按標(biāo)索臉”。但當(dāng)程序員給出的標(biāo)簽數(shù)量不夠多,不能全面描述一個事物的時候,計算機的識別準(zhǔn)確率就會很低。所以,程序員要做的就是不斷增加標(biāo)簽,完善識別模板。
通過有監(jiān)督學(xué)習(xí)的方式來訓(xùn)練計算機,效率較低,程序員需要花費大量的時間來編寫標(biāo)簽代碼、測試計算機和補充標(biāo)簽代碼,并且一套完善的鑒別系統(tǒng)只能識別出一種事物。
Facebook是不會花時間給每個人的發(fā)型和衣服寫一套代碼的。高效地識別各類事物,還需要借助于更智能的識別方式。而這種方式是通過基于卷積神經(jīng)網(wǎng)絡(luò)的無監(jiān)督學(xué)習(xí)完成的。
使用無監(jiān)督學(xué)習(xí)來訓(xùn)練計算機的時候,程序員并不需要告訴計算機人臉有哪些特點,只需要提供大量人臉照片讓計算機看,計算機就能找到這些圖片的共同特點,并自動繪制出這類事物的模板。這省去了編寫標(biāo)簽代碼的過程,識別的效率極大提高。
Google的“貓臉識別”系統(tǒng)就是這樣的工作原理。這個由1000臺計算機、1.6萬個芯片組成的系統(tǒng)在“學(xué)習(xí)”了數(shù)百萬張貓臉圖片后,將邊界、亮度、形狀、色彩和局部形狀等多個特征分類,做成標(biāo)簽,繪制模板。
當(dāng)再看到一張圖片后,系統(tǒng)會逐級對其進行識別。比如先判斷圖像的特定方位、位置邊沿的有無,再通過不同的形狀來檢測局部圖案,接下來則是將局部圖案與模板中物體的相應(yīng)部分匹配。后續(xù)的層級會把這些局部組合起來從而識別出整體。最后,系統(tǒng)將圖片中的貓臉識別出來,并與之前學(xué)習(xí)過的數(shù)百萬張貓臉圖片歸為一類。
這其實和人類的思維以及識別事物的過程十分相似。由于絕大多數(shù)圖片都是由多種事物組成的,無監(jiān)督學(xué)了自行繪制模板,還會將不同事物進行分類,進而分類繪制模板。
“卷積就是匹配的意思?!蔽④洠▉喼蓿┗ヂ?lián)網(wǎng)工程院資深研發(fā)總監(jiān)胡睿對《第一財經(jīng)周刊》說,“我們有幾千個或者幾萬個模板在一個卷積神經(jīng)網(wǎng)絡(luò)里面。如果新來一張圖片,就用這些模板去做卷積,再通過神經(jīng)網(wǎng)絡(luò)推理出它到底是模板中的哪一類。”
Facebook的新技術(shù)使用的也是卷積神經(jīng)網(wǎng)絡(luò)。要知道,卷積神經(jīng)網(wǎng)絡(luò)技術(shù)正是Facebook的人工智能實驗室負(fù)責(zé)人Yann LeCun,在1980年代末開發(fā)出的。2003年,他成為紐約大學(xué)的教授。而移動互聯(lián)網(wǎng)的興起帶來的海量數(shù)據(jù),為這一技術(shù)的進一步發(fā)展提供了極大可能。
如今,在互聯(lián)網(wǎng)巨頭公司中,F(xiàn)acebook擁有基于社交網(wǎng)絡(luò)的大量圖片,這一點非常吸引LeCun。2014年,他加入了Facebook,把實驗室從學(xué)校搬到了公司。
除了豐富的圖片資源,F(xiàn)acebook還有一項更大的優(yōu)勢:作為全球最大的社交網(wǎng)站,它能獲取照片的拍攝地址、分析用戶的社交關(guān)系,并在此基礎(chǔ)上識別出照片中的人物。也就是說,即使在一些照片中,你的臉不是很清楚,并且其他和你相關(guān)的信息也比較缺乏,但是Facebook會根據(jù)你以往的消息推斷出這張照片是在哪兒拍的,照片中哪個人是你,甚至你旁邊那些臉部同樣模糊的人都是你哪些朋友。
“Facebook需要解決的問題,并不是從50億個人中把你挑出來,”胡睿說,“它只需要從幾百個或者上千個與你有關(guān)系的人中間把你挑出來,這樣問題其實極大地簡化了?!?/p>
Facebook的研究人員表示,這項技術(shù)未來可以用于其Moments的照片分享。Moments是不久前Facebook推出的一款私密照片分享應(yīng)用,主要是用來讓好友間的圖片交換與分享變得更方便。
不過目前,這項“不看臉識人”的技術(shù)還沒有被應(yīng)用在它Facebook的產(chǎn)品中,或許其中一個原因是,它還很難達到傳統(tǒng)人臉識別技術(shù)的高準(zhǔn)確率。Facebook也承認(rèn),這個算法并不十分完美。尤其,基于服飾的判斷無法做到百分之百準(zhǔn)確,畢竟,不是所有人都像扎克伯格那樣,每天穿著同樣的衣服。
關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);Morlet小波;決策理論;Hilbert變換
中圖分類號:TP18文獻標(biāo)識碼:A文章編號:1009-3044(2009)32-9050-02
Wireless Signal Simulation Algorithm for Automatic Identification
ZHANG Meng
(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)
Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.
Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform
在軍事電子對抗等多方面的重要應(yīng)用,通信信號調(diào)制的自動識別分類問題也相繼發(fā)展起來。無線電信號調(diào)制實識別就是要判斷截獲信號的調(diào)制種類。為此,需要事先對其特征進行選定,并確定它們與相應(yīng)調(diào)制種類相聯(lián)系的取值范圍,然后再對信號進行特征測量,并根據(jù)測量結(jié)果對信號的調(diào)制進行分類判決。
如果把無線電信號的調(diào)制識別與分類視為一種模式識別問題,那末,從模式識別理論來看,模式分類是模式識別的一個子系統(tǒng)。因此,在模式識別理論框架下,無線電信號的調(diào)制識別是一個總體概念。而調(diào)制分類則只是調(diào)制識別的一個分支[1]。
1 基于決策理論的模擬調(diào)制方式識別方法
此算法主要實現(xiàn)區(qū)分AM、FM、DSB、LSB、USB、VSB、AM-FM等七種調(diào)制樣式,所分析的對象序列s(n)是由接收機中頻輸出并經(jīng)過采樣得到的,這樣s(n)的采樣頻率和載頻都已知,分別記做Fs和Fc。算法分兩個步驟:
第一步,根據(jù)信號的包絡(luò)特征將AM、USB、LSB與FM區(qū)分開,因為前三種信號的包絡(luò)不為恒定值,而FM的包絡(luò)理論上是恒定值(實際中接近恒定)。因而可以從中提取一個特征參數(shù)R。參數(shù)R反映了零中心歸一化包絡(luò)的功率譜特征,FM的零中心歸一化包絡(luò)接近零,因其參數(shù)R應(yīng)遠遠小于前三種信號。實際中若R
第二步,根據(jù)信號頻譜的對稱性,將AM與USB與LSB區(qū)分開,因為AM的單邊頻譜關(guān)于載頻是近似對稱的,USB和LSB的單邊頻譜對于載頻來說分別只有上邊頻和下邊頻。因而可以從中提取另一個特征參數(shù) 。理論上,由于AM的上下邊頻對稱,所以AM的P接近零,而LSB和USB的P分別接近1和-1。實際中若|P|< 0.5,判為AM信號,若P>0.5,判為LSB,P
第三步,零中心非弱信號段瞬時相位非線性分量絕對值的標(biāo)準(zhǔn)偏差:σap 。
σap由下式定義:
(1)
式中,at是判斷弱信號段的一個幅度判決門限電平,c是在全部取樣數(shù)據(jù)Ns中屬于非弱信號值的個數(shù),?準(zhǔn)NL(i)是經(jīng)零中心化處理后瞬時相位的非線性分量,在載波完全同步時,有:?準(zhǔn)NL(i)= φ(i)-φ0
式中:,φ(i)為瞬時相位。用σap來區(qū)分是DSB信號還是AM-FM信號。
第四步,零中心非弱信號段瞬時相位非線性分量的標(biāo)準(zhǔn)偏差:σdp。
σdp由下式定義:
(2)
σdp主要用來區(qū)別不含直接相位信息的AM、VSB信號類和含直接相位信息的DSB、LSB、USB、AM-FM信號類,其判決門限設(shè)為t(σdp) 。
2 決策論方法的改進
前面介紹的基于決策理論的模擬調(diào)制方式識別方法存在缺陷針對上述問題,人們又提出了基于神經(jīng)網(wǎng)絡(luò)(NN)的識別方法。
2.1 BP網(wǎng)絡(luò)作為分類器的模擬調(diào)制方式識別方法
該算法用基于有監(jiān)督訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型BP網(wǎng)絡(luò)作為分類器,用BP模型多層感知網(wǎng)絡(luò)與反向傳播學(xué)習(xí)算法相結(jié)合,通過不斷比較網(wǎng)絡(luò)的實際輸出與指定期望輸出間的差異來不斷的調(diào)整權(quán)值,直到全局(或局部)輸出差異極小值,不難想象該神經(jīng)網(wǎng)絡(luò)對模型細(xì)節(jié)中的諸多問題均有良好效果。
基于NN的模擬信號調(diào)制識別框圖[2]如圖1所示,該NN采用三層結(jié)構(gòu)即,1個輸入層,1個輸出層,1個中間層。中間層可采用多層。但由于受到計算復(fù)雜性的限制,目前采用單層或雙層中間層的NN比較多見。本圖中間層采用單層25個節(jié)點,輸入層和輸出層的節(jié)點數(shù)取決于信號特征參數(shù)的個數(shù)和信號的分類數(shù),因而分別為4和7。
神經(jīng)網(wǎng)絡(luò)具有信息分布式存儲、大規(guī)模自適應(yīng)并行處理和高度容錯特性,適用于模式識別的基礎(chǔ)。其學(xué)習(xí)能力和容錯特性對不確定性模式識別具有獨到之處[3]。通信信號在傳播過程中受到信道噪聲的污染,接受到的信號是時變的、非穩(wěn)定的,而小波變換特別適用于非穩(wěn)定信號的分析,其作為一種信息提取的工具已得到較廣泛的應(yīng)用。小波變換具有時頻局部性和變焦特性,而神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)、自適應(yīng)、魯棒性、容錯性和推廣能力,兩者優(yōu)勢的結(jié)合可以得到良好的信號模式自動識別特性,從而形成各種處理方法。
2.2 基于小波的特征提取和識別方法
小波特別適用于非穩(wěn)定信號的分析,作為一種特征提取的工具已得到較為廣泛的應(yīng)用。小波的重要特點是它能夠提供一個信號局部化的頻域信息。小波變換能夠?qū)⒏鞣N交織在一起的不同頻率組成的混合信號分解成不同頻率的塊信號,它對不同的時間和頻率有不同的解釋,因此,對調(diào)制信號進行小波分解,得到不同水平下的細(xì)節(jié)信息,這些信息對于不同類別的調(diào)制信號來說是有差別的[4]。
在實際應(yīng)用中,小波變換常用的定義有下列兩種:
(3)
(4)
式中,星號*表示共軛。式(3)表示小波變換是輸入信號想x(t)和小波函數(shù)φα, τ(t)的相關(guān)積分;式(4)用卷積代替了相關(guān)積分。兩種定義在本質(zhì)上是一致的。本為采用后者。
將式(4)中的τ和t離散化,即令τ=kTs,及t=iTs,得連續(xù)小波變換公式(4)的離散形式,又稱小波系數(shù):
(5)
Morlet小波是一種單頻復(fù)正弦調(diào)制高斯波,也是最常用的復(fù)值小波。其實、頻兩域都具有很好的局部性,它的時域形式如下:
(6)
雖然信號特征有很多種,神經(jīng)網(wǎng)絡(luò)在進行信號識別時,主要是依據(jù)譜峰位置的不同,因此提取信號特征主要任務(wù)就是尋找信號類別與譜峰位置間的必然聯(lián)系。而小波變換在這里則相當(dāng)于一個數(shù)學(xué)顯微鏡,通過它,可以詳細(xì)了解各類信號在不同低頻段上的頻譜構(gòu)成。
整個系統(tǒng)在PC機上進行仿真,采用Windows2000操作系統(tǒng)和Matlab6.1和Cool Edit2.0進行聲音錄制。
在仿真中,采用44K的采樣率,錄制了一段歌聲和一段笑聲,用Matlab生成22K的正弦載波,并根據(jù)第二章的各調(diào)制樣式的定義,生成了各個仿真的調(diào)制波形。并轉(zhuǎn)化成.wav文件錄在電腦中。
3 結(jié)束語
本文僅限于理論理論研究,用MatLab仿真實現(xiàn),沒有用DSP芯片等物理電路實現(xiàn),僅為實際實現(xiàn)提供理論指導(dǎo)。
參考文獻:
[1] 羅利春.無線電偵察信號分析與處理[M].北京:國防工業(yè)出版社,2003.
[2] 楊小牛,樓才義,徐建良.軟件無線電原理與應(yīng)用[M].北京:電子工業(yè)出版社,2001.
當(dāng)今世界,無線通信技術(shù)發(fā)展迅速,無線通信進入第五代(5G)時代需實現(xiàn)上千倍容量,毫秒延遲和大量的連接[1-2]。為了滿足上述要求,一些關(guān)鍵技術(shù),如大規(guī)模多輸入多輸出(Mul-tiple-InputMultiple-Output,MIMO),毫米波(MillimeterWave,mmWave)等已被提出。這些技術(shù)在工程應(yīng)用中均表現(xiàn)出相同的特點,即具有處理大型無線數(shù)據(jù)的能力。對于無線通信,其對移動速度和通信質(zhì)量具有較高的要求,然而在滿足大數(shù)據(jù)和高速復(fù)雜場景中的通信需求中,傳統(tǒng)的通信技術(shù)存在以下固有的局限性:(1)復(fù)雜場景中信道建模困難:通信的設(shè)計系統(tǒng)在很大程度上依賴于現(xiàn)實的信道條件。而在實際應(yīng)用中,這些模型的建模在復(fù)雜的場景中變得十分困難[3]。例如,在大規(guī)模MIMO系統(tǒng)中天線數(shù)量的增加改變了信道屬性[4],相應(yīng)的信道模型存在未知的因素。很多情況下,信道不能用嚴(yán)格的數(shù)學(xué)模型來描述。因此,設(shè)計適合信道模型的算法必不可少。(2)魯棒的信號處理算法的需求:使用低成本硬件,例如低功耗、低分辨率模數(shù)轉(zhuǎn)換器[5]引入了額外的信號非線性失真,這需要使用高魯棒的接收處理算法,例如,信道估計和檢測的算法。然而,使用這些算法可能會增加計算的復(fù)雜度。在這種情況下,具有實時大數(shù)據(jù)處理能力且更有效和高魯棒的信號處理算法是必需的。(3)塊結(jié)構(gòu)通信受限系統(tǒng):傳統(tǒng)的通信系統(tǒng)由幾個處理模塊,如信道編碼、調(diào)制和信號檢測,盡管研究人員多年來嘗試優(yōu)化每個算法的處理模塊并在實踐中取得成功,但并不能使得整個通信系統(tǒng)能得到最優(yōu)的性能,因為通信的根本問題取決于接收端可靠的消息恢復(fù)[6]。因此,如果對每個模塊進行的子優(yōu)化替換為端到端的優(yōu)化,就有希望進一步改進系統(tǒng)性能。深度學(xué)習(xí)(DeepLearning,DL)近年來因成功應(yīng)用在計算機視覺、自動語音識別和自然語言處理等領(lǐng)域而獲得廣泛關(guān)注,是典型的大數(shù)據(jù)依賴的學(xué)習(xí)框架。同時,研究人員也把DL廣泛應(yīng)用到了無線通信的物理層[7-11]。與傳統(tǒng)的機器學(xué)習(xí)算法[12-14]相比,DL顯著增強了特征提取和結(jié)構(gòu)靈活性。特別是基于DL的系統(tǒng)通過端到端優(yōu)化靈活地調(diào)整參數(shù)來自動調(diào)整模型結(jié)構(gòu),這可以代替手動從原始數(shù)據(jù)中提取特征。基于DL的通信系統(tǒng)具有良好的應(yīng)用復(fù)雜場景主要有如下原因:首先,DL是一種數(shù)據(jù)驅(qū)動的方法,其模型是在大型訓(xùn)練數(shù)據(jù)集上優(yōu)化得到的,基于DL的通信系統(tǒng)不需要建立數(shù)學(xué)模型。其次,能夠處理大數(shù)據(jù)也是DL重要的特點,DL采用分布式并行計算體系結(jié)構(gòu),保證了計算速度和計算速度處理能力。DL系統(tǒng)由于其擁有快速開發(fā)并行處理體系結(jié)構(gòu),如圖形處理單元,在處理大數(shù)據(jù)上具有巨大的潛力。最后,基于DL的通信系統(tǒng)可實現(xiàn)整個系統(tǒng)性能的改進,因為模型經(jīng)過端到端的訓(xùn)練優(yōu)化了整體的性能,而對單個模塊結(jié)構(gòu)沒有要求。本文旨在對近年來在基于大數(shù)據(jù)的DL在無線通信物理層的研究作出綜述,本文的組織結(jié)構(gòu)如下:第二節(jié)簡要概述無線通信物理層的系統(tǒng)框圖。第三節(jié)介紹了幾個DL應(yīng)用到通信物理層的示例。第四節(jié)討論了未來研究的領(lǐng)域和挑戰(zhàn)。第五節(jié)是全文總結(jié)。
1通信系統(tǒng)模型
它是一個模塊結(jié)構(gòu),包括信道編碼、調(diào)制、信道估計、信道均衡、信道譯碼和信道狀態(tài)信息(ChannelStateInformation,CSI)反饋等模塊。通信算法是在長期的研究中發(fā)展起來的,以優(yōu)化通信系統(tǒng)其中的模塊。之前有研究試圖利用傳統(tǒng)的機器學(xué)習(xí)方法,作為特定模塊的替代算法。DL架構(gòu)最近被引入到幾個處理模塊中以適應(yīng)新興的復(fù)雜通信場景,以期達到更優(yōu)的性能。
2幾個典型的DL應(yīng)用到物理層的案例
本節(jié)給出了一些DL應(yīng)用在通信物理層的典型例子,包括聯(lián)合信道估計和信號檢測、聯(lián)合均衡和信號譯碼、大規(guī)模MIMOCSI壓縮反饋和mmWave大規(guī)模MIMO混合預(yù)編碼。下面分別進行介紹。
2.1聯(lián)合信道估計和信號檢測
一般信道估計和信號檢測是接收機的兩個獨立過程。首先,CSI通過導(dǎo)頻來估計,然后利用估計的CSI在接收端恢復(fù)發(fā)送符號。文獻[7]提出了一種聯(lián)合信道估計和信號檢測方法。具體地說,一個帶有五層全連接層的深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)用于聯(lián)合信道估計和檢測,這里將信道看作一個黑盒子。在離線訓(xùn)練中,發(fā)送數(shù)據(jù)和導(dǎo)頻形成幀,然后這些幀經(jīng)過一個時變信道。該網(wǎng)絡(luò)把接收信號作為輸入,通過訓(xùn)練網(wǎng)絡(luò)來重構(gòu)發(fā)送數(shù)據(jù)。當(dāng)導(dǎo)頻不足、去掉循環(huán)前綴和非線性失真幾種情況下,基于DNN的信道估計和檢測方法都優(yōu)于最小均方誤差方法。
2.2聯(lián)合均衡和信號譯碼
文獻[15]提出了一種聯(lián)合均衡和信號譯碼的方法,該方法中在不知道CSI情況下,基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合均衡器和解碼器可以實現(xiàn)均衡和譯碼。這里使用兩個神經(jīng)網(wǎng)絡(luò),首先,卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)用于恢復(fù)失真的發(fā)送數(shù)據(jù),然后DNN解碼器對CNN網(wǎng)絡(luò)均衡后的信號進行解碼。實驗結(jié)果表明,在各種信道條件下,該方法的性能優(yōu)于其他基于機器學(xué)習(xí)方法。其中分別表示比特流符號,發(fā)送符號,接收符號,均衡后的符號和譯碼后的符號。
2.3大規(guī)模MIMOCSI壓縮反饋
在頻分雙工網(wǎng)絡(luò)中,大規(guī)模MIMO依賴于CSI反饋來實現(xiàn)基站端天線的性能增益。然而,大量天線導(dǎo)致過多的反饋開銷。已經(jīng)大量工作通過利用CSI的空間和時間的相關(guān)性來減少CSI反饋開銷。利用CSI的稀疏特性,壓縮感知(Compressedsensing,CS)已被應(yīng)用于CSI壓縮反饋中。然而,傳統(tǒng)的CS算法面臨挑戰(zhàn),因為現(xiàn)實世界的數(shù)據(jù)并不完全稀疏,現(xiàn)有信號恢復(fù)算法的收斂速度很慢,這限制了CS的適用場景。CsiNet[16]被提出來模擬CS信道壓縮反饋的過程。取角延遲域的信道矩陣作為輸入,編碼器的第一層是生成兩個特征圖的卷積層。然后將卷積后的數(shù)據(jù)重新排列為N×1大小的適量,再利用全連接層生成M×1大小的壓縮數(shù)據(jù)(MN)。由于不需要CS測量矩陣,減少了反饋開銷。在解碼器上,利用一個全連接層、兩個殘差層和一個卷積層對壓縮的CSI進行重構(gòu)。結(jié)果表明,CsiNet算法在不同壓縮比和復(fù)雜度上的性能明顯優(yōu)于基于CS的方法。
2.4基于DL的mmWave大規(guī)模MIMO混合預(yù)編碼
mmWave一直被認(rèn)為是一種5G的重要方案,其中混合模擬和數(shù)字預(yù)編碼是一種重要的可以減少硬件復(fù)雜性和能耗的方法。然而,現(xiàn)有的混合預(yù)編碼方案受限于高計算復(fù)雜度,且不能充分利用空間信息。為了克服這些局限性,文獻[17]提出了一個基于DL的mmWave大規(guī)模MIMO混合預(yù)編碼框架,其中每個預(yù)編器的選擇被視為一種DNN的映射關(guān)系。具體地說,通過訓(xùn)練DNN選擇混合預(yù)編碼器來優(yōu)化mmWave大規(guī)模MIMO的預(yù)編碼過程。實驗結(jié)果表明,基于DNN的混合預(yù)編碼方法能降低mmWave大規(guī)模MIMO的誤碼率和增強頻譜效率,在保證更優(yōu)的性能的同時,能大大減少所需的計算復(fù)雜度。
3挑戰(zhàn)
DL在無線通信系統(tǒng)物理層中的應(yīng)用是一個新的研究領(lǐng)域,雖然已有的研究表現(xiàn)出了較好的結(jié)果,但是在未來的研究中一些挑戰(zhàn)值得進一步探討。(1)模型的選擇在基于DL的通信框架下,神經(jīng)網(wǎng)絡(luò)的設(shè)計是核心挑戰(zhàn)。許多基于DL的技術(shù)都是按照通用模型開發(fā)的。例如,計算機視覺總是使用CNN,而LSTM則通常用于自然語言處理領(lǐng)域。然而,我們想知道是否有基于DL的無線通信模型,我們認(rèn)為,通用模型將有助于在實踐中得到實現(xiàn)。在工程項目中,不僅通用模型提高了優(yōu)化通信框架的便利性,也可以減少模型選擇的成本和時間。在可以得到通用的模型之前,這個問題還需要廣泛的探索。(2)系統(tǒng)性能與訓(xùn)練效率的權(quán)衡現(xiàn)有的工作表明了基于DL的數(shù)據(jù)驅(qū)動模型在物理層通信中的強大功能。然而,即使DL可以通過端到端學(xué)習(xí)來優(yōu)化通信系統(tǒng)性能,當(dāng)所有通信模塊被融合在一起時,訓(xùn)練過程將花費很長時間。為了提高訓(xùn)練效率,達到良好的系統(tǒng)性能,可以保留部分通信模塊,以實現(xiàn)訓(xùn)練效率和系統(tǒng)性能兩者之間的權(quán)衡。(3)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明和基本的理論總的來說,基于深度學(xué)習(xí)的通信框架的性能已經(jīng)在信道估計、均衡、CSI反饋等場景得到了證明,然而,我們還沒有推導(dǎo)出嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)證明和基本的理論來進一步驗證其框架的性能。推導(dǎo)出基本的理論也會有所幫助我們了解通信框架,這將是改進網(wǎng)絡(luò)和開發(fā)更高效的通信框架的基礎(chǔ)。同時,訓(xùn)練所需的訓(xùn)練集大小也是不一定的,基于DL的通信框架是否能得到最優(yōu)的性能仍然存在不確定性。(4)真實數(shù)據(jù)集的獲得近年來DL技術(shù)應(yīng)用于各種領(lǐng)域,并且得到飛速發(fā)展,這很大程度上歸功于能夠獲得真實的開源數(shù)據(jù)集。訓(xùn)練和測試數(shù)據(jù)集的質(zhì)量和數(shù)量對基于DL框架的性能有很大的影響。在計算機科學(xué)領(lǐng)域,隨著自然語言處理,計算機視覺和自動駕駛的飛速發(fā)展,已經(jīng)提供了許多公開的的數(shù)據(jù)集,如ImageNet和MNIST。然而,在基于DL的無線通信領(lǐng)域,雖然有一些數(shù)據(jù)集可以應(yīng)用于某些領(lǐng)域,但目前存在的可用數(shù)據(jù)集很少。為了便于研究,未來還需要有一些可靠的數(shù)據(jù)集。
關(guān)鍵詞:人工智能;云計算;大數(shù)據(jù)
最近火熱的美劇《西部世界》里傳遞出很多關(guān)于人工智能的信息,在圍繞如何突破機器極限,形成自主意識方面,提出了富有科幻現(xiàn)實色彩的方法-冥想程序, 將意識形成描繪成了“走迷宮”的過程,同時在道德層面又一次將“人工智能是否能成為有別于人類的另一個物種”的問題呈現(xiàn)在廣大觀眾面前。
“人工智能”(AI)這一概念最早由馬文?明斯基和約翰?麥卡錫于1956年的“達特茅斯會議”上共同提出。1960年,麥卡錫在美國斯坦福大學(xué)建立了世界上第一個人工智能實驗室。經(jīng)過近幾年互聯(lián)網(wǎng)的飛速發(fā)展,AI對企業(yè)甚至是行業(yè)產(chǎn)生了巨大而又深遠的影響。機器學(xué)習(xí),尤其是深度學(xué)習(xí)技術(shù)成為人工智能發(fā)展的核心。越來越多的硬件供應(yīng)商專為深度學(xué)習(xí)和人工智能定制設(shè)計芯片。如IBM的人腦模擬芯片SyNAPSE(Systems of Neuromorphic Adaptive Plastic Scalable Electronics,自適應(yīng)塑料可伸縮電子神經(jīng)形態(tài)系統(tǒng))芯片,含有100萬個可編程神經(jīng)元,2.56億個可編程突觸,每消耗一焦耳的能量,可進行460億突觸運算。
云計算和大數(shù)據(jù)作為人工智能的基礎(chǔ), 在工業(yè)制造等眾多場景中得到了廣泛應(yīng)用,比如很多工廠都在傳送帶上加裝了傳感器,將壓力、溫度、噪音和其他一些參數(shù)實時傳到云端,將工廠真正連上網(wǎng)絡(luò),然后利用人工智能的算法對這些數(shù)據(jù)進行比對,由此提前為工廠提供預(yù)警和遠程檢測服務(wù)。這種將生產(chǎn)流程及產(chǎn)品通過物聯(lián)網(wǎng)連接到云端,然后利用算法進行大數(shù)據(jù)分析的模式,將在更多的行業(yè)被廣泛應(yīng)用。
目前人工智能主要有10個應(yīng)用子領(lǐng)域,分別是機器學(xué)習(xí)、計算機視覺、智能機器人、虛擬個人助理、自然語音處理、實時語言翻譯、情感感知計算、手勢控制、推薦引擎及協(xié)同過濾、視頻內(nèi)容自動識別。各方向處于不同的發(fā)展階段,發(fā)展程度有高有低。但驅(qū)動發(fā)展的先決條件主要體現(xiàn)在感知能力、理解能力、學(xué)習(xí)能力、交互能力四個方面。
1 感知能力
目前人工智能的感知主要通過物聯(lián)網(wǎng)來實現(xiàn),它提供了計算機感知和控制物理世界的接口與手段,能夠采集數(shù)據(jù)、記憶,分析、傳送數(shù)據(jù),進行交互、控制等。比如攝像頭和相機記錄了關(guān)于世界的大量圖像和視頻,麥克風(fēng)記錄了語音和聲音,各種傳感器將它們感受到的世界數(shù)字化。這些傳感器就如同人類的五官,是智能系統(tǒng)的數(shù)據(jù)輸入,是感知世界的方式。
2 理解能力
智能系統(tǒng)不同于人腦,沒有數(shù)以千億的神經(jīng)元,對事物問題的理解在現(xiàn)階段還很大程度上依賴于處理器的計算分析能力。近年來,基于GPU(圖形處理器)的大規(guī)模并行計算異軍突起,擁有遠超CPU的并行計算能力。從處理器的計算方式來看,CPU計算使用基于x86指令集的串行架構(gòu),適合盡可能快的完成一個計算任務(wù)。而GPU誕生之初是為了處理3D圖像中的上百萬個像素圖像,擁有更多的內(nèi)核去處理更多的計算任務(wù)。因此GPU具備了執(zhí)行大規(guī)模并行計算的能力。云計算的出現(xiàn)、GPU的大規(guī)模應(yīng)用使得集中化數(shù)據(jù)計算處理能力變得空前強大。
3 學(xué)習(xí)能力
學(xué)習(xí)能力的培養(yǎng)類似人類需要教材和訓(xùn)練。據(jù)統(tǒng)計,2015年全球產(chǎn)生的數(shù)據(jù)總量達到了十年前的20多倍,大數(shù)據(jù)的發(fā)展為人工智能的學(xué)習(xí)和發(fā)展提供了非常好的基礎(chǔ)。機器學(xué)習(xí)是人工智能的基礎(chǔ),而大數(shù)據(jù)和以往的經(jīng)驗就是人工智能學(xué)習(xí)的書本,以此優(yōu)化計算機的處理性能。不可忽視的是近年來科技巨頭為了提前布局AI生態(tài),紛紛開源平臺工具,極大地豐富了機器訓(xùn)練的素材和手段。如谷歌了新的機器學(xué)習(xí)平臺TensorFlow,所有用戶都能夠利用這一強大的機器學(xué)習(xí)平臺進行研究,被稱為人工智能界的Android。IBM宣布通過Apache軟件基金會免費為外部程序員提供System ML人工智能工具的源代碼。微軟則開源了分布式機器學(xué)習(xí)工具包DMTK,能夠在較小的集群上以較高的效率完成大規(guī)模數(shù)據(jù)模型的訓(xùn)練,并于2016年7月推出了開源Project Malmo項目,用于人工智能訓(xùn)練。
4 交互能力
如果時光倒流500年,你會如何對當(dāng)時的人們述說今日的世界?在那個時代,哥白尼剛剛發(fā)表日心論,伽利略還在比薩斜塔拋擲鐵球,吳承恩還在用毛筆寫著《西游記》。如果你對他們說:“嘿,老兄,我對著手上的這個‘黑色方塊’說句話,它不僅能讓你看到太陽系長什么樣,告訴你什么是重力加速度,還能直接把唐僧要去西天取的經(jīng)下載給你看。”他們可能會覺得你要么是神仙,要么是神經(jīng)。
AI從誕生到現(xiàn)在已經(jīng)有60年的時間,期間經(jīng)歷兩輪起落,呈階梯式進化,走到今天進入第三個黃金期。如果按照其智能水平劃分,今天的人工智能尚處在狹義智能向廣義智能進階的階段,還是一名不折不扣的“少年”,未來擁有無限的可能和巨大的上升空間。
AI是一門交叉的學(xué)科:人工智能由不同的技術(shù)領(lǐng)域組成,如機器學(xué)習(xí)、語言識別、圖像識別、自然語言處理等。而同時,它也是一門交叉學(xué)科,屬于自然科學(xué)和社會科學(xué)的交叉,涉及到哲學(xué)和認(rèn)知科學(xué)、數(shù)學(xué)、神經(jīng)生理學(xué)、心理學(xué)、計算機科學(xué)、信息論、控制論、不定性論等學(xué)科。因此人工智能領(lǐng)域的技術(shù)壁壘是比較高的,并且會涉及到多學(xué)科協(xié)作的問題,對任何公司來說,想做好人工智能將是一門大工程。未來不大可能出現(xiàn)一個公司能包攬整個人工智能產(chǎn)業(yè)每一個部分的工作,更可能的模式將是一個公司專注于一個相對細(xì)分的領(lǐng)域,通過模塊化協(xié)作的形式實現(xiàn)人工智能領(lǐng)域的不同應(yīng)用。
進化史呈階梯狀,以階段突破式為成長模式:人工智能的發(fā)展經(jīng)歷了兩次黃金和低谷期,
現(xiàn)在正經(jīng)歷著第三個黃金期。1956年,麥卡賽、明斯基、羅切斯特和申農(nóng)等年輕科學(xué)家在達特茅斯一起聚會,并首次提出了“人工智能”這一術(shù)語,標(biāo)志著人工智能的誕生。第二年,由 Rosenblatt 提出 Perceptron 感知機,標(biāo)志著第一款神經(jīng)網(wǎng)絡(luò)誕生。1970年,因為計算能力沒能突破完成大規(guī)模數(shù)據(jù)訓(xùn)練,人工智能的第一個黃金期到此結(jié)束。
后直到1982年德普霍爾德神經(jīng)網(wǎng)絡(luò)的提出,人工智能進入第二個黃金期,之后BP算法的出現(xiàn)使大規(guī)模神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為可能,人工智能的發(fā)展又一次進入。1990年,因為人工智能計算機和DARPA沒能實現(xiàn),政府撤資,人工智能又一次進入低估。2006年,隨著“深度學(xué)習(xí)”神經(jīng)網(wǎng)絡(luò)取得突破性進展,人工智能又一次進入黃金時期。
AI將由狹義智能向廣義智能進化,雖然人工智能的誕生已經(jīng)有60年的時間但如果把它比喻成一個人的話,當(dāng)前的他應(yīng)該還未成年。按照人工智能的“智能”程度,可以將其分成狹義智能、廣義智能、超級智能三個大的發(fā)展階段,現(xiàn)階段的圖像與語音識別水平標(biāo)志著人類已經(jīng)基本實現(xiàn)狹義智能,正在向廣義智能的階段邁進。
狹義智能:即當(dāng)前的技術(shù)已經(jīng)實現(xiàn)的智能水平,包括計算智能與感知智能兩個子階段,計算智能指的機器開始具備計算與傳遞信息的功能,感知智能指機器開始具備“眼睛”和“耳朵”,即具備圖像識別與語音識別的能力,并能以此為判斷采取一些行動。
廣義智能:指的是機器開始具備認(rèn)知能力,能像人類一樣獲取信息后主動思考并主動采取行動。在這個階段,機器可以全面輔助或代替人類工作。
超級智能:這個階段的機器幾乎在所有領(lǐng)域都比人類聰明,包括科學(xué)創(chuàng)新、通識和社交技能等。這個階段目前離我們還比較遙遠,到時候人類的文明進步和跨越或許將有賴于機器,而機器人意識的倫理問題也許將在這個階段成為主要問題。
推薦引擎及協(xié)同過濾可以分析更多的數(shù)據(jù)
智能助手并不只局限于Siri等手機語音助手。微軟率先在win10 系統(tǒng)中加入個人智能助理Cortana,標(biāo)志著個人PC端智能助理的出現(xiàn);圖靈機器人以云服務(wù)的方式進入海爾智能家居、博世m(xù)ySPIN車載系統(tǒng),預(yù)示著多場景人工智能解決方案的潮流。初步實現(xiàn)人機交互的智能助手系統(tǒng),已經(jīng)被應(yīng)用于智能客服、聊天機器人、家用機器人、微信管理平臺、車載系統(tǒng)、智能家居系統(tǒng)、智能手機助理等多個軟硬件領(lǐng)域。
垂直類網(wǎng)站及社交平臺可以借助智能助手系統(tǒng)打造高專業(yè)度的“在線專家”以提升平臺價值;企業(yè)可以借助以“語義識別”為基礎(chǔ)的智能助手系統(tǒng),打造智能客服,效率遠高于傳統(tǒng)的以“關(guān)鍵詞對應(yīng)”為技術(shù)支持的客服系統(tǒng)。
推薦引擎,是主動發(fā)現(xiàn)用戶當(dāng)前或潛在需求,并主動推送信息給用戶的信息網(wǎng)絡(luò)。挖掘用戶的喜好和需求,主動向用戶推薦其感興趣或者需要的對象。傳統(tǒng)推薦引擎通常利用用戶在平臺上的歷史記錄進行推薦,效率低、匹配度不高。目前隨著大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的推進,推薦引擎及協(xié)同過濾可以分析更多的數(shù)據(jù),乃至全網(wǎng)數(shù)據(jù),并模擬用戶的需求,真正達到按需推薦。全球最大的正版流媒體音樂服務(wù)平臺Spotify也利用卷積神經(jīng)網(wǎng)絡(luò)參與建設(shè)其音樂推薦引擎;谷歌也提出利用深度學(xué)習(xí)方法來學(xué)習(xí)標(biāo)簽進行推薦建設(shè)。出品紙牌屋的全球最大在線影片租賃公司Netflix 也利用深度學(xué)習(xí)網(wǎng)絡(luò)分析客戶消費的大數(shù)據(jù),還計劃構(gòu)建一個在AWS云上的以GPU為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。
“餐廳推薦引擎”Nara,便是一個利用AI技術(shù)的推薦引擎。在上線之初,Nara 就取得了400萬美元的投資。Nara 的數(shù)據(jù)庫中有超過100000家餐廳的信息,并利用特有的“Nara神經(jīng)網(wǎng)絡(luò)”,學(xué)習(xí)使用者的偏好,最終達到“電腦幫你點餐”的目的。
而今年3月22日,國內(nèi)AI領(lǐng)軍企業(yè)阿里巴巴旗下的阿里云數(shù)加啟動“個性化推薦”引擎對外公測,該引擎用于幫助創(chuàng)業(yè)者可以快速獲得媲美淘寶天貓的個性化服務(wù)能力。阿里云數(shù)加上的推薦引擎能夠以更低的成本完成開發(fā),節(jié)省程序量達到90%,推薦引擎的搭建時間將由幾個月縮短到幾天。
對于不了解算法的人,只能實現(xiàn)標(biāo)簽規(guī)則類的推薦,但如果要做成機械化、類似協(xié)同過濾的算法,創(chuàng)業(yè)公司需要配置大量的算法工程師,人力成本很高。現(xiàn)在用了數(shù)加的推薦引擎,商家只需要做數(shù)據(jù)的ETL加工,推薦的結(jié)果集、訓(xùn)練集都不用處理,只需要調(diào)整參加即可得到推薦結(jié)果。
AI帶給人們新的視覺???
醫(yī)療:為健康診斷和藥品研發(fā)插上高飛的翅膀
健康診斷有望迎來新紀(jì)元,海量的病歷數(shù)據(jù)和醫(yī)學(xué)界的新研究成果,單靠人工很難及時篩選并利用,而引入人工智能技術(shù)將充分發(fā)揮這些信息的價值。例如著名的個人健康管理產(chǎn)品公司W(wǎng)elltok將 IBM的Watson功能融入旗下產(chǎn)品 CafeWell Concierge APP中,借助 Watson 的認(rèn)知計算能力理解人類語言,實現(xiàn)與用戶溝通的能力,從大量數(shù)據(jù)中進行分析并為用戶提供健康管理相關(guān)的答案和建議,實現(xiàn)健康管理、慢病恢復(fù)訓(xùn)練、健康食譜等功能,這一領(lǐng)域的良好前景使 Wellltok公司近年的融資額連創(chuàng)新高。另外,2015年IBM斥資10億美元收購醫(yī)療影像與臨床系統(tǒng)提供商Merge,將研究如何實現(xiàn) Watson的“辨讀”醫(yī)學(xué)影像功能。此外,AI 還可以從醫(yī)療中心獲得的健康數(shù)據(jù),通過大數(shù)據(jù)分析,實現(xiàn)根據(jù)分析患者行為來制定個性化治療方案的功能。
智能家居:天花板尚遠,AI有望成為核心
行業(yè)天花板尚遠,增速有望保持在 50%左右, 《鋼鐵俠》中的“Jarvis”作為智能管家,除了起到鋼鐵俠的小秘書的作用,還幫主人打理著日常生活,向我們展示了一個理想中的智能家居系統(tǒng)。雖然我們目前可能離那個無所不能的智能管家還很遙遠,但智能家居對我們生活的變革確實已經(jīng)開始了。根據(jù)《2012-2020 年中國智能家居市場發(fā)展趨勢及投資機會分析報告》的預(yù)測,我國智能家居市場在 2016年將達到605.7億的規(guī)模,同比增長50.15%,到2020年市場規(guī)模將達到3294億,年均增速將保持在50%左右,具備充足的向上延伸空間。而智能家居想達到“Jarvis”般的終極效果,必然需要引入AI技術(shù),實現(xiàn)家居的感應(yīng)式控制甚至自我學(xué)習(xí)能力。
AI有望成為智能家居的核心,實現(xiàn)家居自我學(xué)習(xí)與控制。按照智能家居的發(fā)展進度,大致可以分為四個階段:手機控制、多控制結(jié)合、感應(yīng)式控制、系統(tǒng)自我學(xué)習(xí)。當(dāng)前的發(fā)展水平還處在手機控制向多控制結(jié)合的過度階段。而從多控制結(jié)合向感應(yīng)式控制甚至自我學(xué)習(xí)階段進化時,AI將發(fā)揮主要功能。到今天為止,家居的實體功能已經(jīng)較為全面,未來的發(fā)展重點可能在于如何使之升級改造,實現(xiàn)家居的自我行為及協(xié)作,因此未來AI在智能家居領(lǐng)域的應(yīng)用有望成為其核心價值。AI對智能家居的重構(gòu)可以深入到方方面面,包括:控制主機、照明系統(tǒng)、影音系統(tǒng)、環(huán)境監(jiān)控、防盜監(jiān)控、門窗控制、能源管理、空調(diào)系統(tǒng)、花草澆灌、寵物看管等等。
無人駕駛:政策漸萌芽,AI決定可靠性
優(yōu)點多、動機足、政策漸萌芽。據(jù)麥肯錫的調(diào)查顯示,如果能解放駕駛員的雙手,一輛無人駕駛汽車內(nèi)的乘客通過移動互聯(lián)網(wǎng)使用數(shù)字媒體服務(wù)的時間多一分鐘,每年全球數(shù)字媒體業(yè)務(wù)產(chǎn)生的利潤將增加 50億歐元。此外,由于自動泊車無須為乘客下車預(yù)留開門空間,使得停車位空間可縮減至少15%。
如果無人駕駛汽車以及ADAS系統(tǒng)能夠?qū)⑹鹿拾l(fā)生率降低90%,即可挽回全美每年的損失約1千900億美金。可以說諸多的優(yōu)點使得無人駕駛技術(shù)的研發(fā)動機還是相當(dāng)充分的,因此未來無人駕駛推行的力度應(yīng)該還會保持在一個比較高的水平。美國勒克斯研究公司曾預(yù)計無人駕駛汽車的市場規(guī)模在2030年將達到870億美元。
到目前為止,各國政府對于無人駕駛技術(shù)在政策上的支持正逐步放開,美國政府在年初剛剛宣布了40億美元的資助計劃;英國目前已經(jīng)不需要獲得額外批準(zhǔn)和履約保證即可進行實際道路的無人駕駛汽車測試;而德國也在去年宣布將計劃設(shè)立無人駕駛汽車測試路段,供安裝有駕駛輔助系統(tǒng)或全自動駕駛系統(tǒng)車輛行駛;歐盟總部正在就如何修改現(xiàn)行有關(guān)駕駛的法律法規(guī)從而支持自動駕駛的發(fā)展展開討論和研究工作;日本也提出要在2020年之前實現(xiàn)自動駕駛汽車方面的立法,并將自動駕駛作為 2016年9月七國集團交通部長會議的議題。
“無人汽車大腦”AI的智能程度決定了無人駕駛的可靠性。由于無人駕駛完全交由汽車的內(nèi)置程序負(fù)責(zé),因此AI就是無人汽車的大腦,而測距儀、雷達、傳感器、GPS等。設(shè)備都是AI的“眼睛”。AI的智能程度直接決定了無人駕駛汽車在不同的路況、不同的天氣、甚至一些探測設(shè)備出現(xiàn)故障的突況下能否及時做出正確的判斷并靈活調(diào)整行駛策略,最終決定了無人駕駛汽車當(dāng)前最亟待突破的可靠性。
NVIDIA 在2016年的 CES大會上了“Drive PX 2”車載計算機,以及一套與之搭配的具有學(xué)習(xí)功能的自動駕駛系統(tǒng)。該系統(tǒng)的亮點在于“自我學(xué)習(xí)”,通過讓車輛自行分析路面狀況,而不是在數(shù)據(jù)庫中尋找預(yù)先儲存的策略實現(xiàn)自動駕駛,系統(tǒng)背后連接著名為NVIDIA DIGITS的深度學(xué)習(xí)訓(xùn)練平臺,最終連接到NVIDIA DRIVENET神經(jīng)網(wǎng)絡(luò),為車輛的自我學(xué)習(xí)和完善提供支持。并且由于它是通過判斷物體的行進軌跡而不是物體本身去計算路徑,因此在駕駛時受天氣影響較小。
AI 成必爭之地
目前全球AI主戰(zhàn)場依舊在歐美。Venture Scanner的統(tǒng)計顯示,根據(jù)從事 AI相關(guān)業(yè)務(wù)的公司數(shù)量來看,目前全球 AI的主戰(zhàn)場還是集中在北美和西歐地區(qū)。美國數(shù)量最多,達到450家左右的水平。而中國從事相關(guān)業(yè)務(wù)的公司數(shù)量還比較少,和俄羅斯、澳洲、部分歐洲國家及非洲南部國家水平接近,相比起歐美國家的AI公司數(shù)量,還有很大的提高空間。
Google:投資未來的人工智能帝國
建立Alphabet帝國,具備品牌背書效應(yīng)。2015年,谷歌成立母公司 Alphabet, 搜索、廣告、地圖、App、Youtube、安卓以及與之相關(guān)的技術(shù)基礎(chǔ)部門”仍屬于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都將獨立出來,成為 Alphabet 旗下的獨立公司。通過建立 Alphabet集團,谷歌將不同業(yè)務(wù)的研發(fā)獨立出來,以子公司的形式進行業(yè)務(wù)開展,保留在Google這個品牌下的基本都是原有的傳統(tǒng)強勢業(yè)務(wù)。
而其它公司負(fù)責(zé)在各自的領(lǐng)域“打頭陣”,一旦業(yè)務(wù)研發(fā)成功,母公司連帶著google這個品牌都可以受益,而如果研發(fā)失敗,也不會公司的品牌造成多大的不良影響,建立了良好的品牌背書效應(yīng)。將機器學(xué)習(xí)技術(shù)應(yīng)用到所有產(chǎn)品之中,我們不難發(fā)現(xiàn),谷歌近年幾乎將人工智能滲透到了旗下的各類產(chǎn)品中,可謂是全線鋪開。正應(yīng)了谷歌 CEO的那句話:“我們將小心謹(jǐn)慎地將機器學(xué)習(xí)技術(shù)應(yīng)用到我們所有的產(chǎn)品之中?!备鶕?jù)當(dāng)前Alphabet 的集團架構(gòu),我們將涉及到AI應(yīng)用的子公司情況以及相應(yīng)的業(yè)務(wù)開展情況羅列如下:
Nest:從事智能家居生態(tài)系統(tǒng)建設(shè)。2014 年谷歌以32億美元收購 Nest。Nest 生產(chǎn)智能恒溫器,它能夠?qū)W習(xí)用戶的行為習(xí)慣,并且根據(jù)他們的喜好去調(diào)節(jié)溫度。同時,Nest 也提供火警探測器和家庭安全攝像頭等智能家居。
Google X:谷歌各類創(chuàng)新技術(shù)的“孵化池”。Google X開展的與AI有關(guān)的項目有:無人駕駛汽車、Project Wing 無人機送貨項目、對抗帕金森氏癥的 Liftware“反抖”湯匙、用于疾病預(yù)警和健康監(jiān)控的可穿戴設(shè)備、Project Titan 太陽能無人機項目、以及 Replicant 團隊負(fù)責(zé)的機器人項目等。
Verily:從事生命科學(xué)業(yè)務(wù),即原來的 Google Life Science。代表產(chǎn)品有可以收集佩戴者體溫和血液酒精含量等生物數(shù)據(jù)的智能隱形眼鏡,以及監(jiān)控血液中納米粒子的智能腕表。
DeepMind:深度學(xué)習(xí)算法公司。2014年谷歌以4億美元收購了DeepMind。