公務(wù)員期刊網(wǎng) 論文中心 正文

通信網(wǎng)絡(luò)數(shù)據(jù)云存儲數(shù)據(jù)庫探究

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了通信網(wǎng)絡(luò)數(shù)據(jù)云存儲數(shù)據(jù)庫探究范文,希望能給你帶來靈感和參考,敬請閱讀。

通信網(wǎng)絡(luò)數(shù)據(jù)云存儲數(shù)據(jù)庫探究

摘要:云端數(shù)據(jù)加密在保障數(shù)據(jù)安全的同時,也給數(shù)據(jù)檢索工作帶來了困難。為此,提出一種通信網(wǎng)絡(luò)數(shù)據(jù)云存儲數(shù)據(jù)庫可驗證密文檢索方法。首先分析云存儲數(shù)據(jù)庫加密形式,選取字符型數(shù)據(jù)作為加密檢索對象;然后預(yù)處理字符型數(shù)據(jù),建立密文索引結(jié)構(gòu),再對用戶檢索詞進行處理,包括去停用詞、查詢切分、查詢擴展、檢索詞加密等過程,最后通過計算密文檢索詞塊和字符型數(shù)據(jù)文檔密文索引之間的相似匹配度來實現(xiàn)密文檢索。對比結(jié)果表明應(yīng)用所提出的方法,密文檢索精度更高,檢索時間更短,檢索效率更高。

關(guān)鍵詞:云存儲數(shù)據(jù)庫;檢索詞處理;密文檢索;通信網(wǎng)絡(luò);可驗證數(shù)據(jù)

0引言

云存儲服務(wù)與企業(yè)本地存儲服務(wù)最大不同在于能給用戶提供海量的存儲空間,且更易于管理。然而,存儲在云端的大數(shù)據(jù)也存在一個較大的缺陷,即安全性難以得到保證。為解決上述云存儲技術(shù)存在的問題,通常做法是將云端數(shù)據(jù)加密[1]。然而,在提高云端數(shù)據(jù)庫安全性的同時,也會導(dǎo)致數(shù)據(jù)喪失有序性、可比性,從而帶來數(shù)據(jù)檢索和計算的困難,嚴(yán)重影響了云存儲數(shù)據(jù)庫的運行效率[2]。針對云存儲數(shù)據(jù)庫密文檢索問題,國內(nèi)外的研究者提出了很多方案。LangrehrR等[3]提出基于矩陣Diffie-Hellman假設(shè),通過Naor變設(shè)計基于身份的嚴(yán)格安全簽名方案;賈強等[4]提出了一種面向密文大型數(shù)據(jù)集的可搜索加密方案,將安全索引按照分塊參數(shù)分類,完成關(guān)鍵詞檢索;BonehD等[5]提出一種基于公鑰加密的可搜索加密方法,實現(xiàn)了多用戶密文檢索;曹素珍等[6]針對非結(jié)構(gòu)化數(shù)據(jù),根據(jù)查詢關(guān)鍵字和密文文件的相關(guān)度對密文文件進行排序,從而實現(xiàn)對密文數(shù)據(jù)的高效搜索。MagdyS等[7]以數(shù)值型數(shù)據(jù)為研究對象,提出一種保序加密的數(shù)據(jù)庫加密檢索策略。在前人研究的基礎(chǔ)上,本研究提出一種通信網(wǎng)絡(luò)數(shù)據(jù)云存儲數(shù)據(jù)庫可驗證密文檢索方法。該方法首先檢索出包含關(guān)鍵字的密文,然后根據(jù)相似度計算結(jié)果對密文信息進行排序處理,最后根據(jù)排序結(jié)果將密文數(shù)據(jù)推薦給用戶。文章還進行測試,證明所研究方法的檢索性能,在保證數(shù)據(jù)安全性的前提下,提高了密文檢索效率和質(zhì)量。

1云存儲數(shù)據(jù)庫可驗證密文檢索方法

1.1云存儲數(shù)據(jù)庫加密形式分析

目前,根據(jù)數(shù)據(jù)庫中數(shù)據(jù)形式的不同,將數(shù)據(jù)分為2大類,即數(shù)值型數(shù)據(jù)和字符型數(shù)據(jù)。2種數(shù)據(jù)形式不同,因此加密方法也不同。下面針對這2種數(shù)據(jù)類型的加密形式進行分析。數(shù)值型數(shù)據(jù)是指包括整型、浮點型等基本類型數(shù)據(jù)。這類數(shù)據(jù)在云端數(shù)據(jù)庫中存儲的最多,數(shù)值型數(shù)據(jù)加密流程如圖1(a)所示。字符型數(shù)據(jù)是指不具計算能力的文字?jǐn)?shù)據(jù),具體包括中文字符、英文字符以及其他語言形式的數(shù)據(jù),字符型數(shù)據(jù)一般長度范圍是0至254個字符,其加密流程如圖1(b)所示。數(shù)值型數(shù)據(jù)相比較字符型數(shù)據(jù)在云端數(shù)據(jù)庫當(dāng)中規(guī)模更大,因此對該類型的數(shù)據(jù)密度檢索研究有很多,已經(jīng)較為成熟;字符型數(shù)據(jù)結(jié)構(gòu)組成更為復(fù)雜,因此加密后的密文更加復(fù)雜,導(dǎo)致密文檢索效率和質(zhì)量都不高,因此本研究選擇字符型數(shù)據(jù)作為后續(xù)密文檢索分析研究的對象。

1.2字符型數(shù)據(jù)預(yù)處理

根據(jù)圖1(b)可知字符型數(shù)據(jù)的加密處理方式為用“索引-文件”形式,由此字符型數(shù)據(jù)預(yù)處理為提取字符型數(shù)據(jù)文檔所有關(guān)鍵詞,然后對所有關(guān)鍵詞進行加密處理,組成關(guān)鍵詞密文結(jié)合,最后為字符型數(shù)據(jù)文檔密文建立索引。例如,某文件A有4個邏輯塊,分別存放在物理塊23、19、26、29中,該索引文件結(jié)構(gòu)如圖2所示。

1.3檢索詞處理

字符型數(shù)據(jù)文檔密文檢索的實質(zhì)是檢索詞與字符型數(shù)據(jù)文檔密文索引之間的匹配計算,而存儲在云端數(shù)據(jù)庫當(dāng)中數(shù)據(jù)為密文形式,且為了保證數(shù)據(jù)的安全性,在檢索時密文數(shù)據(jù)還不能轉(zhuǎn)換成明文數(shù)據(jù)后進行檢索,因此只能將檢索詞同樣也轉(zhuǎn)換成相應(yīng)的密文形式,才能進行字符型數(shù)據(jù)文檔密文索引之間的匹配計算。這樣既保證了數(shù)據(jù)安全,也能實現(xiàn)檢索[8]。具體步驟如下。步驟1:去停用詞。用戶的檢索詞屬于字符型數(shù)據(jù),而字符數(shù)據(jù)的顯著特點之一就是存在很多沒有意義的詞,這些詞出現(xiàn)在語句中僅起到停頓、語氣輔助或結(jié)構(gòu)連接等作用。這些沒有意義的詞就被稱為停用詞。停用詞的存在會嚴(yán)重干擾檢索的準(zhǔn)確性和檢索效率,因此需要去除[9]。步驟2:查詢切分。查詢切分是指將一個由若干漢字序列組成的長查詢語句切分成一個一個單獨的查詢詞,以利于計算機系統(tǒng)檢索[10]。步驟3:查詢擴展。查詢擴展是指尋找原始檢索詞的同義詞或近義詞,擴展原始檢索詞搜索范圍,然后來達到保證檢索全面的目的。在這一環(huán)節(jié)中,采用一種基于語義關(guān)聯(lián)樹的查詢擴展方法來完善檢索范圍。步驟4:檢索詞加密。為了能夠?qū)崿F(xiàn)檢索詞和密文文檔之間的相匹配度計算,需要將擴展后的檢索詞加密成密文,在這一環(huán)節(jié)利用SM4分組加密算法,依據(jù)混淆原則和擴散原則進行加密處理,具體過程參見圖1(b)。

1.4密文排序檢索

基于上述研究,分析文排序檢索基本流程見圖3。在密文排序檢索中,關(guān)鍵步驟有2個,即匹配度計算和重要性排序。(1)匹配度計算:匹配度計算是指計算密文檢索詞塊和字符型數(shù)據(jù)文檔密文索引之間的相似匹配度。通過密文檢索詞塊和字符型數(shù)據(jù)文檔密文索引的數(shù)量積來表達相似度,如式(1),式中,n為檢索詞和字符型數(shù)據(jù)文檔密文索引的數(shù)量,qi為第i個檢索詞,pi為第i個字符型數(shù)據(jù)文檔密文索引,Y為檢索詞與字符型數(shù)據(jù)文檔密文索引之間的相似度。(2)重要性排序:由于檢索詞的擴展,檢索出來密文文檔是海量的,但是一般情況下,不可能所有文檔都是用戶需要的,而是與檢索詞匹配越高的密文文檔越是他需要的,因此還需要將檢索出來的密文文檔進行重要性排序處理如式(2):式中,F(xiàn)D(i)為重要性評分,a為檢索詞在字符型數(shù)據(jù)文檔密文索引文檔Di中出現(xiàn)的頻率,N為已有密文文檔的總數(shù)目,b為包含檢索詞的密文文檔總數(shù)目。

2仿真實驗分析

2.1仿真測試環(huán)境

為檢驗通信網(wǎng)絡(luò)數(shù)據(jù)云存儲數(shù)據(jù)庫可驗證密文檢索方法的性能,在MATLAB工具上進行仿真測試,仿真測試條件如表1所示。

2.2仿真測試模型

為云存儲數(shù)據(jù)庫可驗證密文檢索仿真測試實驗搭建系統(tǒng)模型。模型結(jié)構(gòu)如圖4所示。

2.3檢索文本庫

仿真測試中用到的云存儲數(shù)據(jù)庫中數(shù)據(jù)分布情況如表2所示。2.4檢索評估指標(biāo)(1)檢索精度。評價檢索效果的最重要的指標(biāo)之一,通過查準(zhǔn)率P和查全率R進行測定如式(3)、式(4):式中,A為正類檢索,B為負(fù)類檢索,C為正類檢索中的負(fù)類。(2)檢索效率。通過完成一次檢索任務(wù)所耗費的時間如式(5):T=t1+t2+t3(5)式中,T為一次檢索任務(wù)所耗費的時間,t1為字符型數(shù)據(jù)預(yù)處理時間,t2為檢索詞輸入和處理時間,t3為密文排序檢索時間。2.5檢索性能分析在相同仿真測試環(huán)境下,從引言中提到的5種前人研究方法中選取文獻[3]提出的基于矩陣Diffie-Hellman假設(shè),通過Naor變設(shè)計基于身份的嚴(yán)格安全簽名方案;文獻[4]提出的面向密文大型數(shù)據(jù)集的可搜索加密方案;文獻[5]提出的基于公鑰加密的可搜索加密方法,作為對比項,進行密文檢索操作。結(jié)果如表3所示。由表3可知,與前3種檢索方法相比,所研究方法密文檢索精度和效率都要更好,證明了所研究密文檢索方法的性能。

3總結(jié)

綜上所述,伴隨云端數(shù)據(jù)存儲服務(wù)的廣泛應(yīng)用,其數(shù)據(jù)庫中的數(shù)據(jù)安全問題也愈加凸顯。為此,如何在保證數(shù)據(jù)安全的前提下,實現(xiàn)密文檢索成為云存儲技術(shù)領(lǐng)域研究的重點。為此,進行通信網(wǎng)絡(luò)數(shù)據(jù)云存儲數(shù)據(jù)庫可驗證密文檢索研究。該研究通過將檢索詞轉(zhuǎn)換成為密文檢索詞來達到不解密云端數(shù)據(jù)庫中數(shù)據(jù)的目的,保證了云端數(shù)據(jù)的安全。經(jīng)仿真測試,證明了所研究方法的檢索性能,為云端數(shù)據(jù)檢索服務(wù)提供了參考和借鑒。由于此次研究僅針對云存儲數(shù)據(jù)庫中的文本庫進行檢索測試,雖然提高了密文檢索精度和效率,但是未對云端數(shù)據(jù)庫中還存在圖片、音視頻等數(shù)據(jù)庫檢索,在今后的研究中還需要進一步擴大研究和實驗范圍,以提高研究方法的可靠性和廣泛性。

作者:黃少琪 陸奕奕 單位:中國電信股份有限公司上海分公司