前言:想要寫出一篇引人入勝的文章?我們特意為您整理了病毒防御系統(tǒng)開發(fā)中數(shù)據(jù)挖掘技術(shù)應用范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:利用數(shù)據(jù)挖掘技術(shù)開發(fā)計算機網(wǎng)絡病毒防御系統(tǒng),實現(xiàn)對網(wǎng)絡病毒在線檢測與控制。將傳統(tǒng)防火墻技術(shù)與入侵檢測技術(shù)融合,通過系統(tǒng)管理員了解在線網(wǎng)絡病毒入侵情況,采用數(shù)據(jù)挖掘技術(shù)對網(wǎng)絡病毒特征進行搜集并存儲到數(shù)據(jù)庫中,從而有效控制防御網(wǎng)絡病毒。實踐表明,采用數(shù)據(jù)挖掘技術(shù)設計的計算機網(wǎng)絡病毒防御系統(tǒng)比傳統(tǒng)防火墻病毒防御方法的防御能力提高了80%,對網(wǎng)絡病毒種類掌握更全面,能夠更好地抵御病毒侵害。
關(guān)鍵詞:數(shù)據(jù)挖掘;網(wǎng)絡病毒防御系統(tǒng);在線監(jiān)控
0引言
計算機網(wǎng)絡病毒蔓延迅速,嚴重影響網(wǎng)絡安全,危害巨大。目前主流反病毒技術(shù)是特征碼技術(shù),該技術(shù)最大缺陷在于代碼固定,面對變化多端的病毒需不斷更新版本才可保證上網(wǎng)安全,用戶往往處于被動防御狀態(tài)。因此網(wǎng)絡病毒查殺的未來發(fā)展趨勢是智能化主動防御系統(tǒng)。國內(nèi)知名反病毒軟件有金山毒霸、瑞星、360等,使用特征碼掃描技術(shù);針對國外病毒—反病毒領(lǐng)域的病毒主動防御系統(tǒng),有學者提出使用數(shù)據(jù)挖掘技術(shù)的決策樹算法對未知病毒進行檢測[1]。對國內(nèi)外病毒主動防御技術(shù)的研究現(xiàn)狀進行分析,發(fā)現(xiàn)并沒有在檢測新型病毒種類方面取得較大成果。因此本文設計一款基于數(shù)據(jù)挖掘技術(shù)的計算機網(wǎng)絡病毒防御系統(tǒng),將普通防火墻技術(shù)與智能技術(shù)結(jié)合,設計一種網(wǎng)絡病毒監(jiān)控技術(shù),以便對計算機網(wǎng)絡病毒進行在線病毒檢測。該技術(shù)具有較強先進性與實用性。
1網(wǎng)絡病毒分類
1.1計算機病毒狹義定義
計算機病毒狹義上指破壞計算機功能、影響計算機正常使用的惡意代碼[2]。它是一種人為編寫的程序,通過文件的形式載入到計算機中,并將其它程序作為轉(zhuǎn)播載體,用戶運行程序后病毒才會開啟。
1.2木馬
木馬是一種遠程控制軟件,具有一定的隱蔽性,通常偽裝成正常軟件,混淆用戶視線,使用戶在沒有防備的情況下下載安裝。一旦電腦感染木馬,計算機端口將被打開,黑客可從打開的端口將惡意程序載入計算機中,竊取電腦中重要信息,還可獲得電腦使用權(quán)限,隨意操控計算機,往往給受害者帶來較大經(jīng)濟損失。
1.3蠕蟲
蠕蟲具有一定的傳播性,可以在不同系統(tǒng)之間傳播,通過自我復制對計算機信息造成損害。蠕蟲不需要通過載體即可傳播,已成為廣義病毒中較為流行的一種傳播方式,且病毒程序執(zhí)行方式越加復雜,出現(xiàn)了多程序防護運行的蠕蟲,普通用戶消除蠕蟲的難度增加,最好方法是提前進行病毒防御。
1.4間諜軟件
間諜軟件不需要經(jīng)過授權(quán)即可安裝在用戶計算機中,搜集、竊取用戶個人信息,如用戶網(wǎng)上購物時輸入的銀行卡信息,而且還常駐在用戶電腦中,消耗內(nèi)存,造成計算機藍屏,影響用戶使用。
1.5瀏覽器劫持
隨著C/S模式的流行,出現(xiàn)一些軟件對瀏覽器進行惡意攻擊,并篡改瀏覽器主頁,或在瀏覽器主頁引入惡意鏈接,破壞瀏覽器信任站點,通過窗口漏洞完成瀏覽器劫持,因為瀏覽器沒有遵守同源策略,導致劫持請求的事件頻繁發(fā)生,瀏覽器劫持已成為網(wǎng)上用戶瀏覽網(wǎng)頁時最大病毒威脅之一。
2數(shù)據(jù)挖掘技術(shù)
2.1數(shù)據(jù)挖掘原理
計算機網(wǎng)絡的高速發(fā)展,使數(shù)據(jù)庫信息不斷累加,在信息爆炸的時代,有效信息越來越少,如何實現(xiàn)有效的文本挖掘成為首要問題。數(shù)據(jù)挖掘指從大量信息中挖掘出潛在信息,這是一個知識發(fā)現(xiàn)的過程,其系統(tǒng)結(jié)構(gòu)[3-4]。從原有數(shù)據(jù)中選出一組數(shù)據(jù)作為目標集,對數(shù)據(jù)進行選取、預處理與變換,搜集與事例相關(guān)的數(shù)據(jù)信息,提取挖掘出的數(shù)據(jù)后,通過預處理消除噪聲、重復記錄,通過數(shù)據(jù)變換的方式降低維度,找出挖掘目標相關(guān)特點,并清除不相關(guān)特征。數(shù)據(jù)挖掘階段主要是從目標數(shù)據(jù)中搜索其它模式,比如線性方程、聚類、決策樹等。數(shù)據(jù)挖掘階段需要對最終目標進行確認,對算法進行選擇,明確挖掘任務是數(shù)據(jù)挖掘的第一步,雖然挖掘結(jié)果位置不可預知,但挖掘目標是已知的。根據(jù)挖掘目標選擇對應的數(shù)據(jù)挖掘算法,針對同一個目標任務可以利用不同的算法加以實現(xiàn)。在選擇算法時,可以根據(jù)不同的數(shù)據(jù)特點,選擇與之關(guān)聯(lián)的算法進行數(shù)據(jù)挖掘,或者按照用戶需求設計。利用數(shù)據(jù)挖掘中的數(shù)據(jù)預處理[5]、聚類分析[6-7]進行分類時需要按照特定規(guī)則并根據(jù)對象指定的特征進行類別劃分,對象與類型之間的關(guān)系被稱之為映射關(guān)系。隨著技術(shù)的不斷發(fā)展,分類技術(shù)不斷吸收信息,使技術(shù)變得更加完整。
2.2數(shù)據(jù)挖掘常見分類算法
2.2.1支撐向量機
分類過程是一個學習的過程,對于一個樣本點,可以使用線性分類器將其分離,支撐向量機的宗旨是超平面最近的向量與超平面之間的距離為最大化樣本,超平面即為線性分類器。支撐向量機的核心是函數(shù),向量機將低維空間的數(shù)據(jù)放到高維空間中,通過核函數(shù)解決問題。支撐向量機的關(guān)鍵是對不可線性進行劃分,將低維空間中的線性樣本投入到高維空間中,然后在數(shù)據(jù)空間中構(gòu)造出最佳超平面,最后求得最優(yōu)解。
2.2.2K-近鄰分類器
K-近鄰分類器指按照未知樣本與已知樣本之間的相似程度,對最相似的K個樣本中出現(xiàn)的未知樣本進行分類。K-NN分類器的改進方式具有一定的距離性,沒有建立規(guī)則,雖然省去了復雜數(shù)據(jù)的分類過程,但是速度較慢。對于給定的待測樣本,需要計算樣本相似度,并找出待測樣本與相似K的最近鄰,然后根據(jù)樣本類決定待測樣本類型。
2.2.3決策樹
決策樹指利用數(shù)據(jù)結(jié)構(gòu)中的樹,將數(shù)據(jù)構(gòu)成一個決策模型的方法,決策樹的節(jié)點代表可能出現(xiàn)的結(jié)果,而樹枝代表結(jié)果可能帶來的風險。決策樹作為一個決策系統(tǒng),在數(shù)據(jù)挖掘中最為常見。
3數(shù)據(jù)挖掘技術(shù)在計算機網(wǎng)絡病毒防御系統(tǒng)中的具體應用
3.1計算機網(wǎng)絡病毒與數(shù)據(jù)挖掘之間的關(guān)系
計算機網(wǎng)絡病毒具有一定的傳播性,一旦進入用戶電腦,將迅速傳播,對電腦數(shù)據(jù)造成非常嚴重的破壞,甚至會侵入計算機操作系統(tǒng)。操作系統(tǒng)是計算機的核心,一旦進入將對計算機中的數(shù)據(jù)進行有針對性的破壞,造成系統(tǒng)癱瘓。當發(fā)現(xiàn)有病毒入侵時,數(shù)據(jù)挖掘技術(shù)可以快速獲取病毒重要信息,對網(wǎng)絡運行中的數(shù)據(jù)進行分析,并對數(shù)據(jù)進行有效處理,以更好地抵御計算機病毒給操作系統(tǒng)帶來的傷害,從而保證計算機正常運行。
3.2數(shù)據(jù)挖掘技術(shù)組成
數(shù)據(jù)挖掘技術(shù)綜合多種技術(shù),在實際應用中可以根據(jù)不同的功能進行分析,不同的功能構(gòu)成不同的數(shù)據(jù)模塊。比如數(shù)據(jù)源模塊,主要數(shù)據(jù)來源是抓包程序,通過抓包程序截取數(shù)據(jù)包,將最原始的數(shù)據(jù)存到數(shù)據(jù)源模塊中,并且根據(jù)某一個特定的數(shù)據(jù)庫結(jié)構(gòu),將截取到的數(shù)據(jù)包轉(zhuǎn)移到下一個模塊中進行處理;預處理模塊是數(shù)據(jù)挖掘中非常重要的一個模塊,預處理模塊功能較多,可以對數(shù)據(jù)進行交換和處理,并將數(shù)據(jù)轉(zhuǎn)換成可被計算機識別的信息,從而縮短數(shù)據(jù)挖掘時間;規(guī)則庫模塊中有一個規(guī)則集,該規(guī)則集通過特定的聚類分析,能夠檢測出各種網(wǎng)絡病毒的特點,是數(shù)據(jù)挖掘技術(shù)中的一個關(guān)鍵模塊[8]。
3.3數(shù)據(jù)挖掘技術(shù)在計算機病毒防御系統(tǒng)中的具體應用
(1)關(guān)聯(lián)規(guī)則。在關(guān)聯(lián)規(guī)則分析中,為了能找到與數(shù)據(jù)庫相關(guān)的關(guān)系網(wǎng)絡,需要根據(jù)兩個或者兩個以上變量進行規(guī)律查找,如果變量之間存在一定關(guān)系,說明具有關(guān)聯(lián)性,通過關(guān)聯(lián)網(wǎng)絡可以挖掘數(shù)據(jù)庫中的關(guān)系,從而快速獲得病毒傳播路徑[9]。(2)分類規(guī)則。分類規(guī)則的主要目的是對數(shù)據(jù)進行歸類,通過特定的學習方法構(gòu)建模型,以完成數(shù)據(jù)分類。(3)聚類規(guī)則。聚類規(guī)則的主要作用是對不同的數(shù)據(jù)進行進行分組,將相同數(shù)據(jù)歸類在一個組中,然后通過聚類識別出不同類型的特征,排除類型不同的數(shù)據(jù),從而得到不同數(shù)據(jù)的屬性關(guān)系[10-11]。(4)異類規(guī)則。異類規(guī)則主要是尋找數(shù)據(jù)中存在的偏差點,或者根據(jù)數(shù)據(jù)的不同規(guī)律和數(shù)據(jù)特征,得到各自孤立點,從而挖掘出更多有用的數(shù)據(jù),為系統(tǒng)后續(xù)工作提供更多數(shù)據(jù)參考。(5)序列分析規(guī)則。序列分析規(guī)則是指使用隨機處理的方式,對計算機中存在的某種病毒進行規(guī)律查找,并建立相應的序列模型,通過數(shù)據(jù)挖掘的方式,找到經(jīng)常出現(xiàn)的數(shù)據(jù)信息,并分析數(shù)據(jù)信息之間的關(guān)聯(lián)性,從而判斷病毒序列。簡單來說,序列分析規(guī)則實際上是一種統(tǒng)計方式。
4數(shù)據(jù)挖掘下的計算機網(wǎng)絡病毒防御系統(tǒng)
4.1檢測模塊設計
計算機網(wǎng)絡病毒防御系統(tǒng)基于數(shù)據(jù)挖掘技術(shù)對海量數(shù)據(jù)進行有效篩選,通過構(gòu)建的模型尋找病毒入侵特點,再將挖掘出的數(shù)據(jù)存入到數(shù)據(jù)庫中。該系統(tǒng)以數(shù)據(jù)為中心,對大量數(shù)據(jù)進行記錄、分析與處理,通過數(shù)據(jù)挖掘技術(shù)對系統(tǒng)日志審計信息進行記錄,并發(fā)現(xiàn)入侵行為,通過數(shù)據(jù)挖掘技術(shù)解決病毒入侵問題。數(shù)據(jù)挖掘技術(shù)作為一種常用技術(shù),涉及的知識領(lǐng)域非常廣泛。因為數(shù)據(jù)挖掘耗時較長,因此將重點放在入侵檢測模型上,利用數(shù)據(jù)挖掘系統(tǒng)對網(wǎng)絡病毒的特征進行提取。采用數(shù)據(jù)挖掘技術(shù)構(gòu)建入侵檢測模型。
4.2控制防御模塊設計
不同的防火墻防御功能不同,大多數(shù)網(wǎng)絡設備集成有防火墻系統(tǒng),混合式防火墻居多,目的均是防御惡意數(shù)據(jù)入侵,為計算機數(shù)據(jù)提供保護。本系統(tǒng)設計的計算機網(wǎng)絡病毒防御系統(tǒng)采用的是Linux[12],而Iptables是Linux自帶的防火墻功能,下面將從兩個方面介紹Iptables在網(wǎng)絡病毒防御系統(tǒng)中的應用。
4.2.1非法字符控制
網(wǎng)絡病毒最常見形式為混亂的字符串,在sql的輸入指令中如果含有“or1=1”,需要利用Iptables[13]控制非法字符的功能,將數(shù)據(jù)包攔截,防止數(shù)據(jù)庫被損壞。Iptables主要通過string模塊實現(xiàn)非法字符控制,該模塊與Iptables字符串匹配,對網(wǎng)絡中的數(shù)據(jù)報文進行匹配,如果通過瀏覽器的方式在sql注入,語句來源則是url[14]。因此Iptables的string需要對數(shù)據(jù)進行匹配,才能夠?qū)Ψ欠ㄗ址M行控制。使用Iptables對字符串進行匹配還可攔截域名,對域名進行限制,阻止域名訪問,通過禁止訪問的方式減少惡意木馬入侵次數(shù),保證內(nèi)網(wǎng)計算機安全。
4.2.2非法IP地址控制
采用Iptables對非法IP地址進行控制[15],對惡意IP數(shù)據(jù)進行攔截,保證內(nèi)網(wǎng)網(wǎng)絡安全,如果經(jīng)常出現(xiàn)已經(jīng)檢測出的惡意IP,需要采用過濾功能丟棄IP的數(shù)據(jù)報文,同時截斷惡意IP地址與現(xiàn)有網(wǎng)絡的連接,阻止惡意IP地址向計算機發(fā)送惡意數(shù)據(jù)包,破壞網(wǎng)絡安全。另外還可限制目的地址,禁止網(wǎng)絡用戶訪問,限制其發(fā)送數(shù)據(jù)。因此,采用Iptables控制非法IP地址的功能可提高用戶訪問控制安全級別,降低病毒感染風險。
4.3后續(xù)處理模塊設計
檢測模塊與控制防御模塊設計完成后,需要對入侵到內(nèi)網(wǎng)的病毒進行檢測,檢測完成后進行防御處理,但僅有以上設計模塊還不足以完成網(wǎng)絡病毒防御系統(tǒng),需要對網(wǎng)絡病毒入侵進行后續(xù)處理,將網(wǎng)絡入侵反饋給用戶,并采取相應行動。網(wǎng)絡病毒入侵反饋具有監(jiān)控的作用,可記錄監(jiān)控數(shù)據(jù),便于管理人員處理。該模塊除了對日志進行監(jiān)督記錄外,還具有通知功能,網(wǎng)絡病毒防御系統(tǒng)不僅應具有防御控制功能,還需有網(wǎng)絡病毒入侵監(jiān)控功能。一旦發(fā)現(xiàn)有病毒入侵立即通知管理員,向管理員主機發(fā)送郵件,通知網(wǎng)絡病毒入侵,以報告的形式通知管理員,將病毒類型、等級、時間反饋給管理員,以便管理人員針對病毒類型采取相應處理措施。數(shù)據(jù)反饋完畢后對病毒類型進行研究,分析病毒原理與表現(xiàn)特征,使用OllyDebug工具對網(wǎng)絡病毒進行分析。分析完成之后要及時更新病毒規(guī)則庫,通過后續(xù)處理模塊搜集新的病毒特征,將新型病毒增添至病毒庫中,時刻更新病毒類型,提高管理人員的病毒防御警戒性與控制性。
4.4后臺處理模塊設計
后臺處理數(shù)據(jù)實際上是對數(shù)據(jù)包進行處理,通過接收、發(fā)送兩種方式對數(shù)據(jù)進行重組,再對數(shù)據(jù)包進行協(xié)議解析,最后對數(shù)據(jù)進行處理。網(wǎng)絡病毒防御系統(tǒng)后臺數(shù)據(jù)處理實際上是對數(shù)據(jù)報文進行檢測,對病毒進行檢測時,需先提取數(shù)據(jù)包,然后進行重組,最后進行解析及保存,將病毒入侵的結(jié)果記錄到數(shù)據(jù)庫中。數(shù)據(jù)處理流程。
4.5數(shù)據(jù)存儲模塊設計
數(shù)據(jù)存儲方式有多種。系統(tǒng)后臺程序處理實際上是對二進制數(shù)據(jù)包文進行重組,然后才能得到相關(guān)數(shù)據(jù)。數(shù)據(jù)存儲主要分為數(shù)據(jù)包存儲與報文信息存儲兩部分。數(shù)據(jù)文件存儲主要是從數(shù)據(jù)鏈路層中提取數(shù)據(jù),大端和小端通過兩種不同的字節(jié),對數(shù)據(jù)流進行傳送與存儲。數(shù)據(jù)庫存儲后臺數(shù)據(jù)記錄,并利用前臺界面顯示數(shù)據(jù)庫存儲的數(shù)據(jù)。數(shù)據(jù)庫作為交互媒介,能為系統(tǒng)提供精準的數(shù)據(jù)。
4.6前臺界面模塊設計
網(wǎng)絡防御系統(tǒng)界面是用戶進行操作的重要載體,通過界面的形式展現(xiàn)功能。界面設計作為用戶交互的重要媒介,實現(xiàn)的功能包括網(wǎng)絡病毒檢測、網(wǎng)絡病毒檢測、實時監(jiān)控及后續(xù)處理等。通常采用UI設計界面,UI設計可展現(xiàn)系統(tǒng)功能,其采用B/S架構(gòu),用戶可通過網(wǎng)頁瀏覽工作界面。網(wǎng)頁設計需利用多種技術(shù),如Photoshop、Dreamweaver等,靜態(tài)網(wǎng)頁一般使用HTML語言、DIV、CSS設計網(wǎng)頁樣式。網(wǎng)頁服務器腳本采用PHP動態(tài)語言進行設計,PHP作為一種開源腳本語言,可以將其嵌入到HTML文檔中,執(zhí)行效率高。網(wǎng)頁病毒檢測主要通過數(shù)據(jù)挖掘技術(shù)實現(xiàn),采用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則,保證病毒特征的完整性,從而使病毒庫處于最新狀態(tài)。
5結(jié)語
本文對網(wǎng)絡病毒進行在線檢測與控制,通過數(shù)據(jù)挖掘算法對網(wǎng)絡病毒進行分析,圍繞網(wǎng)絡病毒入侵展開討論,設計的網(wǎng)絡病毒防御系統(tǒng)可防止病毒對系統(tǒng)進一步入侵,將可能性傷害降到最低,且系統(tǒng)在線檢測與控制功能基本實現(xiàn),但是仍然存在一些不足,比如網(wǎng)絡病毒特征提取不全面。各種網(wǎng)絡病毒層出不窮,涉及到的網(wǎng)絡特征也較為復雜,除現(xiàn)有基于數(shù)據(jù)挖掘的方法外,還需使用更多網(wǎng)絡病毒特征提取方法保障網(wǎng)絡安全。
參考文獻:
[1]劉春娟.數(shù)據(jù)挖掘技術(shù)在計算機網(wǎng)絡病毒防御中的應用分析[J].電子測試,2014(5):83-85.
[2]鄭剛.數(shù)據(jù)挖掘技術(shù)在計算機網(wǎng)絡病毒防御中的應用探討[J].信息與電腦:理論版,2016(3):25.
作者:孫麗娜 單位:河南大學民生學院教務部