前言:想要寫出一篇引人入勝的文章?我們特意為您整理了談電信網(wǎng)絡(luò)實時數(shù)據(jù)挖掘智能技術(shù)范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:目前,很多網(wǎng)絡(luò)技術(shù)已經(jīng)應(yīng)用到了方方面面。在現(xiàn)在的網(wǎng)絡(luò)發(fā)展相對不穩(wěn)定的情況下,數(shù)據(jù)挖掘技術(shù)在電信方面廣為應(yīng)用,但是通過這種技術(shù)并不能獲得更加深層次的數(shù)據(jù)信息。因此,主要從數(shù)據(jù)挖掘技術(shù)導論、智能技術(shù)與數(shù)據(jù)挖掘技術(shù)的結(jié)合以及相關(guān)案例對數(shù)據(jù)挖掘的智能技術(shù)進行剖析。
關(guān)鍵詞:電信網(wǎng)絡(luò);實時數(shù)據(jù)挖掘;智能技術(shù)
引言
近年來,網(wǎng)絡(luò)技術(shù)的發(fā)展給通信技術(shù)的發(fā)展帶來了曙光,特別是電信行業(yè)的迅猛發(fā)展,更是推動了數(shù)據(jù)挖掘技術(shù)的應(yīng)用。1數(shù)據(jù)挖掘的智能技術(shù)導論數(shù)據(jù)挖掘技術(shù)是一種對數(shù)據(jù)進行處理的技術(shù),將所能獲得的數(shù)據(jù)進行深層挖掘,挖掘出常人所不熟知的潛在的有用信息。數(shù)據(jù)挖掘技術(shù)需要根據(jù)所獲得的數(shù)據(jù)類型選擇分析方法,如網(wǎng)絡(luò)結(jié)構(gòu)分析法、數(shù)據(jù)統(tǒng)計法等,該過程是一個動態(tài)重復的過程,如果在數(shù)據(jù)挖掘的過程中沒有獲得預(yù)期的數(shù)值就要重新回到前面的步驟進行重復操作[1]。該挖掘技術(shù)的主要方法是通過對所觀測到的數(shù)據(jù)進行解析,以天為單位或以時、分為單位對未來的數(shù)據(jù)進行預(yù)測,根據(jù)所要研究的對象設(shè)置自變量和因變量。例如,將t作為自變量,x作為因變量來推測所產(chǎn)生的數(shù)據(jù)關(guān)系。其中t代表的是同一天(時、分)時間內(nèi)的時間間隔,x代表的是所有可預(yù)測的變化量[2]。要對電信網(wǎng)絡(luò)數(shù)據(jù)進行分析,就要將這些數(shù)據(jù)進行適當?shù)男问睫D(zhuǎn)換。轉(zhuǎn)換以時間序列作為基礎(chǔ)。近年來,通過學者們對數(shù)據(jù)挖掘技術(shù)的不斷研究出現(xiàn)了很多以時間序列為主的數(shù)據(jù)挖掘技術(shù)。但是在電信領(lǐng)域,網(wǎng)絡(luò)環(huán)境不穩(wěn)定,尤其是數(shù)據(jù)變換具有十分頻繁的波動,所以電信網(wǎng)的問題不應(yīng)該只是數(shù)據(jù)統(tǒng)計、保管那么簡單。因此,傳統(tǒng)的數(shù)字挖掘技術(shù)將不能廣范圍的應(yīng)用于電信行業(yè)的發(fā)展。
2數(shù)據(jù)挖掘的主要過程
數(shù)據(jù)挖掘主要從數(shù)據(jù)本身出發(fā)。一般數(shù)據(jù)挖掘包括信息采集、將數(shù)據(jù)進行整合、對數(shù)據(jù)的規(guī)范化整理、數(shù)據(jù)排除和清理、數(shù)據(jù)之間進行變換、實施數(shù)據(jù)挖掘過程、對數(shù)據(jù)挖掘過程進行評估、用相關(guān)的知識進行表達八個步驟。
2.1信息采集
首先確定研究對象,根據(jù)所要研究的對象確定數(shù)據(jù)特征,然后選擇出合適的信息采集方法,收集整理所要研究的數(shù)據(jù)。對于數(shù)據(jù)量大的數(shù)據(jù)庫,選擇一個合適的保管途徑和數(shù)據(jù)存儲器是十分有必要的。
2.2將數(shù)據(jù)進行整合
由于數(shù)據(jù)來源、格式特點、數(shù)據(jù)特征等性質(zhì)的不同,要有邏輯性的對所要數(shù)據(jù)進行整理。電信行業(yè)不同于一般的商業(yè)化企業(yè),它作為世界通信過程中十分重要的一種介質(zhì),自然需要信息的共享,而這種信息數(shù)據(jù)的整合就方便了電信行業(yè)的各企業(yè)之間的資源共享[3]。
2.3對數(shù)據(jù)的規(guī)范化整理
數(shù)據(jù)挖掘技術(shù)雖然對數(shù)據(jù)匯總及分析十分方便,但是所用的時間很長,即使是對少量的數(shù)據(jù)進行分析也需要很長的時間,而企業(yè)運營和商業(yè)化管理往往包含的數(shù)據(jù)量是十分巨大的。所以對數(shù)據(jù)的規(guī)范化整理可以將數(shù)據(jù)庫進行適當程度的縮小,將大多數(shù)存在同一水平的數(shù)據(jù)進行求平均值的處理。這樣不僅將數(shù)據(jù)挖掘技術(shù)的范圍縮小了不少,而且不會對最終數(shù)據(jù)的結(jié)果產(chǎn)生影響,甚至與原結(jié)果保持高度一致。2.4數(shù)據(jù)排除和清理在龐大的數(shù)據(jù)庫中,有的數(shù)據(jù)存在明顯的錯誤、有的數(shù)據(jù)結(jié)構(gòu)不完整,并且這些數(shù)據(jù)面對不同的信息采集途徑時會有不同的表示方法,所以要對數(shù)據(jù)進行排除和清理。將不完整的數(shù)據(jù)補充完整,存在明顯錯誤和偶然性的數(shù)據(jù)就要舍棄,否則所得到的結(jié)果將會存在較大程度上的誤差,導致對整個電信行業(yè)的發(fā)展預(yù)期產(chǎn)生影響。
2.5數(shù)據(jù)之間進行變換
數(shù)據(jù)變換的方法有很多種,如平滑聚集、數(shù)據(jù)規(guī)范化、數(shù)據(jù)概括等方式就是將數(shù)據(jù)轉(zhuǎn)化成有用的知識點進行數(shù)據(jù)分析和挖掘。對于有實際作用,但是計算量大的一些數(shù)據(jù)可以采用概念分化、數(shù)據(jù)離散整合的方法進行轉(zhuǎn)換。2.6實施數(shù)據(jù)挖掘過程根據(jù)所得數(shù)據(jù)的特征及所包含的數(shù)據(jù)信息的不同,要選擇正確的分析方法。常用的幾種分析方法有數(shù)據(jù)概括法、大規(guī)模的數(shù)據(jù)統(tǒng)計法、利用數(shù)據(jù)規(guī)則進行推理的方法、模糊集、網(wǎng)絡(luò)結(jié)構(gòu)法(常見的為神經(jīng)網(wǎng)絡(luò))、遺傳算法、通過實例進行推斷的方法等。通過這些方法可以將數(shù)據(jù)中存在的隱藏信息挖掘出來,給整個電信行業(yè)的發(fā)展帶來極大的商業(yè)價值。
2.7對數(shù)據(jù)挖掘過程進行評估
這些數(shù)據(jù)大多數(shù)都是從商業(yè)途徑獲得,所以避免不了具有一定的商業(yè)價值,尤其是對于電信這一特殊的行業(yè)。所以對最終的數(shù)據(jù)進行評估也是數(shù)據(jù)商業(yè)化的一種體現(xiàn)方式[4]。
2.8用相關(guān)的知識進行表達
將數(shù)據(jù)挖掘的最終結(jié)果通過透明公開的方式展示給電信用戶是十分必要的。此外,將其作為商業(yè)數(shù)據(jù)密封起來以供其他方面的商業(yè)發(fā)展也是數(shù)據(jù)挖掘的另一種作用。
3數(shù)據(jù)挖掘的智能技術(shù)的預(yù)測方式
由導論可知,數(shù)據(jù)挖掘為各方面的預(yù)測做出了很大的貢獻。其預(yù)測方式主要包括時間序列基礎(chǔ)上的感知預(yù)測、協(xié)作組合預(yù)測以及利用網(wǎng)狀結(jié)構(gòu)模型進行預(yù)測。
3.1時間序列基礎(chǔ)上的感知預(yù)測
將時間序列作為主要觀察量,通過觀察數(shù)據(jù)變化得出計算公式,將計算公式中的斜率值代入,取代時間序列的值。主要通過斜率值的變化來觀測最接近于實際的數(shù)值,進而對全局模式進行預(yù)測。但是,在此過程中需要注意考慮時間序列存在的隨機性和偶然性,要建立可靠的描述圖進行觀察,對一些具有明顯誤差的數(shù)據(jù)和具有偶然性的數(shù)據(jù)進行刪除,通過觀察平均數(shù)據(jù)得出結(jié)論。更需要注意的是,由于電信號的不穩(wěn)定性使得電信號會在短時間內(nèi)出現(xiàn)多次數(shù)據(jù)波動,所以,每隔一段時間就要對電信號根據(jù)脈沖進行分類。從最相似的數(shù)據(jù)中提取出符合實際和電信號波動范圍的數(shù)值,并將該數(shù)值應(yīng)用到全局觀測的位置。
3.2協(xié)作組合預(yù)測
數(shù)據(jù)挖掘的智能技術(shù)的預(yù)測方式有很多種,但他們都有一個共同點就是預(yù)測的基礎(chǔ)都是時間序列。這些不同的預(yù)測方式之間必定存在不同的優(yōu)勢和劣勢,所以就需要對不同的預(yù)測方式即進行組合,協(xié)調(diào)出相對完善的預(yù)測方式。其中的協(xié)作主要是該過程中多方之間的協(xié)作,即當存在多種時,需要一種外在的具有沖擊性的策略對其進行調(diào)整。對于這一問題,很多學者的解決策略都只是側(cè)重于將數(shù)據(jù)進行分類整理,并沒有考慮到最佳數(shù)值的組合[5]。
3.3利用網(wǎng)狀結(jié)構(gòu)模型進行預(yù)測(以神經(jīng)網(wǎng)絡(luò)為例)
由斜率等替代量觀測出各水平變量的等量變化。網(wǎng)狀模型結(jié)構(gòu)特別是神經(jīng)網(wǎng)絡(luò)相對于其他結(jié)構(gòu),預(yù)測性、準確性要高。它可以準確地計算出7個自變量和1個因變量之間的運算關(guān)系。其主要計算方式為線性函數(shù)、激活函數(shù)等。在規(guī)定的區(qū)間、特定的節(jié)點內(nèi),將該輸入節(jié)點的輸入信號與對應(yīng)的加權(quán)數(shù)相乘,就可以將各輸入神經(jīng)之間連接起來,由脈沖信號轉(zhuǎn)變?yōu)殡娦盘柊l(fā)出。
4數(shù)據(jù)挖掘的智能技術(shù)的框架模式
數(shù)據(jù)挖掘的智能技術(shù)常用的框架模式為多框架模式,即借助于多個實現(xiàn)對網(wǎng)絡(luò)信號及電信號的監(jiān)測和控制。該框架模式通過環(huán)球網(wǎng)的服務(wù)完成了不同的監(jiān)管任務(wù)。該框架模式的主要步驟具體如下。最初是通過各種途徑收集用戶的相關(guān)信息和電信號的網(wǎng)絡(luò)數(shù)據(jù)。將這些數(shù)據(jù)進行整合、篩選后就會將這些數(shù)據(jù)發(fā)送給相關(guān)管理員,進行保管。這樣的過程主要是為了將一些錯誤的數(shù)據(jù)及具有偶然性的數(shù)據(jù)排除在外,保證預(yù)測結(jié)果的準確性。主要預(yù)測的目標為網(wǎng)絡(luò)延時狀態(tài)、鏈接程序的接受率、服務(wù)器所能承載的負荷等。其中,鏈接程序的接受率是預(yù)測的重點,它直接關(guān)系到后面服務(wù)器所能承載的負荷的情況。然后是對變量之間的變化關(guān)系進行推斷及相關(guān)運算。運用各感知系統(tǒng)對預(yù)測進行感知預(yù)測,但是由于數(shù)據(jù)是一直在變化的,所以在監(jiān)測時間內(nèi)每隔一段時間就要對數(shù)據(jù)進行重新采取、計算和評估。在此過程中需要注意的是,有些時間段內(nèi)數(shù)據(jù)波動范圍會比較大,有些時間段內(nèi)數(shù)據(jù)波動范圍比較小,所謂對于時間段的選取也要有充分的考慮。
5各數(shù)據(jù)結(jié)構(gòu)所產(chǎn)生的實驗結(jié)果分析
通過建立模型器和引用模型結(jié)構(gòu)建立模擬環(huán)境可以將各變量之間的數(shù)據(jù)關(guān)系展現(xiàn)出來。但是,同樣的數(shù)據(jù)關(guān)系通過智能技術(shù)也可以獲得。這些數(shù)據(jù)關(guān)系依然是建立在時間序列的基礎(chǔ)上,便于對后臺的各統(tǒng)計數(shù)據(jù)、服務(wù)器的負荷能力進行統(tǒng)計[6]。例如,在一家工廠中設(shè)計出了一個網(wǎng)狀統(tǒng)計結(jié)構(gòu),在該結(jié)構(gòu)中可以看到該企業(yè)的信息獲取途徑和索取手段。這時可以將該企業(yè)的所有數(shù)據(jù)分為三個層面:全局統(tǒng)計數(shù)據(jù)、斷點(階段性)數(shù)據(jù)統(tǒng)計和鏈接程序數(shù)據(jù)統(tǒng)計。運用這些不同層面的數(shù)據(jù)進行計算,計算最后出現(xiàn)的數(shù)據(jù)代表著該事件中各變量之間的變化關(guān)系,這種關(guān)系同樣是建立在時間序列的基礎(chǔ)上的。例如,根據(jù)計算結(jié)果可以得到200個有效數(shù)據(jù)。這些數(shù)據(jù)中,每一個數(shù)據(jù)都可以代表一個變量。對于時間序列與這些變量之間的關(guān)系要進行預(yù)處理。首先,對這些變量之間的變化關(guān)系進行線性分析,得到一個新的數(shù)據(jù)組,然后利用這一新的數(shù)據(jù)組之間的變化量的變化關(guān)系來推測鏈接程序的接受率。當然,并不是這組數(shù)據(jù)中的所有數(shù)值都可以拿來進行數(shù)據(jù)推測,我們可以將其中大部分數(shù)值代入到計算公式中進行計算,剩下的一小部分作為數(shù)據(jù)驗證。因為這種數(shù)據(jù)分布具有一定的隨機性,所以這種數(shù)據(jù)計算并不適合建立在時間序列的基礎(chǔ)上。
6結(jié)論
為了研究電信行業(yè)中大規(guī)模數(shù)據(jù)如何處理的問題,本文就數(shù)據(jù)挖掘的智能技術(shù)進行了討論,看到了多框架模式的高效性、準確性,體會到了數(shù)據(jù)挖掘技術(shù)的優(yōu)點及其不同的預(yù)測方法。
參考文獻:
[1]戴勇,王詩卉.創(chuàng)新網(wǎng)絡(luò)守門人區(qū)域比較研究:以電信領(lǐng)域為例[J].科研管理,2019,40(7):106-118.
[2]汪明達,周俏麗,蔡東風.采用混合模型的電信領(lǐng)域用戶流失預(yù)測[J/OL].計算機工程與應(yīng)用,2019,(9):1-15.
[3]侯全心,陳烈強,張式娟,等.中國電信與中國聯(lián)通網(wǎng)絡(luò)建設(shè)領(lǐng)域深度合作思路探討[J].郵電設(shè)計技術(shù),2016,(9):74-77.
[4]魯義軒.聯(lián)想與瞻博網(wǎng)絡(luò)再合作借國際經(jīng)驗進軍電信領(lǐng)域DC市場[J].通信世界,2016,(24):49.
[5]陳曉.網(wǎng)絡(luò)安全建設(shè)在電信領(lǐng)域的應(yīng)用[J].科技經(jīng)濟市場,2016,(7):63-65.
[6]莫建麟,廖建鋒.電信網(wǎng)絡(luò)領(lǐng)域?qū)崟r數(shù)據(jù)挖掘的智能技術(shù)[J].光通信研究,2013,(3):7-10,21.
作者:張英繼 單位:中國電信股份有限公司保定分公司