前言:想要寫出一篇引人入勝的文章?我們特意為您整理了談電網(wǎng)業(yè)務(wù)流量監(jiān)控系統(tǒng)建設(shè)范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。
隨著電力體制改革的不斷深化,業(yè)務(wù)管理方式逐漸由傳統(tǒng)的經(jīng)驗(yàn)管理轉(zhuǎn)向基于數(shù)據(jù)分析的智能化管理。為有效保障電網(wǎng)公司的業(yè)務(wù)監(jiān)管工作開展效率,電網(wǎng)大力建設(shè)業(yè)務(wù)流量監(jiān)控系統(tǒng),由此為實(shí)現(xiàn)智能化管理提供了有效的數(shù)據(jù)支持。本文基于業(yè)務(wù)流量監(jiān)控系統(tǒng)建設(shè)內(nèi)容,對(duì)流量采集手段、分析技術(shù)等做經(jīng)驗(yàn)總結(jié)、創(chuàng)新分析,并對(duì)未來(lái)的業(yè)務(wù)監(jiān)控建設(shè)方向做了深入分析。隨著各行業(yè)信息化的不斷深入,新建信息系統(tǒng)越來(lái)越多,同時(shí)隨著數(shù)據(jù)中心網(wǎng)絡(luò)規(guī)模擴(kuò)大,承載應(yīng)用系統(tǒng)越來(lái)越豐富,因此對(duì)運(yùn)維精細(xì)化要求不斷提高,網(wǎng)絡(luò)流量采集分析已成為精細(xì)化運(yùn)維不可或缺的分析手段,通過(guò)流量深度分析,能更快實(shí)現(xiàn)故障定位、協(xié)助優(yōu)化系統(tǒng),提升系統(tǒng)運(yùn)行效率。電網(wǎng)企業(yè)迫切需要在信息化建設(shè)中加強(qiáng)信息系統(tǒng)的應(yīng)用管理,通過(guò)業(yè)務(wù)流量監(jiān)控設(shè)備,為業(yè)務(wù)運(yùn)行監(jiān)控系統(tǒng)提供監(jiān)控?cái)?shù)據(jù),實(shí)時(shí)監(jiān)控各應(yīng)用系統(tǒng)運(yùn)行的狀態(tài)以及各個(gè)關(guān)鍵業(yè)務(wù)的運(yùn)行情況,全面了解各業(yè)務(wù)系統(tǒng)運(yùn)行情況,保證應(yīng)用系統(tǒng)有良好的運(yùn)行狀態(tài)。
1流量采集分析的實(shí)際應(yīng)用
現(xiàn)有的信息系統(tǒng)故障診斷由于缺乏有效的數(shù)據(jù)支持,時(shí)間往往被耗費(fèi)在無(wú)序的排查工作中,其中的主要問(wèn)題在于:一旦發(fā)生問(wèn)題,多部門同時(shí)開始根據(jù)各自經(jīng)驗(yàn)診斷;缺乏統(tǒng)一視角的證據(jù)支持,沒(méi)有入手點(diǎn);若無(wú)法達(dá)成共識(shí),則需要進(jìn)一步線索進(jìn)行反復(fù)排查。通過(guò)對(duì)業(yè)務(wù)流量數(shù)據(jù)的采集,提供網(wǎng)絡(luò)性能、端到端業(yè)務(wù)性能等指標(biāo),將業(yè)務(wù)運(yùn)行監(jiān)控系統(tǒng)采集到的指標(biāo),輸出到信息安全運(yùn)行監(jiān)測(cè)預(yù)警系統(tǒng),以實(shí)現(xiàn)預(yù)警系統(tǒng)的全面覆蓋,同時(shí)便于快速發(fā)現(xiàn)定位應(yīng)用性能問(wèn)題,厘清各部門責(zé)任,有針對(duì)性的解決問(wèn)題,減少了問(wèn)題處理時(shí)間,提高了運(yùn)維部門工作質(zhì)量和效率。
2采集、分析手段
數(shù)據(jù)中心的流量采集難度與業(yè)務(wù)流量所經(jīng)路徑、采集點(diǎn)數(shù)量等息息相關(guān),電網(wǎng)的信息系統(tǒng)建設(shè)已深入到各個(gè)業(yè)務(wù)部門,所以其流量采集面臨的挑戰(zhàn)諸多:覆蓋業(yè)務(wù)流量經(jīng)過(guò)的所有路徑,采集點(diǎn)多,根據(jù)不同的需求,還需對(duì)采集后的流量進(jìn)行差異化處理,且重要的一點(diǎn)是,流量的采集不能對(duì)運(yùn)行的業(yè)務(wù)系統(tǒng)產(chǎn)生影響。電網(wǎng)業(yè)務(wù)流量采集監(jiān)控系統(tǒng)建設(shè)采用無(wú)侵入式流量鏡像采集方式獲取端到端業(yè)務(wù)流量。本系統(tǒng)部署的數(shù)據(jù)采集方式為:從業(yè)務(wù)系統(tǒng)的網(wǎng)臺(tái)前端負(fù)載均衡部署探針設(shè)備,進(jìn)行流量鏡像采集,業(yè)務(wù)流量經(jīng)過(guò)交換機(jī)的數(shù)據(jù)包復(fù)制到鏡像端口,再由鏡像端口接入探針?lè)?wù)器,探針將采集到的數(shù)據(jù)分發(fā)給分析服務(wù)器進(jìn)行處理,由分析服務(wù)器對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)測(cè)、挖掘分析,并且不影響網(wǎng)絡(luò)和業(yè)務(wù)系統(tǒng)的正常運(yùn)行。業(yè)務(wù)監(jiān)控系統(tǒng)采用網(wǎng)絡(luò)旁路方式采集交換機(jī)/路由器鏡像出來(lái)的流量。被監(jiān)視業(yè)務(wù)系統(tǒng)或應(yīng)用完全感知不到監(jiān)測(cè)系統(tǒng)的存在,系統(tǒng)不向被監(jiān)控系統(tǒng)發(fā)送任何數(shù)據(jù),更不會(huì)對(duì)業(yè)務(wù)系統(tǒng)造成任何額外的計(jì)算資源、帶寬資源及緩存資源的開銷。產(chǎn)品安裝、迭代、升級(jí)時(shí)不需要重啟業(yè)務(wù)系統(tǒng)。完全不影響業(yè)務(wù)系統(tǒng)的性能,更不存在安全隱患問(wèn)題。產(chǎn)品部署邏輯示意圖如圖1所示。通過(guò)交換機(jī)的流量鏡像采集,將應(yīng)用服務(wù)器之間的通訊數(shù)據(jù)抓取出來(lái),并通過(guò)對(duì)應(yīng)的協(xié)議解碼功能將通訊中的數(shù)據(jù)解釋出來(lái)。將數(shù)據(jù)寫入分析服務(wù)器進(jìn)行業(yè)務(wù)分析與重組。系統(tǒng)只需要將探針?lè)?wù)器與交換機(jī)對(duì)接,分析服務(wù)器等監(jiān)控系統(tǒng)用到的設(shè)備都可以通過(guò)自組網(wǎng)的方式組網(wǎng),不對(duì)業(yè)務(wù)網(wǎng)絡(luò)產(chǎn)生影響。
3探針采集模塊(圖2)
模塊概述:旁路采集需要監(jiān)控的網(wǎng)絡(luò)數(shù)據(jù)包,然后根據(jù)7層協(xié)議規(guī)則進(jìn)行數(shù)據(jù)包深度解析,獲取七元組信息以及應(yīng)用層業(yè)務(wù)相關(guān)專屬指標(biāo),最后以一定的數(shù)據(jù)格式發(fā)送給Java分析平臺(tái)進(jìn)行業(yè)務(wù)統(tǒng)計(jì)分析,以及進(jìn)行業(yè)務(wù)端到端的關(guān)聯(lián)分析。主要涉及的功能有:數(shù)據(jù)包捕獲,數(shù)據(jù)包預(yù)處理,數(shù)據(jù)包解析,解碼數(shù)據(jù)輸出。數(shù)據(jù)包捕獲:通過(guò)加載dpdk自定義驅(qū)動(dòng)程序采集交換機(jī)鏡像過(guò)來(lái)的網(wǎng)絡(luò)數(shù)據(jù)包,并給每個(gè)數(shù)據(jù)包添加時(shí)間戳,然后根據(jù)數(shù)據(jù)包的四元組信息通過(guò)對(duì)稱hash算法得到hash值,根據(jù)hash值將每個(gè)數(shù)據(jù)包同源同宿的均分到各個(gè)預(yù)處理隊(duì)列中,由下一個(gè)功能模塊對(duì)數(shù)據(jù)包進(jìn)行處理分析。應(yīng)用場(chǎng)景:將數(shù)據(jù)包從網(wǎng)卡中采集推送給應(yīng)用程序處理。數(shù)據(jù)包預(yù)處理:從預(yù)處理隊(duì)列中獲取數(shù)據(jù)包,對(duì)數(shù)據(jù)包頭進(jìn)行解析,獲取數(shù)據(jù)包七元組信息,然后過(guò)濾模塊根據(jù)過(guò)濾配置規(guī)則和過(guò)濾條件對(duì)數(shù)據(jù)包進(jìn)行過(guò)濾處理,符合過(guò)濾條件的數(shù)據(jù)包根據(jù)hash值再次同源同宿的分發(fā)給解碼隊(duì)列。應(yīng)用場(chǎng)景:對(duì)數(shù)據(jù)進(jìn)行清洗,篩選。數(shù)據(jù)包解析:根據(jù)七層協(xié)議規(guī)則對(duì)數(shù)據(jù)包進(jìn)行深度解析,獲取mac,ip,port,相關(guān)的時(shí)間指標(biāo)以及應(yīng)用協(xié)議中攜帶的業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)指標(biāo),進(jìn)行業(yè)務(wù)識(shí)別和匹配,進(jìn)行業(yè)務(wù)數(shù)據(jù)標(biāo)記。應(yīng)用場(chǎng)景:深度解析數(shù)據(jù)包內(nèi)容,獲取數(shù)據(jù)指標(biāo),供上層Java分析平臺(tái)分析業(yè)務(wù)關(guān)聯(lián)。解碼數(shù)據(jù)輸出:講解碼后的數(shù)據(jù)結(jié)構(gòu)字段,一次拼接成字符串流,通過(guò)socket或kafka發(fā)送給Java分析平臺(tái)。應(yīng)用場(chǎng)景:將解碼后的基礎(chǔ)數(shù)據(jù)發(fā)送給第三方平臺(tái)進(jìn)行二次深度分析關(guān)聯(lián)。
4系統(tǒng)創(chuàng)新點(diǎn)
(1)無(wú)侵入式采集客戶感知探測(cè)系統(tǒng)通過(guò)交換機(jī)流量鏡像采集方式獲取業(yè)務(wù)系統(tǒng)的端到端業(yè)務(wù)流量,實(shí)現(xiàn)無(wú)侵入式采集網(wǎng)絡(luò)原始數(shù)據(jù),對(duì)原有業(yè)務(wù)系統(tǒng)性能不會(huì)產(chǎn)生任何影響。(2)自動(dòng)適配IT路徑圖的變化傳統(tǒng)部署的IT路徑圖:WEB負(fù)載-->web集群->接口匯聚負(fù)載->接口匯聚集群->能力中心服務(wù)集群->數(shù)據(jù)庫(kù)本系統(tǒng)的IT路徑圖:WEB負(fù)載-->web集群->接口匯聚負(fù)載->接口匯聚NG服務(wù)->接口匯聚容器->能力中心服務(wù)容器->數(shù)據(jù)庫(kù)本系統(tǒng)下,接口匯聚負(fù)載和接口匯聚容器之間增加了一個(gè)NG轉(zhuǎn)發(fā)服務(wù)。接口匯聚集群變成接口匯聚容器,能力中心服務(wù)集群變成能力中心服務(wù)容器。業(yè)務(wù)流量監(jiān)控系統(tǒng)能夠根據(jù)IP交互和業(yè)務(wù)資源調(diào)用關(guān)系,自動(dòng)適配IT路徑圖的變化。(3)自動(dòng)適配協(xié)議的變化探針能夠根據(jù)協(xié)議的內(nèi)容自動(dòng)識(shí)別解碼。(4)IP漂移自動(dòng)學(xué)習(xí)發(fā)現(xiàn)由于接口匯聚容器和能力中心服務(wù)容器的IP隨時(shí)可能發(fā)生變化(比如重啟,自動(dòng)擴(kuò)縮容),業(yè)務(wù)流量監(jiān)控系統(tǒng)能夠根據(jù)IP交互關(guān)系和協(xié)議動(dòng)態(tài)識(shí)別IP所屬網(wǎng)端,實(shí)現(xiàn)IP漂移場(chǎng)景下自動(dòng)發(fā)現(xiàn)新的拓?fù)鋱D。
5系統(tǒng)效益
(1)提升系統(tǒng)運(yùn)行質(zhì)量針對(duì)每天流量探測(cè)出現(xiàn)的各類告警進(jìn)行篩選,形成各類BUG故障單、系統(tǒng)性能故障單等,將該系統(tǒng)的數(shù)據(jù)與實(shí)體流量監(jiān)測(cè)對(duì)比,能及時(shí)發(fā)現(xiàn)考核風(fēng)險(xiǎn),并及時(shí)定位考核問(wèn)題。(2)提升業(yè)務(wù)運(yùn)行質(zhì)量通過(guò)數(shù)據(jù)采集和分析,發(fā)現(xiàn)業(yè)務(wù)運(yùn)行異常,提交業(yè)務(wù)規(guī)則類問(wèn)題故障單,發(fā)現(xiàn)業(yè)務(wù)辦理失敗的問(wèn)題,提交業(yè)務(wù)系統(tǒng)進(jìn)行修復(fù),同時(shí)給業(yè)務(wù)系統(tǒng)的預(yù)警和故障問(wèn)題的定位提供了有力的支持和保障,從源頭減少了用戶投訴。(3)實(shí)現(xiàn)實(shí)時(shí)業(yè)務(wù)檢測(cè)系統(tǒng)通過(guò)建模的方式,對(duì)于特定類業(yè)務(wù)操作、業(yè)務(wù)量等進(jìn)行檢測(cè),通過(guò)該手段發(fā)現(xiàn)敏感業(yè)務(wù)操作,保障了系統(tǒng)數(shù)據(jù)安全。(4)成本效益本項(xiàng)目創(chuàng)新所帶來(lái)的效益不僅包括資本支出方面,也體現(xiàn)在日常運(yùn)維成本方面。業(yè)務(wù)流量監(jiān)控系統(tǒng)降低了業(yè)務(wù)系統(tǒng)人工運(yùn)維成本,給業(yè)務(wù)系統(tǒng)的預(yù)警和故障問(wèn)題的定位提供了有力的支持和保障,從源頭減少了客戶投訴,提升了客戶客戶感知滿意度。(5)業(yè)務(wù)效益業(yè)務(wù)流量監(jiān)控系統(tǒng)有助于推動(dòng)信息系統(tǒng)平臺(tái)的順利上線。通過(guò)同時(shí)監(jiān)控新老系統(tǒng),新系統(tǒng)和老系統(tǒng)同時(shí)運(yùn)行,可以看到兩個(gè)系統(tǒng)相同業(yè)務(wù)的性能指標(biāo)數(shù)據(jù)對(duì)比,作為新系統(tǒng)是否正常運(yùn)行的一個(gè)重要評(píng)價(jià)標(biāo)準(zhǔn)。通過(guò)部署與實(shí)踐,我們不僅解決了現(xiàn)網(wǎng)遺留問(wèn)題同時(shí)也攻克了不少技術(shù)難題。為電網(wǎng)全業(yè)務(wù)系統(tǒng)的主動(dòng)探測(cè)探明了道路、掃除了前進(jìn)障礙,希望在助推電網(wǎng)企業(yè)智能運(yùn)維aiops方面能做出相應(yīng)的貢獻(xiàn),真正實(shí)現(xiàn)機(jī)器代替人工運(yùn)維的初衷。同時(shí)隨著監(jiān)控技術(shù)的不斷發(fā)展,在夯實(shí)云平臺(tái)監(jiān)控智能化的基礎(chǔ)上,后續(xù)有條件可以進(jìn)一步開展一系列技術(shù)革新探索。數(shù)據(jù)庫(kù)端到端關(guān)聯(lián)分析:充分挖掘數(shù)據(jù)庫(kù)流量,解碼每筆業(yè)務(wù)的SQL語(yǔ)句和相應(yīng)的性能指標(biāo),自動(dòng)學(xué)習(xí)業(yè)務(wù)接口和SQL的關(guān)聯(lián)關(guān)系。通過(guò)業(yè)務(wù)資源配置關(guān)系,串聯(lián)每筆業(yè)務(wù)的數(shù)據(jù)庫(kù)端到端關(guān)系。從而更加精細(xì)地定位系統(tǒng)故障到SQL級(jí)別,實(shí)現(xiàn)SQL的性能統(tǒng)計(jì)分析。
作者:林志達(dá) 曹小明 葉思斯 張華兵 單位:中國(guó)南方電網(wǎng)公司
級(jí)別:北大期刊
榮譽(yù):Caj-cd規(guī)范獲獎(jiǎng)期刊
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:北大期刊
榮譽(yù):Caj-cd規(guī)范獲獎(jiǎng)期刊
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)