前言:想要寫出一篇引人入勝的文章?我們特意為您整理了有線電視網(wǎng)絡(luò)運(yùn)營(yíng)商平臺(tái)建設(shè)研究范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。
【摘要】根據(jù)企業(yè)實(shí)際業(yè)務(wù)需求,梳理大數(shù)據(jù)平臺(tái)所需具備的能力以及具體建設(shè)目標(biāo),按照滿足海量數(shù)據(jù)存儲(chǔ)、高性能計(jì)算、應(yīng)用豐富等企業(yè)級(jí)大數(shù)據(jù)平臺(tái)能力要求,從數(shù)據(jù)采集與預(yù)處理、計(jì)算與存儲(chǔ)、平臺(tái)運(yùn)維和管理等方面構(gòu)建企業(yè)級(jí)大數(shù)據(jù)平臺(tái)的功能架構(gòu)及其配套的硬件架構(gòu),為建設(shè)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)提供參考。
【關(guān)鍵詞】大數(shù)據(jù);數(shù)據(jù)平臺(tái);系統(tǒng)架構(gòu);數(shù)據(jù)管理
0前言
江蘇省廣電有線信息網(wǎng)絡(luò)股份有限公司(以下簡(jiǎn)稱江蘇有線)通過(guò)這些年的信息化發(fā)展,各個(gè)業(yè)務(wù)領(lǐng)域都構(gòu)建了完善的信息系統(tǒng)支撐,沉淀了巨大的數(shù)據(jù)資源。數(shù)據(jù)資源不僅涉及業(yè)務(wù)受理信息、行為日志等結(jié)構(gòu)化數(shù)據(jù),還包括圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。從數(shù)據(jù)質(zhì)量來(lái)說(shuō),這些數(shù)據(jù)涵蓋了全業(yè)務(wù)、全用戶和全渠道,信息完整度較好。如何充分利用這些蘊(yùn)含巨大價(jià)值的數(shù)據(jù)資源,反哺于各個(gè)業(yè)務(wù)領(lǐng)域,使之成為推動(dòng)業(yè)務(wù)發(fā)展、提升市場(chǎng)競(jìng)爭(zhēng)能力的強(qiáng)大推動(dòng)力,是當(dāng)前迫切需要解決的問(wèn)題。通過(guò)一段時(shí)間的探索,江蘇有線大數(shù)據(jù)資源的開(kāi)發(fā)利用和數(shù)據(jù)價(jià)值的呈現(xiàn)已初見(jiàn)成效,但面對(duì)日益增長(zhǎng)的業(yè)務(wù)發(fā)展趨勢(shì),以及快速的響應(yīng)市場(chǎng)能力的需求,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)和經(jīng)營(yíng)分析系統(tǒng)不足以支撐未來(lái)業(yè)務(wù)應(yīng)用的價(jià)值化數(shù)據(jù)需求。主要表現(xiàn)在多個(gè)子系統(tǒng)的數(shù)據(jù)資源未進(jìn)行融合、開(kāi)發(fā)和利用,從而使數(shù)據(jù)價(jià)值的挖掘和利用受到了限制;傳統(tǒng)的數(shù)據(jù)系統(tǒng)平臺(tái)架構(gòu)擴(kuò)展性難以滿足業(yè)務(wù)應(yīng)用發(fā)展的需求。因此,需要基于主流大數(shù)據(jù)平臺(tái)框架,構(gòu)建匯聚業(yè)務(wù)、終端、用戶收視行為、消費(fèi)習(xí)慣、客戶服務(wù)等多維度的數(shù)據(jù)分析平臺(tái),遵循行業(yè)內(nèi)統(tǒng)一的數(shù)據(jù)處理技術(shù),管理等相關(guān)標(biāo)準(zhǔn),提供融合數(shù)據(jù)存儲(chǔ)、統(tǒng)一數(shù)據(jù)訪問(wèn)等跨平臺(tái)的數(shù)據(jù)能力,通過(guò)數(shù)據(jù)資源的開(kāi)發(fā)和利用,實(shí)現(xiàn)價(jià)值的發(fā)掘。
1企業(yè)級(jí)大數(shù)據(jù)平臺(tái)的建設(shè)目標(biāo)
企業(yè)級(jí)大數(shù)據(jù)平臺(tái)作為江蘇有線唯一、統(tǒng)一的數(shù)據(jù)采集、處理、服務(wù)和運(yùn)營(yíng)的平臺(tái),按照統(tǒng)一匯聚、統(tǒng)一存儲(chǔ)、集中計(jì)算、集中管控的原則,形成總公司及各分公司“多節(jié)點(diǎn)”“網(wǎng)狀網(wǎng)”形態(tài)的數(shù)據(jù)和服務(wù)共享能力,實(shí)現(xiàn)數(shù)據(jù)集中化、能力化、資產(chǎn)化的目標(biāo)。具體建設(shè)目標(biāo)如下:1)建立江蘇有線統(tǒng)一數(shù)據(jù)中心。實(shí)現(xiàn)企業(yè)內(nèi)外全網(wǎng)型數(shù)據(jù)、跨域數(shù)據(jù)的采集和整合,搭建可管、可控、可用的數(shù)據(jù)管理和運(yùn)營(yíng)體系。對(duì)內(nèi)是數(shù)據(jù)化經(jīng)營(yíng)決策的唯一依據(jù),對(duì)外是數(shù)據(jù)變現(xiàn)經(jīng)營(yíng)的唯一載體。2)海量數(shù)據(jù)的安全存儲(chǔ)。實(shí)現(xiàn)江蘇有線PB級(jí)客戶、業(yè)務(wù)、網(wǎng)絡(luò)、行為等結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)安全備份、歷史明細(xì)數(shù)據(jù)隨查隨用、擴(kuò)容靈活不停機(jī)、擴(kuò)容成本低廉的目標(biāo)。3)高性能數(shù)據(jù)計(jì)算處理能力。具備離線批量處理、準(zhǔn)實(shí)時(shí)處理、內(nèi)存處理和交互式探索等多種計(jì)算能力,實(shí)現(xiàn)高并發(fā)下PB級(jí)數(shù)據(jù)的高效處理和應(yīng)用。有效提升各類經(jīng)營(yíng)指標(biāo)、統(tǒng)計(jì)報(bào)表的數(shù)據(jù)處理效率(月度數(shù)據(jù)任務(wù)處理時(shí)間不超過(guò)6h),支撐江蘇有線全省經(jīng)營(yíng)工作,各分公司、子公司數(shù)據(jù)化運(yùn)營(yíng)的高效開(kāi)展。4)豐富的數(shù)據(jù)應(yīng)用中心。具備海量數(shù)據(jù)挖掘、靈活的數(shù)據(jù)可視化/交互能力,打造實(shí)時(shí)查詢、業(yè)務(wù)預(yù)測(cè)、精準(zhǔn)營(yíng)銷等數(shù)據(jù)應(yīng)用,把數(shù)據(jù)應(yīng)用能力下放至一線人員使用,快速有效各分公司、子公司和業(yè)務(wù)單位在市場(chǎng)經(jīng)營(yíng)決策、節(jié)目采購(gòu)編排、收視率分析、產(chǎn)品設(shè)計(jì)分析、一線精確化營(yíng)維工作的開(kāi)展。5)大數(shù)據(jù)能力開(kāi)放體系。以數(shù)據(jù)開(kāi)放方式實(shí)現(xiàn)數(shù)據(jù)能力輸出、數(shù)據(jù)服務(wù)共享。對(duì)內(nèi)作為數(shù)據(jù)中心向其他各類系統(tǒng)輸送統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)或者平臺(tái)的計(jì)算和存儲(chǔ)資源;對(duì)外是江蘇有線數(shù)據(jù)資產(chǎn)變現(xiàn)經(jīng)營(yíng)的統(tǒng)一數(shù)據(jù)資源。6)建立數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)體系。建立一體化的數(shù)據(jù)管控和數(shù)據(jù)資產(chǎn)運(yùn)營(yíng)管理體系,包括數(shù)據(jù)統(tǒng)一規(guī)劃、統(tǒng)一定義、安全管控、運(yùn)營(yíng)模式、運(yùn)營(yíng)平臺(tái)等,實(shí)現(xiàn)企業(yè)數(shù)據(jù)的有效治理和運(yùn)營(yíng)。
2企業(yè)級(jí)大數(shù)據(jù)平臺(tái)功能架構(gòu)
企業(yè)級(jí)大數(shù)據(jù)平臺(tái)采用分層架構(gòu)設(shè)計(jì),充分體現(xiàn)協(xié)同一體、敏捷高效、智能精準(zhǔn)、開(kāi)放共享的愿景,以及“小前臺(tái)、大中臺(tái)、厚后臺(tái)”的原則要求,大數(shù)據(jù)平臺(tái)核心部分為PaaS平臺(tái),大數(shù)據(jù)基礎(chǔ)平臺(tái)功能架構(gòu)包括數(shù)據(jù)采集與預(yù)處理、計(jì)算與存儲(chǔ)、平臺(tái)運(yùn)維和管理。大數(shù)據(jù)平臺(tái)功能架構(gòu)如圖1所示。
2.1數(shù)據(jù)采集與預(yù)處理
為批量數(shù)據(jù)采集、流式采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分發(fā)、數(shù)據(jù)同步/加載提供底層技術(shù)支撐[1]:1)批量數(shù)據(jù)采集?;趚86服務(wù)器集群,使用FTP、SFTP、HTTP、Sqoop、DataX等協(xié)議或技術(shù),實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)批量離線數(shù)據(jù)采集。2)流式采集?;趚86服務(wù)器集群,使用SDTP消息、Kafka消息中間件、Flume等開(kāi)源技術(shù),將數(shù)據(jù)按照消息、文件、數(shù)據(jù)庫(kù)適配等方式進(jìn)行數(shù)據(jù)接入。3)數(shù)據(jù)同步/加載。支撐PB級(jí)數(shù)據(jù)同步的同步,加載目標(biāo)包括結(jié)構(gòu)化與非結(jié)構(gòu)化多種DB/DW(如Hive、Oracle、DB2、MPP數(shù)據(jù)庫(kù)、MySQL數(shù)據(jù)庫(kù))。
2.2計(jì)算與存儲(chǔ)
計(jì)算與存儲(chǔ)包括數(shù)據(jù)存儲(chǔ)、批量計(jì)算、實(shí)時(shí)計(jì)算、Redis內(nèi)存存儲(chǔ)[2]:1)數(shù)據(jù)存儲(chǔ)。負(fù)責(zé)存儲(chǔ)數(shù)據(jù)采集層發(fā)送過(guò)來(lái)的數(shù)據(jù)、數(shù)據(jù)計(jì)算/分析結(jié)果的數(shù)據(jù),數(shù)據(jù)根據(jù)業(yè)務(wù)應(yīng)用場(chǎng)景可存儲(chǔ)在適用的存儲(chǔ)服務(wù)器上,如傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)、Nosql、MPP、HDFS等。使用HDFS/Hbase/Redis/GreenPlum/MySQL/DB2等技術(shù)構(gòu)建海量數(shù)據(jù)存儲(chǔ)能力。2)批量計(jì)算。負(fù)責(zé)數(shù)據(jù)收集過(guò)程中的批量處理,形成不同數(shù)據(jù)組織的基礎(chǔ)數(shù)據(jù)資產(chǎn),完成基礎(chǔ)數(shù)據(jù)準(zhǔn)備工作。并能夠支持不同分布式計(jì)算框架的數(shù)據(jù)分析工作,使用MapReduce、Hive、Spark、SparkSQL、Impala、Kylin、Mahout、SparkR開(kāi)源技術(shù)構(gòu)建批量數(shù)據(jù)加工處理及數(shù)據(jù)挖掘能力。3)實(shí)時(shí)計(jì)算?;趚86服務(wù)器集群,使用Spark-Streaming、Redis、Hbase、Kafka等開(kāi)源技術(shù),負(fù)責(zé)實(shí)時(shí)性要求高的數(shù)據(jù)加工處理。4)Redis內(nèi)存存儲(chǔ)?;趚86服務(wù)器集群,構(gòu)建Redis內(nèi)存存儲(chǔ)集群,實(shí)現(xiàn)實(shí)時(shí)訪問(wèn)要求高的用戶行為數(shù)據(jù)、實(shí)時(shí)位置數(shù)據(jù)、實(shí)時(shí)集團(tuán)上報(bào)數(shù)據(jù)等各類實(shí)時(shí)計(jì)算結(jié)果數(shù)據(jù)存儲(chǔ),并打通Redis與實(shí)時(shí)計(jì)算引擎、Hadoop、RDB、MPP無(wú)縫銜接及交互能力。
2.3平臺(tái)運(yùn)維與管理
1)通過(guò)界面進(jìn)行向?qū)降牟渴鹌脚_(tái)組件,可視化對(duì)HDFS、Hbase、Hive、Spark等Hadoop生態(tài)進(jìn)行部署和完成相關(guān)的配置。2)采用可視化的圖表指標(biāo)方式,監(jiān)控Hadoop組件、主機(jī)CPU、磁盤I/O、網(wǎng)絡(luò)I/O等硬件指標(biāo)。3)具備完善的日志抓取和下載能力。在統(tǒng)一的企業(yè)級(jí)管理界面,可以查看平臺(tái)所有主機(jī)運(yùn)行日志的詳情,并且可以在大數(shù)據(jù)平臺(tái)界面進(jìn)行日志的瀏覽或者下載,方便運(yùn)維人員對(duì)問(wèn)題進(jìn)行定位。
3企業(yè)級(jí)大數(shù)據(jù)平臺(tái)
硬件架構(gòu)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)硬件架構(gòu)由數(shù)據(jù)管理平臺(tái)、能力服務(wù)平臺(tái)、數(shù)據(jù)計(jì)算中心和展現(xiàn)平臺(tái)等4部分組成[3]。其中數(shù)據(jù)計(jì)算中心是整個(gè)系統(tǒng)的核心,用來(lái)部署Hadoop集群和關(guān)系型數(shù)據(jù)庫(kù)。數(shù)據(jù)管理平臺(tái)、能力服務(wù)平臺(tái)和展現(xiàn)平臺(tái)對(duì)應(yīng)不同的應(yīng)用部署。外部各業(yè)務(wù)系統(tǒng)通過(guò)核心交換機(jī)接入Hadoop集群交互通信。數(shù)據(jù)生產(chǎn)集群與數(shù)據(jù)理平臺(tái)、能力服務(wù)平臺(tái)部署分離,將生產(chǎn)與管理影響降到最小。生產(chǎn)中心主節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)等各類節(jié)點(diǎn)在同一個(gè)集群內(nèi),提升節(jié)點(diǎn)間通信效率。企業(yè)級(jí)大數(shù)據(jù)平臺(tái)硬件架構(gòu)如圖2所示。為滿足企業(yè)級(jí)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)計(jì)算并發(fā)能力,完成對(duì)歷史數(shù)據(jù)的遷移及新數(shù)據(jù)的存儲(chǔ),經(jīng)測(cè)算按照30%的能力冗余。企業(yè)級(jí)大數(shù)據(jù)平臺(tái)的硬件配置如表1所示。
4企業(yè)級(jí)大數(shù)據(jù)平臺(tái)應(yīng)用
4.1企業(yè)級(jí)大數(shù)據(jù)平臺(tái)集群監(jiān)控
通過(guò)AmbariDashboard頁(yè)面展示集群的整體情況,可以點(diǎn)擊各個(gè)圖表查看具體信息。服務(wù)級(jí)別監(jiān)控管理包括HDFS、MapReduce、Storm、Spark等,通過(guò)左邊導(dǎo)航點(diǎn)擊對(duì)應(yīng)的服務(wù),可以查看該服務(wù)的使用情況。Heatmaps展示了服務(wù)各個(gè)角色使用磁盤I/O、網(wǎng)卡I/O、CPU以及JVM等性能狀況。企業(yè)級(jí)大數(shù)據(jù)平臺(tái)集群監(jiān)測(cè)如圖3所示。
4.2平臺(tái)任務(wù)開(kāi)發(fā)與調(diào)度管理
通過(guò)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)數(shù)據(jù)中臺(tái)工具實(shí)現(xiàn)便捷式數(shù)據(jù)可視化開(kāi)發(fā),即開(kāi)發(fā)流程采用直觀、可視的方式,從布局設(shè)計(jì)、數(shù)據(jù)源配置到組件配置及開(kāi)發(fā)效果全過(guò)程均可查看。主要包括元數(shù)據(jù)管理、數(shù)據(jù)采集、數(shù)據(jù)稽核、數(shù)據(jù)標(biāo)準(zhǔn)制定、數(shù)據(jù)加工、數(shù)據(jù)分發(fā)、業(yè)務(wù)流程管理、接口管理、調(diào)度一體化等工具。其中,調(diào)度監(jiān)控可以實(shí)時(shí)呈現(xiàn)平臺(tái)JOB執(zhí)行情況,且對(duì)于執(zhí)行失敗的JOB可以進(jìn)行查看日志、重做當(dāng)前、重做后續(xù)等操作。企業(yè)級(jí)大數(shù)據(jù)平臺(tái)數(shù)據(jù)任務(wù)執(zhí)行情況監(jiān)控如圖4所示。
5結(jié)語(yǔ)
綜上所述,通過(guò)企業(yè)級(jí)大數(shù)據(jù)平臺(tái)的建設(shè),實(shí)現(xiàn)企業(yè)內(nèi)外全網(wǎng)型數(shù)據(jù)、跨域數(shù)據(jù)的采集和整合,搭建可管、可控、可用的數(shù)據(jù)管理和運(yùn)營(yíng)平臺(tái)。快速有效支撐管理層與業(yè)務(wù)部門在經(jīng)營(yíng)管理、市場(chǎng)經(jīng)營(yíng)決策、數(shù)據(jù)化運(yùn)營(yíng)、產(chǎn)品設(shè)計(jì)分析、一線精確化營(yíng)維等工作的開(kāi)展。
參考文獻(xiàn)
[1]曹逸知.大數(shù)據(jù)的發(fā)展與技術(shù)應(yīng)用[J].通訊世界,2019(1):51—52.
[2]范家寧.基于Spark的多數(shù)據(jù)源大數(shù)據(jù)治理平臺(tái)研究[D].北京:中國(guó)地質(zhì)大學(xué)(北京),2020.
[3]劉盛學(xué).電信大數(shù)據(jù)探索平臺(tái)關(guān)鍵技術(shù)及其實(shí)現(xiàn)研究[D].長(zhǎng)沙:湖南大學(xué),2018.
作者:丁云強(qiáng) 單位:江蘇省廣電有線信息網(wǎng)絡(luò)股份有限公司