公務(wù)員期刊網(wǎng) 論文中心 正文

高校大數(shù)據(jù)分析平臺(tái)設(shè)計(jì)實(shí)現(xiàn)

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了高校大數(shù)據(jù)分析平臺(tái)設(shè)計(jì)實(shí)現(xiàn)范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

高校大數(shù)據(jù)分析平臺(tái)設(shè)計(jì)實(shí)現(xiàn)

摘要:隨著高校各類應(yīng)用系統(tǒng)的發(fā)展,信息化建設(shè)將轉(zhuǎn)向大數(shù)據(jù)服務(wù)階段。如何有效利用分散在各系統(tǒng)中的數(shù)據(jù),為學(xué)校的管理與決策提供數(shù)據(jù)支撐,是迫切需要解決的問(wèn)題。文章闡述了數(shù)據(jù)采集整合過(guò)程和分布式存儲(chǔ)技術(shù),設(shè)計(jì)了大數(shù)據(jù)分析平臺(tái)基礎(chǔ)架構(gòu)和功能模塊,分析了相關(guān)數(shù)據(jù)模型。通過(guò)搭建大數(shù)據(jù)分析平臺(tái),測(cè)試了數(shù)據(jù)采集功能和各分析模塊的展示情況。

關(guān)鍵詞:大數(shù)據(jù)分析平臺(tái);Hadoop;數(shù)據(jù)采集

引言

隨著高校信息化建設(shè)快速推進(jìn),國(guó)內(nèi)高校基本完成各類基礎(chǔ)應(yīng)用系統(tǒng)的建設(shè),在應(yīng)用系統(tǒng)中也存儲(chǔ)了大量的數(shù)據(jù),包括教師和學(xué)生的工作、生活、學(xué)習(xí)、教學(xué)和科研等數(shù)據(jù),以及個(gè)系統(tǒng)的日志數(shù)據(jù)。由于各系統(tǒng)相對(duì)獨(dú)立無(wú)法進(jìn)行系統(tǒng)間的數(shù)據(jù)共享,使得這些系統(tǒng)數(shù)據(jù)都閑置在各應(yīng)用系統(tǒng)中。因?yàn)樵趯W(xué)校的管理與決策中缺乏真實(shí)可靠的數(shù)據(jù)做支撐,所以研究如何將閑置的數(shù)據(jù)有效利用起來(lái),對(duì)高校的信息化建設(shè)會(huì)更有意義。大數(shù)據(jù)分析平臺(tái)是在現(xiàn)有各應(yīng)用系統(tǒng)的基礎(chǔ)上,對(duì)各系統(tǒng)匯集起的海量數(shù)據(jù)資源進(jìn)行清洗、整理、挖掘、分析等操作后,數(shù)據(jù)標(biāo)準(zhǔn)化程度提高其利用價(jià)值也更大。大數(shù)據(jù)分析平臺(tái)的基礎(chǔ)是數(shù)據(jù),核心是分析模型,目標(biāo)是應(yīng)用。本文將整合校園內(nèi)各應(yīng)用系統(tǒng)數(shù)據(jù),并對(duì)其進(jìn)行挖掘、整理、分析,然后通過(guò)構(gòu)建數(shù)據(jù)模型,搭建統(tǒng)一的大數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)對(duì)零散的數(shù)據(jù)進(jìn)行整合分析,分析結(jié)果可以為學(xué)校及各部門(mén)的管理和決策提供數(shù)據(jù)支撐,數(shù)據(jù)的利用價(jià)值也更高。對(duì)師生在工作、生活、學(xué)習(xí)、教學(xué)和科研方面提供行為分析,分析結(jié)果為學(xué)校優(yōu)化管理方式,提升服務(wù)水平提供指導(dǎo),勾畫(huà)“千人千面”,讓學(xué)校真正了解師生。

1關(guān)鍵技術(shù)簡(jiǎn)介

Hadoop[1]是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),充分利用集群的優(yōu)勢(shì)對(duì)數(shù)據(jù)進(jìn)行運(yùn)算和存儲(chǔ)。Hadoop由許多元素構(gòu)成,底層是分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS),用來(lái)存儲(chǔ)集群中所有存儲(chǔ)節(jié)點(diǎn)中的文件。HDFS上一層是Ma-pReduce引擎,為海量的數(shù)據(jù)提供高速計(jì)算。ETL(Extract-Transform-Load)[2]是用來(lái)描述將數(shù)據(jù)從源端經(jīng)過(guò)抽?。‥xtract)、轉(zhuǎn)換(Transform)、加載(Load)到目的端的過(guò)程。使用ETL目的是將學(xué)校中分散、零亂、標(biāo)準(zhǔn)不統(tǒng)一的數(shù)據(jù)整合到一起,為學(xué)校管理決策提供數(shù)據(jù)支撐。Sqoop[3]是一款開(kāi)源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(kù)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)導(dǎo)入HDFS,也可以將HDFS的數(shù)據(jù)回流到關(guān)系型數(shù)據(jù)庫(kù)中。Sqoop也為NoSQL數(shù)據(jù)庫(kù)它也提供了連接器。Nutch[4]是一個(gè)開(kāi)源的高度可擴(kuò)展和可伸縮性的分布式爬蟲(chóng)框架。Nutch主要由爬蟲(chóng)Crawler和查詢Searcher組成,Craw-ler主要用于從網(wǎng)絡(luò)上抓取網(wǎng)頁(yè)并建立索引,Searcher主要利用這些索引檢索用戶的查找關(guān)鍵詞來(lái)產(chǎn)生查找結(jié)果。兩者之間的接口是索引,所以除去索引部分,兩者之間的耦合度很低。

2基礎(chǔ)架構(gòu)設(shè)計(jì)

2.1數(shù)據(jù)采集

大數(shù)據(jù)分析應(yīng)用采用Hadoop平臺(tái)及生態(tài)工具,從校園卡數(shù)據(jù)、上網(wǎng)日志數(shù)據(jù)、教學(xué)數(shù)據(jù)、師生管理數(shù)據(jù)和安防數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)庫(kù),以及網(wǎng)絡(luò)和相關(guān)表格文件等非結(jié)構(gòu)化數(shù)據(jù)中,采集師生相關(guān)業(yè)務(wù)數(shù)據(jù)到分布式數(shù)據(jù)中心進(jìn)行存儲(chǔ)、挖掘、分析和展示。確保數(shù)據(jù)采集對(duì)應(yīng)用系統(tǒng)運(yùn)行不產(chǎn)生影響的情況下,可實(shí)時(shí)或定時(shí)增量采集數(shù)據(jù)。為了便于擴(kuò)展,架構(gòu)還支持從其它關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)中采集結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),挖掘關(guān)聯(lián)性更多的數(shù)據(jù)關(guān)系。數(shù)據(jù)采集架構(gòu)如圖1。數(shù)據(jù)采集是大數(shù)據(jù)分析中最重要的一部分。結(jié)構(gòu)化的數(shù)據(jù)通過(guò)統(tǒng)一數(shù)據(jù)集成管道對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行抽取,按照數(shù)據(jù)分析模型要求對(duì)各應(yīng)用系統(tǒng)數(shù)據(jù)利用經(jīng)過(guò)抽取,轉(zhuǎn)換,加載至主數(shù)據(jù)庫(kù);表格數(shù)據(jù)通過(guò)填報(bào)或?qū)氲姆绞竭M(jìn)入主數(shù)據(jù)庫(kù);日志數(shù)據(jù)通過(guò)日志處理工具讀入主數(shù)據(jù)庫(kù);互聯(lián)網(wǎng)中的社交、科研、輿情、Web等數(shù)據(jù)通過(guò)爬蟲(chóng)工具采集至主數(shù)據(jù)庫(kù)。

2.2數(shù)據(jù)清洗整合

數(shù)據(jù)質(zhì)量是大數(shù)據(jù)分析效果的基礎(chǔ),數(shù)據(jù)質(zhì)量的管理,是發(fā)揮數(shù)據(jù)價(jià)值的基石,也是大數(shù)據(jù)分析的重要前提。在數(shù)據(jù)分析平臺(tái)的建設(shè)過(guò)程中數(shù)據(jù)的清洗整合的工作占70%以上。大數(shù)據(jù)分析平臺(tái)從數(shù)據(jù)使用的角度管理數(shù)據(jù)的質(zhì)量,以可視化的形式反映數(shù)據(jù)質(zhì)量問(wèn)題,數(shù)據(jù)也可以利用可視化的界面對(duì)質(zhì)量檢測(cè)規(guī)則進(jìn)行配置。通過(guò)數(shù)據(jù)采集存入主數(shù)據(jù)庫(kù)中的數(shù)據(jù)質(zhì)量較差,容易出現(xiàn)空字段,數(shù)據(jù)標(biāo)準(zhǔn)不一致,數(shù)據(jù)描述不統(tǒng)一。數(shù)據(jù)的清洗整合主要通用數(shù)據(jù)質(zhì)量規(guī)則進(jìn)行自定義配置,根據(jù)規(guī)則對(duì)主數(shù)據(jù)庫(kù)中存在異常的數(shù)據(jù)通過(guò)缺值填寫(xiě)、無(wú)效值重復(fù)值刪除、異常值優(yōu)化等方法提高數(shù)據(jù)質(zhì)量,根據(jù)數(shù)據(jù)分析模型整合已抽取的數(shù)據(jù)。

2.3分布式存儲(chǔ)及數(shù)據(jù)分析

分布式存儲(chǔ)主要是通過(guò)Hadoop分布式文件系統(tǒng)(HDFS)以及MapReduce框架將數(shù)據(jù)分散存儲(chǔ)在多臺(tái)獨(dú)立的設(shè)備上[5],具有可擴(kuò)展、低成本、高性能、易用等特征。傳統(tǒng)的網(wǎng)絡(luò)存儲(chǔ)是將所有數(shù)據(jù)集中存儲(chǔ)到存儲(chǔ)服務(wù)器上,存儲(chǔ)服務(wù)器的性能對(duì)存儲(chǔ)數(shù)據(jù)的影響較大,也成為平臺(tái)性能的瓶頸,不能滿足大規(guī)模數(shù)據(jù)存儲(chǔ)及使用的需要。在大數(shù)據(jù)分析平臺(tái)上使用分布式存儲(chǔ),不但可以提高系統(tǒng)的可靠性、可用性和存取效率,還易于擴(kuò)展。高校存儲(chǔ)的大量數(shù)據(jù)應(yīng)用價(jià)值非常高,通過(guò)對(duì)抽取的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,搭建分析模型,實(shí)現(xiàn)用數(shù)據(jù)對(duì)師生的行為進(jìn)行畫(huà)像,實(shí)時(shí)了解學(xué)生學(xué)習(xí)、教師教課等情況。

2.4平臺(tái)架構(gòu)體系設(shè)計(jì)

大數(shù)據(jù)分析平臺(tái)主要向用戶展示師生行為,綜合數(shù)據(jù)分析,校情信息,教學(xué)及學(xué)習(xí)情況等。在平臺(tái)架構(gòu)設(shè)計(jì)中要充分了解學(xué)校各系統(tǒng)目前運(yùn)行情況,學(xué)校各單位對(duì)數(shù)據(jù)的需求,以及學(xué)校目前的數(shù)據(jù)重量情況,在架構(gòu)設(shè)計(jì)和數(shù)據(jù)存儲(chǔ)空間設(shè)計(jì)時(shí)充分考慮平臺(tái)發(fā)展的需要。底層數(shù)據(jù)抽取、清洗整合、分析建模等基礎(chǔ)工作并不能向用戶展示,數(shù)據(jù)的準(zhǔn)確性和模型的合理性決定了分析結(jié)果的可靠性。大數(shù)據(jù)分析平臺(tái)架構(gòu)體系如圖2:此架構(gòu)體系可以兼容多數(shù)高校已經(jīng)建設(shè)的數(shù)字校園結(jié)構(gòu)體系,可以與已有的平臺(tái)和數(shù)據(jù)中心相輔相成,建設(shè)效率更快的情況下還能節(jié)省成本。讓原來(lái)的建設(shè)成果發(fā)揮更大的價(jià)值。

3大數(shù)據(jù)分析平臺(tái)功能設(shè)計(jì)

大數(shù)據(jù)分析平臺(tái)的場(chǎng)景應(yīng)用是指通過(guò)數(shù)據(jù)建模把數(shù)據(jù)從各種維度、特征進(jìn)行分析,然后根據(jù)不同的場(chǎng)景應(yīng)用對(duì)分析結(jié)果進(jìn)行展示。各應(yīng)用場(chǎng)景的分析模型搭建需要充分了解各系統(tǒng)數(shù)據(jù),以便于從多維度區(qū)分?jǐn)?shù)據(jù)需求程度。在高校大數(shù)據(jù)分析中,數(shù)據(jù)的來(lái)源主要從學(xué)生綜合系統(tǒng),人力資源,教務(wù)管理,圖書(shū)管理,校園卡系統(tǒng),安防,上網(wǎng)管理,科研管理、資產(chǎn)管理和醫(yī)院管理等系統(tǒng)中獲取。大數(shù)據(jù)深入分析時(shí),還要對(duì)非結(jié)構(gòu)化表格數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行采集,如通過(guò)表格填寫(xiě)進(jìn)行管理數(shù)據(jù)采集,利用爬蟲(chóng)程序?qū)ヂ?lián)網(wǎng)中期刊數(shù)據(jù)庫(kù)、微博數(shù)據(jù)、網(wǎng)頁(yè)數(shù)據(jù)、以及微信公眾號(hào)文章等數(shù)據(jù)進(jìn)行采集,再結(jié)合學(xué)校其它相對(duì)變化不大的數(shù)據(jù),能搭建出更有價(jià)值的分析模型。各高校都有自己的特點(diǎn),現(xiàn)有的各種分析模型并不能通用,必須根據(jù)本校實(shí)際情況對(duì)已有的分析模型進(jìn)行優(yōu)化或重新搭建。其中行為軌跡主要通過(guò)對(duì)各系統(tǒng)中定時(shí)定點(diǎn)的數(shù)據(jù)進(jìn)行串聯(lián),形成一條行為路線。

3.1學(xué)生數(shù)據(jù)分析

高校管理中對(duì)學(xué)生的管理十分重要,對(duì)學(xué)生的數(shù)據(jù)分析需要站在學(xué)生的角度進(jìn)行思考,如學(xué)生上課考勤分析,首先針對(duì)學(xué)生的課表、學(xué)生請(qǐng)銷假、教室考勤機(jī)、校園卡記錄、上網(wǎng)記錄、圖書(shū)借閱、安防數(shù)據(jù)、校醫(yī)院系統(tǒng)等可以分析出有哪些學(xué)生沒(méi)有上課。根據(jù)學(xué)生日常行為軌跡或習(xí)慣,以及消費(fèi)情況分析該生是否在談戀愛(ài)。根據(jù)學(xué)生上數(shù)據(jù)分析該生是否沉迷于網(wǎng)游。通過(guò)分析學(xué)生上課情況、教師情況、行為軌跡或習(xí)慣、以及相似課程成績(jī)等數(shù)據(jù)對(duì)學(xué)生的學(xué)習(xí)情況進(jìn)行預(yù)警,并對(duì)產(chǎn)生預(yù)警的原因進(jìn)行分析。通過(guò)數(shù)據(jù)分析使學(xué)生管理者輕松的掌握學(xué)生狀態(tài),同時(shí)也可得到出現(xiàn)該狀態(tài)的原因。在貧困生鑒別和精準(zhǔn)扶貧方面,根據(jù)學(xué)生每月在校消費(fèi)情況、家庭情況、助學(xué)貸款等數(shù)據(jù)篩選學(xué)生,并將男女分析算法區(qū)別設(shè)計(jì)。學(xué)生宿舍安全方面,通過(guò)宿舍智能電表實(shí)時(shí)監(jiān)測(cè)用電情況,對(duì)違規(guī)使用大功率、高電流及電表高溫等情況進(jìn)行實(shí)時(shí)預(yù)警并將預(yù)警信息推送給相關(guān)人員進(jìn)行處理。另外還可以通過(guò)數(shù)據(jù)分析對(duì)學(xué)生異常消費(fèi)、上網(wǎng)時(shí)長(zhǎng),上網(wǎng)行為、心理健康、學(xué)業(yè)、學(xué)生軌跡等情況進(jìn)行預(yù)警,可以對(duì)突發(fā)事件處理給予指導(dǎo)。通過(guò)用戶畫(huà)像從不同靜態(tài)屬性標(biāo)簽勾畫(huà)學(xué)生人群進(jìn)行展示,并支持深入挖掘?qū)W生消費(fèi)行為信息,輔助學(xué)校在勤工助學(xué)、助學(xué)貸款、貧困生評(píng)定、價(jià)格調(diào)整、餐廳分流、超市分布、浴室建設(shè)等方面提供數(shù)據(jù)支撐。

3.2教師數(shù)據(jù)分析

在教學(xué)管理方面,通過(guò)教學(xué)數(shù)據(jù)、學(xué)生評(píng)教、學(xué)生到課率、教師備課、科研、圖書(shū)借閱等數(shù)據(jù)可以分析出教師所適合的優(yōu)勢(shì)課程,為教學(xué)管理人員課程安排提供指導(dǎo),將數(shù)據(jù)推送至教師可以為其發(fā)展提供指導(dǎo)。通過(guò)教師的校園卡消費(fèi)、行為軌跡、上網(wǎng)數(shù)據(jù)等數(shù)據(jù)分析教師是否存在離職風(fēng)險(xiǎn),如校園卡消費(fèi)方面出現(xiàn)有意清零或提現(xiàn),經(jīng)常瀏覽招聘網(wǎng)站或投遞簡(jiǎn)歷等行為。

3.3其他數(shù)據(jù)分析

大數(shù)據(jù)分析能夠?qū)W(xué)生和教師分析外,還可以從其他方面進(jìn)行分析用來(lái)服務(wù)于校領(lǐng)導(dǎo)、后勤管理、校園卡管理、校園安全管理等??蒲蟹治龇矫妫ㄟ^(guò)對(duì)年度科研項(xiàng)目立項(xiàng)和科研成果等科研數(shù)據(jù)的分析,可以預(yù)測(cè)學(xué)校科研發(fā)展情況,結(jié)合學(xué)校發(fā)展目標(biāo)對(duì)發(fā)現(xiàn)的問(wèn)題及時(shí)進(jìn)行干預(yù)。教學(xué)管理方面,通過(guò)對(duì)不同專業(yè)、不同年級(jí)學(xué)生的選課情況和課程成績(jī)等數(shù)據(jù)的分析,是否需要對(duì)學(xué)校開(kāi)設(shè)的選修課信息通信王樹(shù)國(guó)等:高校大數(shù)據(jù)分析平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行調(diào)整,以適應(yīng)學(xué)校的培養(yǎng)目標(biāo)和學(xué)生的學(xué)習(xí)興趣。學(xué)生管理方面,通過(guò)校園卡、安防終端、相關(guān)賬號(hào)等數(shù)據(jù)可以進(jìn)行身份識(shí)別,可以通過(guò)數(shù)據(jù)分析獲得實(shí)時(shí)在校人數(shù),以及早出晚歸、夜不歸宿的學(xué)生,在綜合學(xué)生數(shù)據(jù)后對(duì)學(xué)生的行為進(jìn)行安全預(yù)警。餐飲消費(fèi)、行為軌跡等數(shù)據(jù)與學(xué)習(xí)成績(jī)進(jìn)行分析,分析結(jié)果可以指導(dǎo)輔導(dǎo)員對(duì)學(xué)生進(jìn)行分類管理。餐廳管理方面,通過(guò)對(duì)師生消費(fèi)時(shí)間、季節(jié)、窗口人流量、消費(fèi)金額等數(shù)據(jù)分析,后勤和餐飲經(jīng)營(yíng)者可以清楚的知道每個(gè)餐廳、每個(gè)窗口消費(fèi)及收入情況,便于后勤對(duì)餐廳的管理,并及時(shí)對(duì)餐廳或窗口進(jìn)行優(yōu)化調(diào)整??赏ㄟ^(guò)結(jié)合消費(fèi)人群信息對(duì)消費(fèi)用戶數(shù)據(jù)深入挖掘,獲得不同地方的人喜歡的口味,不同年級(jí)學(xué)生的餐飲習(xí)慣等情況。上網(wǎng)管理方面,通過(guò)對(duì)上網(wǎng)數(shù)據(jù)進(jìn)行分類匯總、關(guān)鍵詞提取、應(yīng)用程序分類、安全設(shè)備日志分析、用戶信息分類等數(shù)據(jù)進(jìn)行分析,可以為學(xué)校網(wǎng)絡(luò)保障、網(wǎng)絡(luò)用戶管理、網(wǎng)絡(luò)安全預(yù)警、個(gè)人信息保護(hù)等提供數(shù)據(jù)支撐。圖書(shū)館管理方面,通過(guò)對(duì)學(xué)生和教師借閱時(shí)間、借閱書(shū)籍類型、借閱人類型、館藏圖書(shū)、在線期刊數(shù)據(jù)庫(kù)瀏覽等數(shù)據(jù)分析,以及學(xué)生進(jìn)出圖書(shū)館的次數(shù)與成績(jī)之間的關(guān)系,為圖書(shū)館管理和圖書(shū)需求情況提供數(shù)據(jù)支撐,更便于師生了解圖書(shū)館進(jìn)出高峰時(shí)間段、哪個(gè)區(qū)域人流量較多、哪種書(shū)籍更受人喜歡等信息。校園安全方面,通過(guò)對(duì)校園安防平臺(tái)中進(jìn)出校門(mén)、進(jìn)出校內(nèi)各樓宇、視頻邊界和人員密度報(bào)警等數(shù)據(jù)的分析,為學(xué)校安全管理提供指導(dǎo)。對(duì)校園卡及財(cái)務(wù)數(shù)據(jù)分析,可以讓校園卡管理老師了解學(xué)生、老師、臨時(shí)卡等在消費(fèi)、充值、使用等方面的情況,為師生進(jìn)一步提高服務(wù)質(zhì)量和主動(dòng)服務(wù)意識(shí)提供指導(dǎo)。大數(shù)據(jù)分析平臺(tái)主要功能設(shè)計(jì)如圖3。大數(shù)據(jù)分析平臺(tái)可對(duì)用戶進(jìn)行功能和數(shù)據(jù)授權(quán)。數(shù)據(jù)權(quán)限可分為全局、院系、輔導(dǎo)員和普通老師等級(jí)別,模塊權(quán)限可根據(jù)角色對(duì)功能模塊進(jìn)行授權(quán)??蔀閹熒峁┐髷?shù)據(jù)報(bào)告,可在PC和手機(jī)端訪問(wèn)。學(xué)生和老師可了解食堂擁擠、窗口美食、洗澡高峰、充值趨勢(shì)、消費(fèi)水平等等。數(shù)據(jù)智能管理方面,可以把數(shù)據(jù)庫(kù)中的數(shù)據(jù)根據(jù)自己想要的結(jié)果輕松配置出來(lái),功能強(qiáng)大,操作簡(jiǎn)單,用戶可自己操作。

4平臺(tái)實(shí)現(xiàn)

數(shù)據(jù)分析平臺(tái)基于JAVA框架,使用在智能代碼助手、重構(gòu)、JUnit、CVS整合、代碼分析等方面功能優(yōu)越的IntelliJIDEA進(jìn)行開(kāi)發(fā),數(shù)據(jù)庫(kù)使用Oracle。在數(shù)據(jù)源管理中,利用Sqoop工具在Hadoop與關(guān)系型數(shù)據(jù)庫(kù)間進(jìn)行數(shù)據(jù)的傳遞,也可以實(shí)現(xiàn)數(shù)據(jù)雙向流通,其底層實(shí)現(xiàn)就是MapReduce。對(duì)某些NoSQL數(shù)據(jù)庫(kù)利用Sqoop連接器,同樣可以實(shí)現(xiàn)數(shù)據(jù)流。新建數(shù)據(jù)源如圖4所示。權(quán)限管理在大數(shù)據(jù)分析平臺(tái)管理中主要進(jìn)行組織管理,角色管理,用戶管理等。其中用戶角色定義中,根據(jù)不同用戶的需求分別定義管理員、校領(lǐng)導(dǎo)、院處領(lǐng)導(dǎo)、辦公室、教師、輔導(dǎo)員、學(xué)生等角色,根據(jù)不同角色劃分不同權(quán)限,每種角色都可以訂閱本角色范圍內(nèi)的需求信息,也可以根據(jù)學(xué)校管理需要給特定人推送相關(guān)信息。在用戶管理中對(duì)不同角色用戶可以進(jìn)行批量權(quán)限劃分,通過(guò)對(duì)前臺(tái)的編碼實(shí)現(xiàn)對(duì)分析結(jié)果的展示,個(gè)人畫(huà)像展示如圖5。

5結(jié)語(yǔ)

闡述了高校在數(shù)據(jù)管理方面存在的問(wèn)題,構(gòu)建了大數(shù)據(jù)分析平臺(tái)技術(shù)架構(gòu),功能模塊。基于Hadoop技術(shù)對(duì)大數(shù)據(jù)分析平臺(tái)的部分功能進(jìn)行了測(cè)試。平臺(tái)試運(yùn)行后為在校師生提供了統(tǒng)一的數(shù)據(jù)推送服務(wù),并為相關(guān)部門(mén)的管理提供了數(shù)據(jù)支撐。平臺(tái)在對(duì)數(shù)據(jù)抽取和分析模型搭建方面還有進(jìn)一步提升的空間,例如在學(xué)生健康狀況分析和學(xué)習(xí)情況分析,可以通過(guò)進(jìn)一步數(shù)據(jù)挖掘,分析出質(zhì)量更高的結(jié)果。

參考文獻(xiàn):

[2]陳鋒.ETL數(shù)據(jù)治理在高校信息化建設(shè)中的研究與應(yīng)用.中國(guó)教育信息化[J].2020(13):68-70.

[3]王建軍,張英成,戰(zhàn)非,趙侃.基于Sqoop的高校海量結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入研究[J].無(wú)線互聯(lián)科技.2018(20):52-53.

[4]周飚.網(wǎng)絡(luò)數(shù)據(jù)采集框架Nutch及其應(yīng)用研究[J].中國(guó)管理信息化,2019,22(18):167-169.

[5]王立友.高校智慧校園大數(shù)據(jù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].河北民族師范學(xué)院學(xué)報(bào),2020,40(2):88-93.

作者:王樹(shù)國(guó) 皮宗輝 付文豪 單位:喀什大學(xué)網(wǎng)絡(luò)與信息管理中心