前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘下的學生網(wǎng)絡行為分析管理范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:隨著移動互聯(lián)網(wǎng)和高校校園網(wǎng)的日趨完善,大學生已成為網(wǎng)絡社會最主要的社會群體之一。網(wǎng)絡已成為大學生校園生活和日常生活不可缺少的重要工具之一,對高校學生網(wǎng)絡行為進行分析、管理和引導具有重要的作用和深遠的意義。文章重點對網(wǎng)絡訪問數(shù)據(jù)預處理、網(wǎng)絡訪問數(shù)據(jù)清洗、網(wǎng)頁分類等核心環(huán)節(jié)進行了闡述,并構(gòu)建了網(wǎng)絡行為分析與管理系統(tǒng),為高校網(wǎng)絡部門優(yōu)化校園網(wǎng)絡服務、保障網(wǎng)絡安全提供了參考。
關(guān)鍵詞:網(wǎng)絡行為分析;網(wǎng)絡行為管理;數(shù)據(jù)挖掘
隨著網(wǎng)絡的迅速普及,近年來我國網(wǎng)民數(shù)量不斷增長,2019年8月中國互聯(lián)網(wǎng)絡信息中心(CNNIC)了第44次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》,截至2019年6月,我國網(wǎng)民規(guī)模達8.54億,互聯(lián)網(wǎng)普及率達61.2%,手機網(wǎng)民規(guī)模達8.47億,網(wǎng)民使用手機上網(wǎng)的比例達99.1%,2019年上半年,我國網(wǎng)民的人均每周上網(wǎng)時長為27.9h[1]。隨著移動互聯(lián)和高校校園網(wǎng)的日趨完善,大學生已成為網(wǎng)絡社會最主要的社會群體之一。由于具有較高的文化層次以及較強的新生事物接受能力,大學生掌握了很高的計算機和網(wǎng)絡技術(shù),也因此主導著計算機網(wǎng)絡文化的潮流,網(wǎng)絡使用普及率、上網(wǎng)時間等都明顯高于其他群體。網(wǎng)絡已成為大學生校園生活和日常生活不可缺少的環(huán)節(jié)之一,對高校學生網(wǎng)絡行為進行分析、管理和引導具有重要的作用和深遠的意義。
1高校學生網(wǎng)絡行為分析與管理現(xiàn)狀
學生網(wǎng)絡行為分析與管理是指通過提取和監(jiān)控網(wǎng)絡流量,采集網(wǎng)絡用戶信息,包括用戶ID信息、所在區(qū)域、相關(guān)瀏覽數(shù)據(jù)和流量數(shù)據(jù),建立分析數(shù)據(jù)庫,識別學生訪問網(wǎng)站、網(wǎng)絡系統(tǒng)、數(shù)據(jù)庫、論壇等訪問行為,及時關(guān)注和掌握學生網(wǎng)絡行為狀態(tài),引導學生行為。同時,通過關(guān)注網(wǎng)上異常行為,提高專有網(wǎng)絡的安全性。高校學生網(wǎng)絡行為數(shù)據(jù)挖掘主要包括數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析等步驟,數(shù)據(jù)采集是從高校各個專門網(wǎng)絡、APP、教學管理系統(tǒng)、圖書借閱系統(tǒng)、數(shù)據(jù)庫等教育環(huán)境中獲取學生訪問和使用數(shù)據(jù),并進行存儲;數(shù)據(jù)處理首先采用數(shù)據(jù)清理、數(shù)據(jù)變換等方法將采集的數(shù)據(jù)轉(zhuǎn)換成適合于數(shù)據(jù)挖掘的數(shù)據(jù)格式,然后運用人工智能、統(tǒng)計分析、機器學習等方法,從大量數(shù)據(jù)中挖掘和發(fā)現(xiàn)相關(guān)隱含信息;數(shù)據(jù)分析是指構(gòu)建相應的評價指標對數(shù)據(jù)挖掘結(jié)果進行評價,為相關(guān)行為管理提供依據(jù)。2008年,美國、荷蘭等國家便先后成立了國際教育數(shù)據(jù)挖掘工作組,并召開了首屆教育數(shù)據(jù)挖掘國際學術(shù)會議。近年來,關(guān)于教育數(shù)據(jù)挖掘的研究不斷增多。2014年,電子科技大學成立教育大數(shù)據(jù)研究所;2015年,中國統(tǒng)計信息服務中心成立中國教育大數(shù)據(jù)研究院。吳青等[2]基于J48決策樹對高校學生網(wǎng)絡學習行為進行了研究,構(gòu)建了相關(guān)學習模型。為了實現(xiàn)網(wǎng)絡學習的過程監(jiān)管,施佺等[3]使用關(guān)聯(lián)規(guī)則和聚類分析方法對學生的網(wǎng)絡學習行為數(shù)據(jù)進行了研究,并構(gòu)建了數(shù)據(jù)挖掘模型。薛黎明等[4]將聚類算法用于用戶行為分析,以上網(wǎng)時長為指標值,使用K-均值聚類與Kohonen神經(jīng)網(wǎng)絡聚類方法對上網(wǎng)記錄進行聚類分析,獲得了較好的效果。馬煜[5]利用數(shù)據(jù)挖掘技術(shù)分析了校園網(wǎng)用戶的行為特點,為網(wǎng)絡部門優(yōu)化校園網(wǎng)絡服務、保障網(wǎng)絡安全提供了參考。周航[6]基于大數(shù)據(jù)通過可視化校園網(wǎng)絡的用戶行為數(shù)據(jù),了解用戶的網(wǎng)絡行為,并為相關(guān)管理部門提供優(yōu)化依據(jù)。
2高校學生網(wǎng)絡行為分析與管理技術(shù)
本文借助某高校學生的網(wǎng)絡訪問記錄,通過網(wǎng)絡爬蟲、網(wǎng)頁分類、關(guān)鍵詞聚類、網(wǎng)絡行為可視化等手段,對采集的數(shù)據(jù)進行處理,研究學生的興趣模型,采用關(guān)聯(lián)規(guī)則對學生瀏覽的網(wǎng)頁進行分析與分類,從而揭示學生在此過程中所體現(xiàn)的網(wǎng)絡行為。
2.1網(wǎng)絡訪問數(shù)據(jù)預處理
學生網(wǎng)絡訪問日志主要來源于某高校信息化辦公室數(shù)據(jù)中心的服務器數(shù)據(jù),包括學生的基本信息以及訪問數(shù)據(jù),例如網(wǎng)址、下載文件、訪問數(shù)據(jù)庫、端口請求等。據(jù)此構(gòu)建了數(shù)據(jù)基本字段,格式如圖1所示。其中,NUM表示記錄編號,USER_ID表示訪問學生的ID號,USER_CRC表示學生的學號,TIME1表示訪問開始時間,TIME2表示訪問結(jié)束時間,URL表示訪問鏈接,TYPE表示鏈接分類類別,TER表示訪問設備類型。
2.2網(wǎng)絡訪問數(shù)據(jù)清洗
為了去除訪問數(shù)據(jù)中的異常數(shù)據(jù)、彈窗、無效鏈接和其他無用數(shù)據(jù),在進行數(shù)據(jù)挖掘之前,首先要對采集到的數(shù)據(jù)進行清洗,保障數(shù)據(jù)的質(zhì)量和有效性。本文中需要過濾的無效或者無用數(shù)據(jù)包括訪問的圖片、下載的壓縮包、彈出的窗口、廣告等噪聲信息,這些信息會影響后續(xù)的網(wǎng)絡數(shù)據(jù)建模,因此必須提前進行處理,針對常用的數(shù)據(jù)異常類型,處理方式如下:(1)缺失值類異常數(shù)據(jù),如果缺失率較低,且數(shù)據(jù)重要程度不高,可根據(jù)數(shù)據(jù)分布情況進行填充,例如均值、中位數(shù)等;如果缺失率較高,且數(shù)據(jù)重要程度不高,可以直接刪除;如果缺失率較高,且數(shù)據(jù)重要程度較高,本文采用熱平臺插補法進行處理,即在非缺失數(shù)據(jù)集中,找到與缺失值類似的匹配數(shù)據(jù),利用非缺失數(shù)據(jù)集中的數(shù)據(jù)對缺失數(shù)據(jù)進行填補[7]。(2)異常值類異常數(shù)據(jù),是指明顯偏離正常范圍的數(shù)值,可通過箱線圖或者統(tǒng)計分析進行區(qū)分,通過數(shù)據(jù)的統(tǒng)計特性,去尋找不合理的值。本文采用基于正態(tài)分布的離群點檢測方法進行判斷,在準則下,異常值是測定值中與平均值偏差超過3倍標準差的值,對于正態(tài)分布而言,屬于極小概率事件。對于不服從正態(tài)分布的數(shù)據(jù),本文采用超過原理平均值3倍的方式來判斷。(3)重復值類異常數(shù)據(jù),首先將所有數(shù)據(jù)按照一定的規(guī)則進行排序,然后通過比較相鄰數(shù)據(jù)集的相關(guān)性來判斷是否屬于異常數(shù)據(jù),可用duplicated函數(shù)實現(xiàn)此過程。(4)噪音類異常數(shù)據(jù),是檢測數(shù)據(jù)的隨機誤差或者方差,不同于離群點數(shù)據(jù)。對于噪音,可采用回歸法進行處理,即用一個函數(shù)擬合來光滑數(shù)據(jù),只要找到適合數(shù)據(jù)的擬合函數(shù),就能消除噪音對數(shù)據(jù)的影響。
2.3網(wǎng)頁分類
根據(jù)學生訪問習慣,本文將學生訪問網(wǎng)頁分為新聞、藝術(shù)、影音、郵箱、游戲、寵物、購物、科技、論壇、美食、汽車、體育、文學、教育、考試、交通、旅游等,同時用相應的訓練樣本對其進行訓練。分類流程如圖2所示。
3高校學生網(wǎng)絡行為分析與管理系統(tǒng)構(gòu)建
從實際需求出發(fā),設計了高校學生網(wǎng)絡行為分析與管理系統(tǒng),系統(tǒng)根據(jù)學生訪問日志,通過對網(wǎng)頁進行分類,借助Echarts對結(jié)果進行可視化展示,主要實現(xiàn)了數(shù)據(jù)上傳、數(shù)據(jù)讀取、網(wǎng)頁分類、結(jié)果可視化等功能。其系統(tǒng)功能結(jié)構(gòu)如圖3所示。
4結(jié)語
本文在深入分析高校學生網(wǎng)絡行為分析與管理研究現(xiàn)狀的基礎上,對網(wǎng)絡行為分析與管理技術(shù)進行了闡述,包括網(wǎng)絡訪問數(shù)據(jù)預處理、網(wǎng)絡訪問數(shù)據(jù)清洗、網(wǎng)頁分類等核心環(huán)節(jié),并根據(jù)實際需要構(gòu)建了網(wǎng)絡行為分析與管理系統(tǒng),提出了系列解決方案,為高校網(wǎng)絡部門優(yōu)化校園網(wǎng)絡服務、保障網(wǎng)絡安全提供了參考。
[參考文獻]
[1]中國互聯(lián)網(wǎng)信息中心.第44次《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》[EB/OL].
[2]吳青,羅儒國.基于網(wǎng)絡學習行為的學習風格挖掘[J].現(xiàn)代遠距離教育,2014(1):54-62.
[3]施佺,錢源,孫玲.基于教育數(shù)據(jù)挖掘的網(wǎng)絡學習過程監(jiān)管研究[J].現(xiàn)代教育技術(shù),2016(6):87-93.
[4]薛黎明,欒維新.聚類算法在高校網(wǎng)絡用戶行為分析中的應用[J].現(xiàn)代電子技術(shù),2016(7):29-32.
[5]馬煜.基于數(shù)據(jù)挖掘?qū)π@網(wǎng)用戶網(wǎng)絡行為的分析[J].科技創(chuàng)新與應用,2016(34):79.
[6]周航.基于大數(shù)據(jù)的高校網(wǎng)絡用戶行為的數(shù)據(jù)可視化設計分析[J].中國包裝,2019(7):33-35.
[7]翟學新.高校學生網(wǎng)絡行為與興趣關(guān)聯(lián)分析[D].綿陽:西南科技大學,2018.
作者:姜彬峰 單位:吉林鐵道職業(yè)技術(shù)學院