前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘下的慕課學(xué)習(xí)需求特征分析范文,希望能給你帶來靈感和參考,敬請閱讀。
【摘要】本文通過挖掘慕課數(shù)據(jù)來研究學(xué)習(xí)者對課程需求的特征。首先構(gòu)建了非線性回歸的學(xué)習(xí)人數(shù)預(yù)測模型和基于隨機森林的學(xué)習(xí)人數(shù)分類模型,得到開課時間、課程類別、開課學(xué)校這三個變量對學(xué)習(xí)人數(shù)有影響。然后用TF-IDF提取關(guān)鍵詞并進行可視化以及基于Gibbs抽樣建立主題個數(shù)為9的LDA主題模型,發(fā)現(xiàn)學(xué)習(xí)者對高等數(shù)學(xué)這門課的講解思路、習(xí)題答疑、課程內(nèi)容以及開課學(xué)校都有較強的關(guān)注點。
【關(guān)鍵詞】非線性回歸;隨機森林;課程特征;可視化;LDA主題模型
1引言
現(xiàn)階段國內(nèi)有許多提供慕課學(xué)習(xí)資源的平臺,如中國大學(xué)MOOC、智慧樹等,覆蓋大部分學(xué)科,且資源充足,授課形式各式各樣。但是海量的慕課資源也帶來一定的問題,如慕課質(zhì)量參差不齊,這給慕課學(xué)習(xí)者在選擇課程時帶來一定的困擾,并且造成資源的浪費。因此,如何制作出高質(zhì)量且能滿足絕大部分學(xué)習(xí)者需求的慕課成為一大重點,本文將從數(shù)據(jù)挖掘角度去建立學(xué)習(xí)人數(shù)預(yù)測模型以及分類模型,推斷影響學(xué)習(xí)者選擇的課程特征;并對評論進行文本挖掘來研究學(xué)習(xí)者所期望的課程特征。
2數(shù)據(jù)采集與預(yù)處理
本文用Python工具爬取中國大學(xué)MOOC平臺的十五類課程數(shù)據(jù),每類課程數(shù)據(jù)包括學(xué)習(xí)人數(shù)、開課時間、學(xué)時安排、開課學(xué)校以及課程評論五個變量。然后清洗數(shù)據(jù),剔除異常值。接著對變量進行賦值,定義學(xué)習(xí)人數(shù)為因變量y,課程類別為自變量x1,開課時間為自變量x2,學(xué)時安排為自變量x3,開課學(xué)校為自變量x4。將所有課程匯總為86種搭配,對每一種搭配的學(xué)習(xí)人數(shù)取均值,來反映某一特征課程的受歡迎程度。
3學(xué)習(xí)人數(shù)預(yù)測模型與分類模型
3.1預(yù)測模型的建立——多元回歸模型
將預(yù)處理后的數(shù)據(jù)隨機拆分為75%的訓(xùn)練集和25%的測試集,然后對訓(xùn)練集分別建立線性回歸模型與非線性回歸模型,并對測試集進行預(yù)測。首先,通過參數(shù)檢驗剔除不顯著變量后,最終擬合的線性回歸方程為:y=597.10χ1+596.56χ4此時模型相對誤差較大,擬合效果較差,接下來通過非線性對回歸模型做進一步改進。分別擬合y對每個自變量的單因素最佳一元非線性回歸模型,得到最終擬合的非線性回歸模型的方程:y=326.28χ1-8493.14χ2+1951.45χ22+2142.69χ4+2968.25e1/χ4將兩個模型的擬合結(jié)果、預(yù)測結(jié)果以及顯著性檢驗情況進行對比,根據(jù)擬合模型的R2a以及預(yù)測結(jié)果的RRMSE,認為非線性回歸模型優(yōu)于線性回歸模型。
3.2分類模型的建立——支持向量機與隨機森林
對某一類型的課程學(xué)習(xí)人數(shù)取均值,均值小于等于3000的課程賦值為0,均值大于3000的課程賦值為1,然后將數(shù)據(jù)集按照7:3的比例隨機分為訓(xùn)練集和測試集。利用RBF核函數(shù)建立支持向量機模型,并假設(shè)RBF核函數(shù)的模型參數(shù)cost=100,gamma=1,得到的模型分類效果,效果較為一般。為改進支持向量機模型的不足,使用默認參數(shù)建立隨機森林模型。準(zhǔn)確率結(jié)果可以看出,隨機森林模型(準(zhǔn)確率76.92%)比支持向量機模型(準(zhǔn)確率69.23%)的分類模型效果更好,且從準(zhǔn)確率和特異性的角度分析發(fā)現(xiàn),開課時間和課程類別這兩個特征相對較為重要。
4課程評論的文本挖掘
4.1特征選擇與可視化
以高等數(shù)學(xué)課程評論為對象,利用ROSTCM軟件做初步處理,刪除重復(fù)評論、空行、英文字符。然后用R的tm包對初步處理后的評論中文分詞和去除停用詞。對預(yù)處理后的評論建立語料庫,約束每個詞最少2個字符,生成TF-IDF權(quán)重矩陣,并調(diào)整稀疏性,然后將同一個詞的權(quán)重值相加,并用詞云圖進行可視化,結(jié)果發(fā)現(xiàn)該門課程學(xué)生關(guān)注的焦點,“內(nèi)容”、“清晰”、“講解”,“詳細”“知識”等詞匯突出,權(quán)重值較大,說明學(xué)生對課程內(nèi)容的安排以及老師講課的思路重視程度大。對評論進行情感分析,對情感分析的好評提取關(guān)鍵詞,其中“思路”、“時間”、“細致”、“全面”這幾個詞的權(quán)重大,說明該門課程的時長、內(nèi)容安排比較合理。對情感分析的差評提取關(guān)鍵詞,其中“在念”、“解析”、“考試”、“作業(yè)”、“口音”等詞權(quán)重大,說明有些課程尚存在講解者口音重、念ppt以及考試題目安排難度不合理的現(xiàn)象。
4.2基于Gibbs抽樣的文本主題建模
設(shè)定主題先驗參數(shù)α=0.1,β=0.1,主題數(shù)K的范圍為3到30,基于Gibbs抽樣算法,使用最大似然估計得到最優(yōu)主題個數(shù)為9個。根據(jù)詞語在不同主題上的最大概率分布,將模型生成的九個主題中的前五個高頻詞取出,結(jié)果說明主題一、二、五、六、七、九能反映學(xué)習(xí)者在慕課學(xué)習(xí)過程中的關(guān)注點,主要有以下四點:(1)授課老師的講解思路;(2)習(xí)題的講解;(3)課程內(nèi)容的合理安排;(4)開課的學(xué)校。
5結(jié)語
非線性回歸預(yù)測模型得到開課時間、課程類別以及開課學(xué)校對學(xué)習(xí)人數(shù)有顯著影響,并且寒假期間開課的課程學(xué)習(xí)人數(shù)最少,所以平臺可以在暑假時多推出新課程。分類模型的分類結(jié)果顯示,文學(xué)文化、計算機以及理學(xué)類的學(xué)習(xí)人數(shù)相對較多,這與當(dāng)今時代的行業(yè)潮流發(fā)展有莫大關(guān)系,所以課程的數(shù)量比要跟時代相結(jié)合。對于高等數(shù)學(xué)這門課的慕課,學(xué)習(xí)者對課程的內(nèi)容設(shè)置、授課老師的思路以及開課學(xué)校這四個方面關(guān)注點高,建議平臺設(shè)置階梯式課程以適應(yīng)不同水平的學(xué)習(xí)者。
【參考文獻】
[1]王江榮,文暉.基于多元非線性回歸理論的坦克蓄電池剩余容量非線性回歸預(yù)測研究[J].電氣自動化,2015,37(06):109-110,113.
[2]于韜,王洪巖.基于TF-IDF算法的文本信息提取[J].科技視界,2018(16):117-11.
作者:林媛 葉幸 郭桂璇 肖莉 周燕 單位:華南農(nóng)業(yè)大學(xué)