<pre id="k0cda"></pre>

<input id="k0cda"></input>

<ol id="k0cda"><thead id="k0cda"></thead></ol>

歡迎訪問公務(wù)員期刊網(wǎng)!

購物車(0) 期刊中心科普訂閱 SCI雜志范文中心投稿指導(dǎo)

在線咨詢7X16小時在線

公務(wù)員期刊網(wǎng) 論文中心正文

數(shù)據(jù)挖掘下的慕課學(xué)習(xí)需求特征分析

發(fā)布時間：2023-05-17 20:52:42

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了數(shù)據(jù)挖掘下的慕課學(xué)習(xí)需求特征分析范文，希望能給你帶來靈感和參考，敬請閱讀。

數(shù)據(jù)挖掘下的慕課學(xué)習(xí)需求特征分析

【摘要】本文通過挖掘慕課數(shù)據(jù)來研究學(xué)習(xí)者對課程需求的特征。首先構(gòu)建了非線性回歸的學(xué)習(xí)人數(shù)預(yù)測模型和基于隨機森林的學(xué)習(xí)人數(shù)分類模型，得到開課時間、課程類別、開課學(xué)校這三個變量對學(xué)習(xí)人數(shù)有影響。然后用TF-IDF提取關(guān)鍵詞并進行可視化以及基于Gibbs抽樣建立主題個數(shù)為9的LDA主題模型，發(fā)現(xiàn)學(xué)習(xí)者對高等數(shù)學(xué)這門課的講解思路、習(xí)題答疑、課程內(nèi)容以及開課學(xué)校都有較強的關(guān)注點。

【關(guān)鍵詞】非線性回歸；隨機森林；課程特征；可視化；LDA主題模型

1引言

現(xiàn)階段國內(nèi)有許多提供慕課學(xué)習(xí)資源的平臺，如中國大學(xué)MOOC、智慧樹等，覆蓋大部分學(xué)科，且資源充足，授課形式各式各樣。但是海量的慕課資源也帶來一定的問題，如慕課質(zhì)量參差不齊，這給慕課學(xué)習(xí)者在選擇課程時帶來一定的困擾，并且造成資源的浪費。因此，如何制作出高質(zhì)量且能滿足絕大部分學(xué)習(xí)者需求的慕課成為一大重點，本文將從數(shù)據(jù)挖掘角度去建立學(xué)習(xí)人數(shù)預(yù)測模型以及分類模型，推斷影響學(xué)習(xí)者選擇的課程特征；并對評論進行文本挖掘來研究學(xué)習(xí)者所期望的課程特征。

2數(shù)據(jù)采集與預(yù)處理

本文用Python工具爬取中國大學(xué)MOOC平臺的十五類課程數(shù)據(jù)，每類課程數(shù)據(jù)包括學(xué)習(xí)人數(shù)、開課時間、學(xué)時安排、開課學(xué)校以及課程評論五個變量。然后清洗數(shù)據(jù)，剔除異常值。接著對變量進行賦值，定義學(xué)習(xí)人數(shù)為因變量y，課程類別為自變量x1，開課時間為自變量x2，學(xué)時安排為自變量x3，開課學(xué)校為自變量x4。將所有課程匯總為86種搭配，對每一種搭配的學(xué)習(xí)人數(shù)取均值，來反映某一特征課程的受歡迎程度。

3學(xué)習(xí)人數(shù)預(yù)測模型與分類模型

3.1預(yù)測模型的建立——多元回歸模型

將預(yù)處理后的數(shù)據(jù)隨機拆分為75%的訓(xùn)練集和25%的測試集，然后對訓(xùn)練集分別建立線性回歸模型與非線性回歸模型，并對測試集進行預(yù)測。首先，通過參數(shù)檢驗剔除不顯著變量后，最終擬合的線性回歸方程為：y=597.10χ1+596.56χ4此時模型相對誤差較大，擬合效果較差，接下來通過非線性對回歸模型做進一步改進。分別擬合y對每個自變量的單因素最佳一元非線性回歸模型，得到最終擬合的非線性回歸模型的方程：y=326.28χ1-8493.14χ2+1951.45χ22+2142.69χ4+2968.25e1/χ4將兩個模型的擬合結(jié)果、預(yù)測結(jié)果以及顯著性檢驗情況進行對比，根據(jù)擬合模型的R2a以及預(yù)測結(jié)果的RRMSE，認為非線性回歸模型優(yōu)于線性回歸模型。

3.2分類模型的建立——支持向量機與隨機森林

對某一類型的課程學(xué)習(xí)人數(shù)取均值，均值小于等于3000的課程賦值為0，均值大于3000的課程賦值為1，然后將數(shù)據(jù)集按照7:3的比例隨機分為訓(xùn)練集和測試集。利用RBF核函數(shù)建立支持向量機模型，并假設(shè)RBF核函數(shù)的模型參數(shù)cost=100，gamma=1，得到的模型分類效果，效果較為一般。為改進支持向量機模型的不足，使用默認參數(shù)建立隨機森林模型。準(zhǔn)確率結(jié)果可以看出，隨機森林模型（準(zhǔn)確率76.92%）比支持向量機模型（準(zhǔn)確率69.23%）的分類模型效果更好，且從準(zhǔn)確率和特異性的角度分析發(fā)現(xiàn)，開課時間和課程類別這兩個特征相對較為重要。

4課程評論的文本挖掘

4.1特征選擇與可視化

以高等數(shù)學(xué)課程評論為對象，利用ROSTCM軟件做初步處理，刪除重復(fù)評論、空行、英文字符。然后用R的tm包對初步處理后的評論中文分詞和去除停用詞。對預(yù)處理后的評論建立語料庫，約束每個詞最少2個字符，生成TF-IDF權(quán)重矩陣，并調(diào)整稀疏性，然后將同一個詞的權(quán)重值相加，并用詞云圖進行可視化，結(jié)果發(fā)現(xiàn)該門課程學(xué)生關(guān)注的焦點，“內(nèi)容”、“清晰”、“講解”，“詳細”“知識”等詞匯突出，權(quán)重值較大，說明學(xué)生對課程內(nèi)容的安排以及老師講課的思路重視程度大。對評論進行情感分析，對情感分析的好評提取關(guān)鍵詞，其中“思路”、“時間”、“細致”、“全面”這幾個詞的權(quán)重大，說明該門課程的時長、內(nèi)容安排比較合理。對情感分析的差評提取關(guān)鍵詞，其中“在念”、“解析”、“考試”、“作業(yè)”、“口音”等詞權(quán)重大，說明有些課程尚存在講解者口音重、念ppt以及考試題目安排難度不合理的現(xiàn)象。

4.2基于Gibbs抽樣的文本主題建模

設(shè)定主題先驗參數(shù)α=0.1，β=0.1，主題數(shù)K的范圍為3到30，基于Gibbs抽樣算法，使用最大似然估計得到最優(yōu)主題個數(shù)為9個。根據(jù)詞語在不同主題上的最大概率分布，將模型生成的九個主題中的前五個高頻詞取出，結(jié)果說明主題一、二、五、六、七、九能反映學(xué)習(xí)者在慕課學(xué)習(xí)過程中的關(guān)注點，主要有以下四點：（1）授課老師的講解思路；（2）習(xí)題的講解；（3）課程內(nèi)容的合理安排；（4）開課的學(xué)校。

5結(jié)語

非線性回歸預(yù)測模型得到開課時間、課程類別以及開課學(xué)校對學(xué)習(xí)人數(shù)有顯著影響，并且寒假期間開課的課程學(xué)習(xí)人數(shù)最少，所以平臺可以在暑假時多推出新課程。分類模型的分類結(jié)果顯示，文學(xué)文化、計算機以及理學(xué)類的學(xué)習(xí)人數(shù)相對較多，這與當(dāng)今時代的行業(yè)潮流發(fā)展有莫大關(guān)系，所以課程的數(shù)量比要跟時代相結(jié)合。對于高等數(shù)學(xué)這門課的慕課，學(xué)習(xí)者對課程的內(nèi)容設(shè)置、授課老師的思路以及開課學(xué)校這四個方面關(guān)注點高，建議平臺設(shè)置階梯式課程以適應(yīng)不同水平的學(xué)習(xí)者。

【參考文獻】

[1]王江榮，文暉.基于多元非線性回歸理論的坦克蓄電池剩余容量非線性回歸預(yù)測研究[J].電氣自動化，2015，37（06）:109-110，113.

[2]于韜，王洪巖.基于TF-IDF算法的文本信息提取[J].科技視界，2018（16）:117-11.

作者：林媛葉幸郭桂璇肖莉周燕單位：華南農(nóng)業(yè)大學(xué)

上一篇：企業(yè)服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究范文
下一篇：齒輪箱異響故障診斷排除方法分析范文

相關(guān)熱門標(biāo)簽

相關(guān)文章閱讀

相關(guān)期刊推薦

精選范文推薦