數(shù)據(jù)挖掘分析及決策
時(shí)間:2022-01-30 09:24:41
導(dǎo)語:數(shù)據(jù)挖掘分析及決策一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1前言
百年大計(jì),教育為本。教育是立國之本,民族興旺的標(biāo)記,教育無論在何時(shí)何地何種制度下其地位都是不可或缺的。近些年來,教育方式也在時(shí)刻更新與進(jìn)步著。現(xiàn)如今,我國教育的主要目標(biāo)之一是如何通過分析學(xué)生,教師和學(xué)校在教學(xué)實(shí)踐過程中的影響因素,找出提高學(xué)生學(xué)習(xí)效率和教師教學(xué)質(zhì)量的因素。近年來,我國高校入學(xué)的學(xué)生人數(shù)大幅增加。但是傳統(tǒng)教學(xué)和管理方法未能適應(yīng)高校的未來發(fā)展,因此我們需要新的管理方法和教學(xué)方法,以滿足高校學(xué)生管理和教學(xué)工作帶來的嚴(yán)峻考驗(yàn)。在這個(gè)階段,我國高校教辦公室的數(shù)據(jù)庫中已經(jīng)積累了大量的學(xué)生成績信息,但是學(xué)生成績數(shù)據(jù)的管理仍處于簡單查詢數(shù)據(jù)庫中的得分?jǐn)?shù)據(jù)的階段,因此這些數(shù)據(jù)的作用沒有被充分利用起來。如果能充分利用這些數(shù)據(jù),在教學(xué)實(shí)踐過程中準(zhǔn)確分析學(xué)生,教師和學(xué)校的影響因素,找到提高學(xué)生學(xué)習(xí)效率和教師教學(xué)質(zhì)量的途徑,有利于提高學(xué)校教學(xué)質(zhì)量。利用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)對(duì)存儲(chǔ)在學(xué)校數(shù)據(jù)庫中的學(xué)生數(shù)據(jù)進(jìn)行深入分析,挖掘隱藏在這些數(shù)據(jù)背后的有用信息,發(fā)現(xiàn)有用的知識(shí),指導(dǎo)學(xué)生的學(xué)習(xí)和教師教學(xué),并幫助學(xué)校管理者做出決策學(xué)校未來的發(fā)展必將在提高學(xué)生學(xué)習(xí)效率,提高教學(xué)質(zhì)量,提高學(xué)校管理水平方面發(fā)揮重要作用。以大學(xué)生的學(xué)習(xí)成績信息為應(yīng)用背景,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于學(xué)生成績管理系統(tǒng),分析學(xué)生在數(shù)據(jù)庫中存儲(chǔ)的績效數(shù)據(jù)。學(xué)位可以幫助解決存在的問題,使學(xué)校教學(xué)管理系統(tǒng)充分發(fā)揮作用,進(jìn)一步滿足學(xué)校教學(xué)管理職能的需要,幫助有關(guān)部門制定合理的教學(xué)計(jì)劃和人才培養(yǎng)計(jì)劃,并給予學(xué)生根據(jù)自己的實(shí)際情況提供學(xué)習(xí)、研究方向以及課程各方面的幫助。在此背景下,本文旨在進(jìn)一步探討尚不清楚的教育現(xiàn)象和規(guī)律。本文結(jié)合著名理論馬斯洛層次需求理論,該理論的基本原理是人類只有當(dāng)滿足了較為底層的需求時(shí),更加高層次的需求才能夠得以滿足。這個(gè)需求理論應(yīng)用面十分廣闊,例如本文將該需求理論映射學(xué)生身上進(jìn)行研究和討論,學(xué)生的基本需求就是他的家庭,因?yàn)樗募彝グ殡S著他的一生,因此家庭因素對(duì)學(xué)生成績影響很大。本文使用機(jī)器學(xué)習(xí)流行的python工具對(duì)現(xiàn)有的數(shù)據(jù)進(jìn)行建模,旨在挖掘海量數(shù)據(jù)中有價(jià)值的信息。本文中采集到學(xué)生的葡萄牙語成績和一些其他方面的基本數(shù)據(jù),將學(xué)生與家庭因素有關(guān)的一些基本數(shù)據(jù)與學(xué)生學(xué)習(xí)成績綜合考慮,并且同時(shí)用多元線性回歸模型、隨機(jī)森林模型和支持向量機(jī)模型多方面進(jìn)行測(cè)定和分析比對(duì),構(gòu)建合適的預(yù)測(cè)模型。通過大數(shù)據(jù)分析與挖掘,提出了預(yù)測(cè)學(xué)生成績的模型,并將其應(yīng)用。意義創(chuàng)新,其結(jié)果可供教學(xué)管理者借鑒。
2預(yù)測(cè)學(xué)生成績
2.1數(shù)據(jù)來源與處理和模型假設(shè)。由于數(shù)據(jù)獲取難度大,因此本研究選取了Kaggle網(wǎng)站中已有的數(shù)據(jù),這些數(shù)據(jù)包含了葡萄牙語的各分段成績、每條數(shù)據(jù)還包括各種家庭背景的研究對(duì)象以及性別、年齡等32個(gè)屬性特征。由于歷次成績也是不可忽略的,因此我們選取了8個(gè)家庭因素,和學(xué)生的前兩次考試成績,并進(jìn)行了預(yù)處理工作,如表1所示。通常,在構(gòu)建模型之前,為了方便運(yùn)算都需要對(duì)模型提出一些假設(shè):(1)假設(shè)每個(gè)學(xué)生的學(xué)習(xí)水平可以在一定程度上通過歷史水平反映,因?yàn)橐粋€(gè)人的成績平均水平應(yīng)該是有聯(lián)系的,像天氣預(yù)報(bào)或者股市預(yù)測(cè)一樣,學(xué)生歷史成績走勢(shì)圖可以在一定程度上預(yù)測(cè)未來的成績。(2)假設(shè)每個(gè)學(xué)生的影響因素對(duì)他們來說是穩(wěn)定的,也就是說,他們不會(huì)由于突發(fā)情況,學(xué)生的學(xué)習(xí)成績波動(dòng)很大,與歷史史稱不一致。這里先將這650個(gè)數(shù)據(jù)分成測(cè)試集和訓(xùn)練集,訓(xùn)練集是用來模型訓(xùn)練的,選擇其中70%的數(shù)據(jù)來訓(xùn)練模型,測(cè)試集是用來判斷訓(xùn)練好的模型對(duì)新樣本的擬合情況,測(cè)試集選擇30%的數(shù)據(jù)來測(cè)試模型的性能。2.2多元線性回歸模型。我們首先考慮可能影響學(xué)生成績的各種家庭因素,然后使用這些因素作為自變量來建立多元線性回歸模型來預(yù)測(cè)學(xué)生的成績。接下來建立一個(gè)多元線性回歸模型,上述因素作為因變量,用實(shí)驗(yàn)驗(yàn)證上述因素是否對(duì)學(xué)生的成績產(chǎn)生影響。實(shí)驗(yàn)結(jié)果如下所示:MSE:1.10411755616NMES:0.8491703395992.3SVMSVM是支持向量機(jī),SVM的原理是將數(shù)據(jù)在低維空間中完成計(jì)算,然后利用核函數(shù)將輸入空間映射到高維特征空間,這樣做的目的是可以將原本在低維線性不可分的數(shù)據(jù)映射在高維中,這樣就可以在高維特征空間中構(gòu)造最優(yōu)分離超平面將不可分的數(shù)據(jù)劃分開來。實(shí)驗(yàn)結(jié)果如下所示:MSE:2.69185273348NMES:0.6322753574782.4隨機(jī)森林算法。傳統(tǒng)的分類模型雖然原理簡單、容易實(shí)現(xiàn),但是往往不準(zhǔn)確,容易出現(xiàn)過度擬合的問題。因此可以考慮通過聚合多個(gè)模型來提高預(yù)測(cè)準(zhǔn)確性,這種聚合各種模型的方法稱之為組合或集合分類器方法。這樣的方法通常是首先使用訓(xùn)練數(shù)據(jù)構(gòu)建一組基本分類模型,然后通過對(duì)每個(gè)基本分類模型的預(yù)測(cè)值進(jìn)行投票(當(dāng)因變量是一個(gè)離散變量時(shí))或取平均值(當(dāng)因變量是一個(gè)連續(xù)變量時(shí))。為了生成這些組合模型,通常需要生成隨機(jī)向量來控制組合中每個(gè)模型的變化。利用已有的python庫和模塊,我們可以實(shí)現(xiàn)隨機(jī)森林算法。輸入數(shù)據(jù)后,本文調(diào)整了模型中決策樹的最大深度,這樣做的好處是可以防止過度擬合。此外還利用了袋外數(shù)據(jù)以估算OOB估計(jì)值。用于估計(jì)隨機(jī)森林模型的單一決策樹分類的強(qiáng)度以及決策樹之間的相關(guān)性。在調(diào)整了決策樹的最大深度并打開OOB估計(jì)之后,模型的性能得到了進(jìn)一步提高。
3結(jié)論和前景
本文使用來自Kaggle網(wǎng)站的數(shù)據(jù),使用來自多個(gè)家庭因素的數(shù)據(jù)來預(yù)測(cè)學(xué)生的成績。在利用數(shù)據(jù)預(yù)測(cè)學(xué)生成績的過程中,本文采用多元線性回歸模型,支持向量機(jī)算法模型和隨機(jī)森林算法這樣的三種模型進(jìn)行建模和分析,通過對(duì)各種模型的性能,優(yōu)缺點(diǎn)的比較分析,選擇進(jìn)一步優(yōu)化模型。將維度分為兩個(gè)角度進(jìn)行分析,這使得模型性能再次得到改善。最后,通過與其它模型之間進(jìn)行對(duì)比實(shí)驗(yàn)分析,發(fā)現(xiàn)了多元線性回歸在RMSE值上仍具有最佳性能,但在使用本文討論的方法模型優(yōu)化后隨機(jī)森林的預(yù)測(cè)性能得到顯著提高,因此說明了隨機(jī)森林可用于預(yù)測(cè),具有較強(qiáng)的預(yù)測(cè)性。因此,當(dāng)遇到類似問題時(shí),可以綜合考慮隨機(jī)森林計(jì)算模型和多元線性回歸模型進(jìn)行組合預(yù)測(cè)和分析,這樣模型可以達(dá)到更高的預(yù)測(cè)準(zhǔn)確率。
參考文獻(xiàn)
[1]MichaelBowles.Python機(jī)器學(xué)習(xí)預(yù)測(cè)分析核心算法[M].人民郵電出版社,2017,1(1).
[2]董師師,黃哲學(xué).隨機(jī)森林理論淺析[J].集成技術(shù),2013,2(01):1~7.
[3]李杰.數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用研究[D].西安石油大學(xué),2010.
[4]王磊.支持向量機(jī)學(xué)習(xí)算法的若干問題研究[D].電子科技大學(xué),2007.
[5]支持向量機(jī)通俗導(dǎo)論(理解SVM的三層境界).
作者:王岳卿 單位:中國人民大學(xué)附屬中學(xué)
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)管理論文 數(shù)據(jù)安全論文 數(shù)據(jù)庫論文 數(shù)據(jù)誤差 數(shù)據(jù)統(tǒng)計(jì) 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)采集 數(shù)據(jù)分析 心理培訓(xùn) 人文科學(xué)概論