數(shù)據(jù)挖掘技術(shù)在學(xué)習(xí)效能評(píng)價(jià)的作用

時(shí)間:2022-10-17 02:55:24

導(dǎo)語(yǔ):數(shù)據(jù)挖掘技術(shù)在學(xué)習(xí)效能評(píng)價(jià)的作用一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

數(shù)據(jù)挖掘技術(shù)在學(xué)習(xí)效能評(píng)價(jià)的作用

摘要:教育大數(shù)據(jù)的應(yīng)用方興未艾,目前較多的研究應(yīng)用在預(yù)測(cè)學(xué)生表現(xiàn)或挖掘影響因素方面。本論述采用關(guān)聯(lián)算法和決策樹(shù)方法所產(chǎn)生的結(jié)果集來(lái)評(píng)價(jià)教學(xué)質(zhì)量提升程度,為教學(xué)評(píng)價(jià)探索了一條新路。

關(guān)鍵詞:評(píng)價(jià);教學(xué);大數(shù)據(jù);決策

本論述的主要目的是研究如何應(yīng)用數(shù)據(jù)挖掘思維評(píng)價(jià)學(xué)生的課業(yè)成績(jī)及授課質(zhì)量。由于數(shù)據(jù)挖掘算法眾多,主要應(yīng)用決策樹(shù)及關(guān)聯(lián)算法作為研究手段,學(xué)習(xí)數(shù)據(jù)集主要來(lái)自高考成績(jī)、大學(xué)一年級(jí)出勤情況、課堂測(cè)試、討論發(fā)言、作業(yè)成績(jī)及期末考試成績(jī)等與學(xué)業(yè)相關(guān)的數(shù)據(jù),并將這些數(shù)據(jù)作為特征變量,將兩年之后的專(zhuān)業(yè)課成績(jī)總和作為目標(biāo)變量。基本想法是將三年學(xué)生的數(shù)據(jù)作為訓(xùn)練集,以此為依據(jù)每年預(yù)測(cè)新生畢業(yè)時(shí)的專(zhuān)業(yè)課成績(jī)優(yōu)良率,如實(shí)際與預(yù)測(cè)相符,則表明整個(gè)專(zhuān)業(yè)建設(shè)工作處于穩(wěn)定狀態(tài),包括授課質(zhì)量、教學(xué)改革、實(shí)驗(yàn)實(shí)訓(xùn)條件、師資隊(duì)伍建設(shè)等因素的總和處于穩(wěn)定狀態(tài);如實(shí)際大于預(yù)測(cè)或小于預(yù)測(cè),則表明總體專(zhuān)業(yè)建設(shè)質(zhì)量在提升或下降,以便有針對(duì)性地提出加強(qiáng)和改進(jìn)方案。

1數(shù)據(jù)挖掘主要技術(shù)

數(shù)據(jù)挖掘常用的主要技術(shù)有決策樹(shù)法、神經(jīng)網(wǎng)絡(luò)法、遺傳算法、統(tǒng)計(jì)分析方法、可視化方法等。1.1決策樹(shù)。決策樹(shù)法就是以信息論中的互信息(信息增益)原理為基礎(chǔ)尋找數(shù)據(jù)庫(kù)中具有最大信息量的字段建立決策樹(shù)的一個(gè)結(jié)點(diǎn),再根據(jù)不同取值建立樹(shù)的分支;在每個(gè)分支子集中重復(fù)建立下層結(jié)點(diǎn)和分支,這樣便生成一棵決策樹(shù)。然后對(duì)決策樹(shù)進(jìn)行剪枝處理,最終把決策樹(shù)轉(zhuǎn)化為規(guī)則,再利用規(guī)則對(duì)新事例進(jìn)行分類(lèi)。典型的決策樹(shù)方法有分類(lèi)回歸樹(shù)(CART)、D3、C4.5等。該方法輸出結(jié)果容易理解,實(shí)用效果好,影響也較大。1.2神經(jīng)網(wǎng)絡(luò)法。神經(jīng)網(wǎng)絡(luò)法建立在可以自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)上。它是由一系列類(lèi)似于人腦腦神經(jīng)元一樣的處理單元組成,那就是節(jié)點(diǎn)(Node)。這些節(jié)點(diǎn)通過(guò)網(wǎng)絡(luò)彼此互連,如果有數(shù)據(jù)輸入,它們便可以進(jìn)行確定數(shù)據(jù)模式的工作。神經(jīng)網(wǎng)絡(luò)法對(duì)于非線性數(shù)據(jù)具有快速建模能力,其挖掘的基本過(guò)程是先將數(shù)據(jù)聚類(lèi),然后分類(lèi)計(jì)算權(quán)值,神經(jīng)網(wǎng)絡(luò)的知識(shí)體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上,該方法更適合用于非線性數(shù)據(jù)和含噪聲的數(shù)據(jù),在市場(chǎng)數(shù)據(jù)分析和建模方面有廣泛的應(yīng)用。1.3遺傳算法。遺傳算法是一種模擬生物進(jìn)化過(guò)程的算法,由三個(gè)基本算子組成:繁殖、交叉(重組)、變異(突變)。在遺傳算法實(shí)施過(guò)程中,首先對(duì)求解的問(wèn)題進(jìn)行編碼(染色體),產(chǎn)生初始群體;然后計(jì)算個(gè)體的適應(yīng)度,再進(jìn)行染色體的復(fù)制、交換、突變等操作,最后產(chǎn)生新的個(gè)體。經(jīng)過(guò)若干代的遺傳,將得到滿足要求的后代(即問(wèn)題的解)。該方法計(jì)算簡(jiǎn)單,優(yōu)化效果好,適合于聚類(lèi)分析。1.4統(tǒng)計(jì)分析方法。統(tǒng)計(jì)分析方法是利用統(tǒng)計(jì)學(xué)、概率論的原理對(duì)數(shù)據(jù)庫(kù)中的信息進(jìn)行統(tǒng)計(jì)分析,從而找出它們之間的關(guān)系和規(guī)律。常用的統(tǒng)計(jì)分析方法有:判別分析、因子分析、相關(guān)分析、多元回歸分析、偏最小二乘回歸方法等。統(tǒng)計(jì)分析方法是最基本的數(shù)據(jù)挖掘技術(shù)方法之一,可用于分類(lèi)挖掘和聚類(lèi)挖掘。1.5可視化方法。可視化方法是一類(lèi)輔助方法,它采用比較直觀的圖形圖表方式將挖掘出來(lái)的模式表現(xiàn)出來(lái),其大大拓寬了數(shù)據(jù)的表達(dá)和理解力,使用戶對(duì)數(shù)據(jù)的剖析更清楚。

2國(guó)外研究現(xiàn)狀

Alaael-Halees認(rèn)為數(shù)據(jù)挖掘可以增強(qiáng)對(duì)學(xué)習(xí)過(guò)程的理解,要專(zhuān)注于與學(xué)生學(xué)習(xí)過(guò)程相關(guān)變量的識(shí)別、提取和評(píng)估;Han和Kamber[1]認(rèn)為能夠分析不同維度數(shù)據(jù)的數(shù)據(jù)挖掘軟件,對(duì)教育數(shù)據(jù)的分類(lèi),并總結(jié)出挖掘過(guò)程中各種關(guān)系具有極大的推動(dòng)作用。Pandey和Pal[2]選取了來(lái)自印度法扎巴德不同學(xué)院的600名學(xué)生,對(duì)他們的學(xué)習(xí)成績(jī)進(jìn)行了研究。通過(guò)對(duì)學(xué)生的類(lèi)別、語(yǔ)言、背景資格等進(jìn)行分類(lèi),可以發(fā)現(xiàn)新生是否會(huì)成為優(yōu)秀畢業(yè)生;Hijazi和Naqvi[3]對(duì)300名學(xué)生(225名男生)的學(xué)習(xí)成績(jī)進(jìn)行了研究。初期假設(shè)為“學(xué)生上課的態(tài)度、大學(xué)畢業(yè)后每天學(xué)習(xí)的時(shí)間、學(xué)生的家庭收入、學(xué)生母親的年齡及母親的教育程度與學(xué)生的學(xué)習(xí)成績(jī)顯著相關(guān)”。通過(guò)簡(jiǎn)單的線性回歸分析,發(fā)現(xiàn)母親教育程度、學(xué)生家庭收入等因素與學(xué)生學(xué)業(yè)成績(jī)呈高度相關(guān)。Khan[4]對(duì)400名學(xué)生進(jìn)行了研究包括200名男生和200名女生,主要目標(biāo)建立的包含不同測(cè)度值的預(yù)測(cè)值集合,包含認(rèn)知能力、成功的人格和人口統(tǒng)計(jì)學(xué)變量,從而試圖揭示在高中能取得科學(xué)學(xué)科成功的因素,算法選擇基于聚類(lèi)的抽樣技術(shù),研究分為聚類(lèi)組合和隨機(jī)組。研究發(fā)現(xiàn),社會(huì)經(jīng)濟(jì)地位高的女生理科成績(jī)相對(duì)較高,社會(huì)經(jīng)濟(jì)地位低的男生理科成績(jī)總體較高;Galit[5]給出了一個(gè)案例研究,使用學(xué)生的數(shù)據(jù)來(lái)分析他們的學(xué)習(xí)行為,從而預(yù)測(cè)結(jié)果,并在期末考試前關(guān)注處于危險(xiǎn)中的學(xué)生;Al-radaideh,[6]應(yīng)用決策樹(shù)模型預(yù)測(cè)了2005年約旦Yarmouk大學(xué)c++課程學(xué)生的最終成績(jī)。采用ID3、C4.5和NaiveBayes三種不同的分類(lèi)方法。結(jié)果表明,決策樹(shù)模型具有較好的預(yù)測(cè)效果;Pandey和Pal[7]選取了印度法扎巴德R.M.L.Awadh博士學(xué)位學(xué)院的60名學(xué)生,對(duì)他們的學(xué)習(xí)成績(jī)進(jìn)行了研究。通過(guò)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)學(xué)生對(duì)語(yǔ)言選修課的興趣;Ayesha,Mus⁃tafa,Sattar和Khan[8]描述了使用k-means聚類(lèi)算法來(lái)預(yù)測(cè)學(xué)生的學(xué)習(xí)活動(dòng)。數(shù)據(jù)挖掘技術(shù)實(shí)施后所產(chǎn)生的信息對(duì)教師和學(xué)生都有一定的幫助。Bray[9]在他關(guān)于私人輔導(dǎo)及其影響的研究中發(fā)現(xiàn),印度接受私人輔導(dǎo)的學(xué)生比例相對(duì)高于馬來(lái)西亞、新加坡、日本、中國(guó)和斯里蘭卡。研究還發(fā)現(xiàn),家教強(qiáng)度對(duì)學(xué)生的學(xué)業(yè)成績(jī)有促進(jìn)作用,而家教強(qiáng)度的這種變化依賴于集合因素,即社會(huì)經(jīng)濟(jì)條件;Bhardwaj和Pal[10]對(duì)R.M.L.Awadh大學(xué)計(jì)算機(jī)應(yīng)用學(xué)士學(xué)位課程5個(gè)不同學(xué)位學(xué)院的300名學(xué)生的學(xué)習(xí)成績(jī)進(jìn)行了研究。運(yùn)用貝葉斯分類(lèi)方法對(duì)17個(gè)屬性進(jìn)行分類(lèi),發(fā)現(xiàn)學(xué)生高中成績(jī)、居住地點(diǎn)、教學(xué)媒介、母親的資歷、學(xué)生的其他習(xí)慣、家庭年收入和家庭狀況與學(xué)生大學(xué)學(xué)業(yè)成績(jī)呈高度相關(guān)。

3實(shí)例分析

本例選取了財(cái)經(jīng)商貿(mào)學(xué)院2017~20畢業(yè)生共1800名學(xué)生的相關(guān)學(xué)習(xí)記錄數(shù)據(jù)。目標(biāo)變量選取的是二、三年級(jí)的專(zhuān)業(yè)課總成績(jī)(STS),特征變量選取高考成績(jī)(CEEA)、大學(xué)一年級(jí)出勤情況(ATT)、課堂測(cè)試(CTG)、討論發(fā)言(SEM)、作業(yè)成績(jī)(ASS)及期末考試成績(jī)(ESM)。其等級(jí)分類(lèi)表見(jiàn)表1所列。經(jīng)計(jì)算,CEEA與STS的相關(guān)程度最高,可將其作為根節(jié)點(diǎn)。通過(guò)決策樹(shù)的訓(xùn)練,可以為從終端節(jié)點(diǎn)到根節(jié)點(diǎn)的每個(gè)路徑生成一個(gè)分類(lèi)規(guī)則,通過(guò)刪除對(duì)象數(shù)目少于所需數(shù)目的節(jié)點(diǎn)來(lái)執(zhí)行剪枝技術(shù),最后可得到如下if-then的關(guān)聯(lián)規(guī)則見(jiàn)表3所列。

4結(jié)論

本論述利用分類(lèi)任務(wù)對(duì)學(xué)生數(shù)據(jù)庫(kù)進(jìn)行分類(lèi),已有數(shù)據(jù)庫(kù)的基礎(chǔ)上預(yù)測(cè)學(xué)生學(xué)習(xí)成果等級(jí)。由于數(shù)據(jù)分類(lèi)的方法很多,本論述使用決策樹(shù)方法,而信息數(shù)據(jù)從教學(xué)過(guò)程中得到。本研究是一種創(chuàng)新嘗試,希望通過(guò)大數(shù)據(jù)預(yù)測(cè)方法開(kāi)辟新的教學(xué)評(píng)價(jià)之路,對(duì)高等教育評(píng)價(jià)工具的補(bǔ)充具有一定的參考價(jià)值。

作者:張武 康等銀 王德方 單位:蘭州資源環(huán)境職業(yè)技術(shù)學(xué)院