數學教育研究質量分析
時間:2022-07-28 11:21:38
導語:數學教育研究質量分析一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
1.引言
一件合格產品的問世必須經過上百道工序的錘煉、全方位品質監控體系的檢測,同樣地,做教育實證研究,不可缺少的一環是對研究進行“質量把關”,一項好的研究必須是穩定可靠的,多次使用獲得的結果應前后一致,這是教育研究得以推廣使用最基本的前提.在教育研究中,誤差不可避免,但大小有所不同,我們總是盡力縮小隨機誤差到可接受的程度,從而使得研究結果更準確可靠.一項研究結果的穩定性和一致性如何、可靠性有多大、能在多大的程度上保證研究工具的精密是研究中最不容忽視的基本問題,這個問題即是研究的信度.不同研究的信度可能存在高低程度上的不同,教育實證研究應當追求更高的信度以保證得出研究結論的客觀性、科學性和可推廣性.本文將揭示信度理論的原理,從信度的理論定義走向操作定義,并作進一步細化,從平行測驗的獲得方法重復施測、復本替代及等值分半等得到數學教育研究中的不同信度類型,深化對信度概念的理解,以期更有效地做好數學教育定量實證研究.
2.全方位認識信度
2.1從誤差角度———理論定義
對于實證取向的數學教育研究,傾向于用數據揭示現象背后的規律,從量的角度客觀還原事物本來面目,然而,不可避免地在數據收集、數據處理和數據分析過程中出現錯誤,產生誤差,影響研究結果的可靠性.“誤差”一詞源于自然科學研究中的物理學用語,可以借用來幫助理解信度的理論定義.在教育實證研究中,被試在某一測量屬性上的真實值稱為真分數(T),施測直接獲得的實際值實測分數(X),兩者之間的“距離”就是測量誤差(E),建立誤差模型X=T+E,其中,E和X是隨機變量且相互獨立.由于我們要考察的不是某一被試的分數,而是一組測驗分數的整體特性,故將上式中的分數換成分數方差形式,即進行方差正交分解σ2X=σ2T+σ2E,信度反映了測驗結果的穩定性和一致性,因此信度系數理論上可定義為一組測驗真分數方差與實測方差的比值,即ρXX=σ2Tσ2X=1-σ2Eσ2X,顯然該定義說明測量結果可靠程度關鍵在于實測分數的方差有多少是由個體真分數方差引起的,這一比例越高,隨機誤差的方差比例就越低,研究結果的穩定性與一致性越強,研究的信度越高,反之,研究的效度就低.從誤差角度來看,要想得到信度系數,必須將真分數從實測分數中分離,所謂真分數就是沒有誤差的值,或者說是大量(理論上是無限的)實驗結果的平均分數,在測量屬性一定時,對某個特定的被試而言真分數T是一個常數,具有穩定性.然而在教育研究中,實際操作中誤差不可避免,試驗次數也不可能達到無限次,真分數T和隨機誤差都無法通過樣本來計算,因而在真分數理論框架內,σ2T(或者σ2E)是未知量.就是說,不能直接使用信度的定義公式來計算信度,這是看似簡單的信度卻引出諸多問題的原因.因此,盡管信度的理論定義公式是基于真分數本身的,直接抓住控制誤差這一本質,具有指導性的理論價值,但可操作性不強.我們有必要從不同角度研究信度的分類,將理論定義變得可操作、可計算.
2.2從相關角度———操作定義
既然真分數無法直接求解,不妨以退為進,設法找一些可以實際獲得的已知量來代替信度公式中的未知量,由于實測分數是實驗過程中唯一可直接獲得的資料,做法是從實測分數出發來定義信度,使信度變得實際可操作.理論上看,同一組被試在兩平行測驗上的實測分數是相同的,然而在實際研究中,同一組被試在兩平行測驗上實測分數往往存在差異,這種差異正是由測量誤差決定的,如果兩個實測分數高度接近,可以推論測量誤差很小,測量是可靠的.因而,一個合乎邏輯的想法是用兩個平行測驗實測分數之間的相關來定義信度,間接來推論測驗控制誤差的能力,該定義具有可操作性.從相關角度來看,信度是通過計算兩平行測驗得分的相關系數得到的,信度系數介于-1到1之間,信度系數越大,測驗越可靠.如果信度為負值,說明在一個平行測驗中得分高的被試在另一個平行測驗中得分低,當然這種情況很少出現,信度系數一般介于0到1之間,不同目的的測驗對信度系數的要求不同,例如一般標準學業成績考試要求信度在0.90以上,標準智力考試的信度應達到0.85以上,個性考試和興趣考試則較低,達到0.70-0.80即可.用相關法評估信度,用一個0至1之間的數,依據數值的大小刻畫研究的效度高低,這種方法可操作性很強,關鍵點和難點就在于平行測驗的獲得.
2.3平行測驗的獲得———三種方法
要從操作層面得到測驗的信度指標,就要求得兩平行測驗的相關性,前提是存在兩組平行測驗,可以說,解決信度問題的能力就取決于獲得平行測驗的能力.平行測驗測的是同一被試屬性,要求對同一足夠大的被試施測后,這些實測分數的平均數和方差都相等,且所有測驗與其他任一測驗的相關也相等.這是按照統計學方法進行檢驗,在數學教育研究中,我們還應對測驗內容進行分析.(1)從時間變量來看———重測信度如果一個測量工具和所測屬性是穩定可靠的,那么測量結果應當不以時間為轉移,前后一致.從這個角度出發,用同一測驗對同一組被試在不同時間重復實測兩次,測驗的形式和內容相同,就得到一組平行測驗,計算兩次實測分數的相關系數得到測驗的信度,稱為重測信度.根據重測信度的高低,可以得知測驗結果跨時距的穩定性程度,因此重測信度也成為穩定系數.例如,為了考察學生對學習數學的興趣,就需要確定一定時間間隔,在使用某種教學方式前后分別對學生進行施測,考察兩次實測分數之間的相關性,即求重測信度是獲得平行測驗最簡單的方法,然而由于使用的是同一套測驗,形式與內容完全一樣,測驗結果不可避免地受到練習和記憶的影響,加之時間間隔的確定不太容易,因此重測信度存在明顯的局限性,測量誤差較大.(2)從功能等值來看———復本信度為了避免使用同一測驗重測帶來的記憶效應和練習效應,一種自然的想法是使用兩個功能相同的測驗對同一組被試對象進行施測,計算兩個版本得分的相關系數,這種類型信度稱為復本信度.復本信度系數越高,表示兩個版本的實測分數基本相同,可以相互替代;復本信度系數低,則說明兩版本的實測分數不一樣,不能互相替代.例如,在許多正規考試中,都會出A、B兩套試卷,B卷作為備用卷,其功能在誤差允許范圍內與A卷是等值的.考察兩個版本試卷的功能是否等同,就需要求出A卷得分與B卷得分的相關系數作為兩個版本在功能上的等價程度,即復本信度.在可以被接受的信度范圍內,兩套試卷互為復本,相互替代,以備不時之需.實際上,復本信度的高低反映了兩個互為復本的測驗在效能上的等價程度,而不是直接反映一個測驗本身受隨機誤差影響的大小.通常要求兩個版本在題目內容、形式、題數、難度等方面保持一致,這樣才能保證整體測驗的效能類似,從而提高復本信度系數,因此復本信度也成為等值系數.然而,在教育研究中,兩個測驗具體的項目難以保證“平行等值性”,內容抽樣和難度匹配難以做到嚴格等同,并且編制兩份復本測驗所花費的人力物力成倍地增加,成本很高.(3)從內部屬性來看———內部一致性信度重測信度和復本信度都需要前后施測兩次,且復本信度還需要兩種形式的測題.為了減少時間和成本損耗,循著使用單一形式測驗只施測一次的思路,不妨從測題內部的一致性著手考察測驗的信度,這樣得到的信度稱為內部一致性信度或同質信度.如果測驗內部各測題間相關一致性強,則認為是同質的,說明測驗的所有成分都在集中力量考察同一屬性,那么內部一致性信度就高;相反地,各測題相關較低,則認為測驗為異質的,測驗的內部一致性信度就低.內部一致性信度擺脫了傳統上信度系數的定義———用兩平行測驗向同一組被試前后施測兩次獲得兩批實測分數的相關性,另辟蹊徑,從內部屬性角度出發,用單一形式測驗只施測一次求出信度系數,其原理還是使用了平行測驗,具體獲得平行測驗的方法如下:將一個完整的測驗分為等值的兩半,通常是奇偶分半法,即采用題號的奇偶數作為分組標準,分別兩半測驗分數之間的相關,得到的信度稱為分半信度.這樣就實現了只用一個測驗,只對被試組施測一次即可求出信度,既不必對同一項目重復施測又免去編制復本的精力,省時省力.分半法的關鍵是在兩個半測驗上使用了平行測驗的原理,然而這樣使得實際測驗項目減少了一半,由于信度受測驗長度的影響,測驗越長,信度越高,因此分半信度低估了測驗的信度系數,需要對其進行矯正.一般采用斯皮爾曼-布朗公式(Spearman-Brown)rXX=2rhh1+rhh進行矯正,其中rhh表示分半信度系數,rXX是測驗在原長度時的信度系數估計值,使用該公式要求測驗兩半嚴格平行,即測驗的平均數、標準差、項目的組間相關等高度相似時;在實際操作中如果兩個分半測驗的方差不等,可以采用費拉南根公式(Flanagan)rXX=21-S2a+S2bS2()t和盧龍公式(Rulon)rXX=1-S2dS2t,其中S2a與S2b表示兩分半測題組得分的方差,S2d為兩分半測驗實測分數之差的方差,S2t是整個測驗的總方差.這兩個公式不要求分半測驗分數的方差相等,弱化了限制條件,操作性更強.然而,分半法中每種分法都會產生有微小差別的r估計量,為了克服這種弊端,研究者從方差分析的角度提出了以試題統計量為轉移的信度系數求法,可避免任意兩分半的誤差.假設全測驗有k個項目,通過考察任意兩個項目之間的相關性,求得信度系數———克隆巴赫α系數=kk-11-∑S2XiS2()X,其中S2Xi表示第Xi題得分的方差,S2X為測驗得分的總方差,k為測題數目,克隆巴赫α系數公式是一個適用廣泛的求單一形式測驗信度系數的通式,構成測驗的項目可以是0-1二分值記分,也可以是非二分值記分;可以是平行項目,也可以是非平行項目.如果一個測驗全是以0-1二分值記分的項目組成,則上式每個項目實測分數的方差就等于用該項目上的通過率p與未通過率q的積,公式變為rXX=kk-11-∑pqS2()X,稱為庫德-理查遜公式(KR-20),它是α系數在二分值記分方式上的特例.從分半信度到α系數和KR-20公式,這一大類單一形式測驗內部一致性信度都考察測驗的組成成分,直至最基本的單位即項目之間的相關性.如果它們的相關一致性強,說明測驗的所有成分都集中于考察同一屬性特征,這樣測驗的信度系數取值高,測驗質量好.內部一致性信度在操作上采用了單一形式測驗,但本質上仍是求取平行測驗間分數的相關,因而與重測信度系數和復本信度系數一樣,都是一組實現平行性要求的策略和方法.從內部屬性角度考察獲得平行測驗的方法,還能從信度和效度兩方面說明問題.它從信度與效度的關系角度提出了對測驗量表內部一致性檢驗的思路,效度從根本上受到信度的限制,如果一個測量量表是有效的,這個量表就必須是前后一致的.重測信度、復本信度、內部一致性信度是主要的三類信度指標,用來對研究質量進行分析各有優點和特殊適用范圍,嚴格地說,都是信度系數的大體估計值.一般地,內部一致性系數大于復本信度,復本信度大于重測信度,復本信度和重測信度兩種估計方法中,屬于測量誤差的因素多與內部一致性信度.在具體操作中,用來估計信度的方法應當與研究的目的相吻合,有時還需把幾種方法加以綜合應用,貫穿統一起來,使得在真分數理論的框架下,獲得對信度完整透徹的理解和運用.
3.教材尋根
數據是數學教育實證研究的命門,沒有量化數據的支撐何談研究的客觀、可靠、有效、可推廣.然而從“量”的角度客觀還原事物本質的同時,不可避免地會產生隨機誤差,使得研究信度大大降低.因此無論是數學教育研究還是概率統計相關知識的中學數學教學,都會強調控制隨機誤差,確保所獲得資料的準確性和可靠性,提高研究的信度.鑒于信度原理的復雜性,信度在中學概率統計部分的體現,遠遠不如方差分析、相關系數、回歸分析這般明顯,但教材中對信度概念的處理、信度思想的滲透在細微處可見一斑.例如教材中統計部分,用樣本估計總體所提及到抽取樣本,三種抽樣方法往往只有“好壞之分”,而不是“對錯之分”,評價抽樣方法的優劣應該以樣本的代表性為標準,為了使樣本具有代表性,抽樣規則應客觀、公正,保證總體中每個單元被抽中的概率相等,因此等可能性是三種抽樣方法賴以存在的前提和根本,這樣的抽樣結果才客觀公正、不失代表性,提高了研究的信度.再如教材中概率部分,頻率在大量重復試驗的前提下可以近似地作為這個事件的概率,這就是頻率與概率的關系,而“大量重復試驗”正是為了減少隨機誤差,提高了研究的信度,保證了試驗結果———概率的精準與合理,概率從數量上反映了隨機事件發生可能性的大小.統計與概率關系密切,理性和嚴謹是數學學科的特點,借助概率知識,通過邏輯分析和運算過程,讓三種抽樣方法的“等概率性”變得有理有據,促進學生進一步體會抽樣規則的科學、合理之處,減少隨機誤差和偶然,保證研究的高質量.
參考文獻
[1]顧海根.心理與教育測量[M].北京:北京大學出版社,2008:9-20.
[2]張靈,徐章韜.微言要義之抽樣方法.數學通報[J].2018(5):27-29,33.
作者:徐章韜 梁玉華 單位:華中科技大學附屬中學 中師范大學數學與統計學學院
- 上一篇:中資商業銀行跨境融資業務發展研究
- 下一篇:中學物理教育與創造性思維培養策略