閱卷監測管理論文

時間:2022-08-20 03:49:00

導語:閱卷監測管理論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

閱卷監測管理論文

上文說過,大規模考試中作文評分的誤差控制包括三個不可缺少的基本環節,這就是評分標準、評分方法和閱卷管理。監測系統是閱卷管理系統中一個有特殊意義的組成部分。一次大規模作文考試,如果沒有一套完善的管理制度,沒有一個有效的監測系統,則任何評分標準的厘定、評分方法的改進都只是一句空話。

在測試研究中,考務管理是一個專門的領域;在測試機構中,考務管理是一個有特定職能的分支機構。考慮到本刊的讀者對象,以下只作約略的概述。

1.大規模作文考試的閱卷管理系統

大規模作文考試的閱卷管理系統應承擔以下三個方面的職責:a.閱卷的業務領導,b.閱卷人員的行政管理,c.閱卷質量的監測。在現階段,我國比較完善的閱卷管理程度可以示意如下:

作文閱卷管理示意圖

(附圖{圖})

現代科技的發展,為作文閱卷的管理提供了重要的輔助手段。借助這種手段,閱卷管理的主要工作有:

①試卷的隨機編排

試卷的隨機編排就是把不同學校的考生打亂混合排列。有了電腦,這項工作在技術上是不難解決的。重點學校與非重點學校之間,水平可以相差很大,如果不解決隨機編排問題,則監測系統的數據將失去代表性,既使得這些數據缺乏應有的說服力,也容易出現盲目的調控。有了隨機編排,不但閱卷員的評分狀況能夠得到比較客觀的反映,而且就閱卷員本人來說,由于一本試卷(即同一考場中)兼有各類學校的考生作文,可以大大減弱評分心理的位置效應(參閱《系列之一》)。此舉可以消除評分的系統誤差,即各校的平均成績與其實際水平大體接近,但還不能遏制評分的隨機誤差(參閱《系列之一》文末注釋)。

②閱卷員的選擇與培訓

《系列之三》所披露的數字表明,閱卷人員決不是“年齡大、職稱高”才好。閱卷隊伍的形成應該是一個選擇的過程,由于大規模考試作文評分的特點與困難,閱卷者應該是一支半專業化的隊伍,為此,需要逐步建立閱卷人員檔案。“高考作文評分誤差控制”課題組的試驗省分有的正考慮實行“閱卷員證書”制度(國外已有),這是條很有價值的措施。

在選擇閱卷人員的基礎上還要進行培訓。以下兩項調查反映了短期培訓的效果。

調查A

取各類作文10篇,15名閱卷員在培訓前后兩次重評。結果如下:

培訓前培訓后篇平均標準差4.843.97總體標準差3.974.63

可見經過培訓,閱卷員評分的一致性有所提高,在拉開分數距離方面情況有所改善。

調查B

取各類作文60篇,分成對等兩組,16名閱卷員先評第一組(作為培訓材料),相隔3日再評第二組,結果如下:

第一次第二次篇平均標準差3.4673.105

觀測結果與調查A相近。

培訓可以有兩種方式:a.短期集中培訓,b.結合閱卷過程進行。后者一般都與樣本卷討論和典型卷討論合并進行,將在下面專門介紹。

③樣本卷的選定及其策略

即使有了比較完備的評分參照量表(參閱上期),每次大規模考試的樣本卷仍是不可少的。這是因為每年的試題都有其個性,有其需要特殊處理的矛盾,需要根據當年試題情況編制樣本卷系列予以解決。

樣本卷的功能,一是使評分標準明確化、具體化,二是針對影響閱卷穩定的心理因素予以盡可能的控制。因此編制樣本卷系列,在著眼點方面,在策略方面,和參照量表的編制可以有所不同。參照量表的編制要遵循“等距性”原則,即各典型例卷之間,如果按百分制計算,其分距大體上是相等的;樣本卷系列的制訂,則可以進一步著眼于“分界線”和“分歧點”。

例如:“趨中傾向”(參閱《系列之一》)是大規模考試評分中一個比較突出的問題,針對這種情況,1991年江西省在高考作文評分選定樣本卷時采取了以下對策:a.一、二類樣本卷取下限,b.三類卷取上、下限。采取上述措施的結果,各類試卷的分布狀況有所改善:類別一二三四五百分比22243275

高考作文每年分值不同,為了便于比較,重新劃分分數段使之能與1990年相對應,結果如下:

(91)29---35(91)20---28(91)12---19(91)1---11

(90)33---40(90)23---32(90)14---22(90)1---13

199110%46%36%8%

90(綜)6%58%27%9%

90(綜)11%62%22%5%

從表中的數據可以看出,高分數段的情況沒有顯著變化,而第二檔次的人數有大幅度下降,第三檔的數字有明顯上升。從整體上看,打保險分,送“及格”分的傾向有所抑制。

再取同是采用分項評分法的90年文科考生分與91年全省考生抽樣統計的平均數、標準差、變差系數(標準差/平均分)相比,結果如下:

平均分標準差變差系數90年(滿分40分)24.656.6526.98%91(滿分35分)20.176.4131.78%

統計表明,變差系數有所增加,即分數離散狀況好于前一年。

“分歧點”就是容易引起分歧的問題。每年閱卷,都可以發現“有的作文好評,有的作文難評”現象。對于某些作文,評分比較容易趨于一致,對于另一些作文,看法往往分歧。歸納、分析、研究這些評分差別較大的試卷,及時提出來討論,統一認識,納入樣本系列,是極其重要的。

④閱卷流程管理

根據我國慣例,大規模作文考試通常在暑期或接近暑期進行。在高溫、大兵團突擊作戰的閱卷條件下,應該特別注意閱卷人員的生活安排和保健措施。就閱卷流程管理而言,要特別注意以下兩項工作:

a.均衡投卷,控制速度

閱卷速度必須均勻,前松后緊之類都必然擴大誤差。考慮到閱卷員熟練程度不斷提高,可以先略慢后稍快,但各組之間必須同步前進。要嚴禁各組攀比速度,領導小組要掌握進度,但決不應公布進度,一公布必然對較慢的組產生壓力而滋生誤差。此外,如果閱卷人員之間存在著利害關系(相互競爭的學校、區縣等),試卷的投放還要注意流向,以免人為因素干擾。

閱卷的速度與質量有直接關系,速度過快必然評估粗糙。由于目前實行的承包制以及閱卷數量與報酬掛鉤的原因,閱卷速度不斷加快。據了解,高考作文有的地區個別閱卷員的速度竟達到日300份以上,在這種情況下,閱卷質量是無法得到保證的。承包制不適用于作文閱卷,必須予以解決。

b.制訂行為準則

“多元評定法”是減小各評閱者評分誤差的重要措施。根據賽蒙茲(Symonds)的研究,一組作文若由兩人評定,其相關系數為0.55,經四人評定后再由另四人評定,則相關系數可達0.82,若經八人評定后再評定,相關系數可以增加到0.90。目前,美國威斯曼的“快速印象法”和英國倫敦教育研究所的實驗都要求一份試卷經四人評定。在我國,一般原則上規定一份試卷應由兩人共評,要求已經很低,但實際上仍無法做到。在這種情況下,應該就“對子”行為作出一些規定,例如至少要求兩人先共評若干份,分評后每天必須相互抽查各等級的作文若干篇,發現問題及時磋商,并有相應的檢查措施,等等。這已經是最低限度的要求。

紀律渙散、工作態度不嚴肅,是無法保證閱卷質量的。因此,還應當制訂《閱卷員守則》,并且有相應的獎懲制度。對于不合格的閱卷人員必須堅決汰除。課題組各試驗省份都有被判“紅牌”者,對維護閱卷的嚴肅性有良好的作用。

⑤監測及復查

由于這個問題的重要性,將在下文專門介紹。

2.建立、健全監測系統

大規模作文考試如果沒有一個有效的監測系統,則任何研究、條例和改進措施將毫無意義。我國長期慣用的“復查”就是一種監測方法,不過隨著科技手段的進步,監測手段日益豐富,怎樣借助科技手段來發展監測系統就成為人們研究的一個課題。

科技手段應用于評分監測,有“隱形筆”等[注],不過目前主要是電腦。國外有利用電腦直接進行調控的,即以試卷中某些客觀性較強試題的得分為參照系,如果發現某地區或某閱卷員的主觀題給分與其它地區或其他閱卷員的評分平均值相比明顯偏低或偏高,可以通過數學方法加以調整。我國英語高考也曾采用過這種方法。但語文是一門綜合性很強的學科,其測試也屬于異質性測試,經過多次測算,各試題(包括作文)的得分之間沒有必然聯系。即以寫作能力而論,母語和外語不同,母語作文的能力層次要求大大高于外語,高層次能力(如立意)與低層次能力(如書寫)之間,得分也沒有必然聯系。因此用其它試題作參照系的方法就作文評分而論是不科學的,也是不可取的。再就各閱卷員之間的評分來說,由于評分對象的差別(例如一市集中閱卷,各區之間的水平就會有所不同),很難據此就作出“偏嚴”、“偏松”的判斷,如果驟然利用電腦直接調整,很難避免盲目調控。因此,至少就作文評分而言,機器只能及時發現問題,最后的裁斷還必須由人工(專家)來做出。

當前,利用電腦監測主要有以下幾種方法:

①指標監測

用以監測的指標主要有“平均分”和“標準差”。平均分可以顯示出閱卷者給分有沒有偏高或偏低的問題;標準差顯示給分的離散程度,顯示出有沒有“打保險分”的趨向。將閱卷員每日每份試卷的給分及時輸入電腦,如有問題,就可以及時發現。

②參照系監測

由核心組先隨機抽閱一批試卷,將數據輸入電腦,以所形成的曲線作為參照系。參照系有允許浮動的一定幅度。閱卷員每日評分結果在圖形顯示上如果超越了幅度,電腦就能及時檢出以備復查。

③“暗點”監測

即由核心組隨機抽閱一批試卷,秘密輸入電腦,閱卷員評此卷時,如果給分差距過大,就能及時發現檢出,顯示該閱卷員所評其它試卷也可能存在問題。本方法原理雖然簡單,但頗為有效。

④內部相關監測

這是我國試驗分項評分時所創造的一種方法。其原理是各分項得分之間往往具有一定的相關性,由此設計了數學模型,把測算結果稱為U值。U值過大或過小,都可以提供信息供復查組審核、裁奪。此方法1992年在河北省試驗與指標監測法同時采用,當年結果如下(X撥為平均分S為標準差):

試卷增加分減少分增加分減少分平均每

袋數數篇數數篇數數總和數總和袋改動X撥出線14772920912724S出線92615732611U值小13505316611921.9U值大861182005131.4

說明:平均分低于控制線的11袋,經復查,分數變動269,平均每袋24.5分;高于控制的3袋,分數變動67分,平均每袋22.3分。

U值方法尚在進一步完善和論證的過程之中,但實踐證明它在發現問題方面是有效的。由此也可以看出,在平均分、標準差均未出線的范圍內還存在著大量誤差,需要研究對策。這也正是作文評分監測系統科研的任務。[注]該筆書寫的符號,只有借助特定燈具才能顯示。這樣,共評者彼此不知道對方所給的成績,而由監測者(或組長)裁奪。如果差別過大,則需重評。