期刊審稿專家評價方法及有效性

時間:2022-11-02 02:39:17

導(dǎo)語:期刊審稿專家評價方法及有效性一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

期刊審稿專家評價方法及有效性

1引言

同行評議是科學(xué)評價最重要、最普遍的方式,在論文評審、項目遴選、職稱評定、學(xué)術(shù)榮譽授予等眾多科學(xué)評價過程中被廣泛采用,用于鑒別科研價值、保障科研質(zhì)量[1]。對于期刊論文評審,審稿專家對研究工作的重要性、有效性、創(chuàng)新性等進行評定,同時向作者提供有關(guān)錯誤校正、理論/方法改進等方面的建議[2]。有效的同行評議過程是保證稿件質(zhì)量、提高期刊聲譽與影響力的重要保障[3,4]。同行評議相關(guān)問題得到了國內(nèi)外學(xué)者們比較廣泛的關(guān)注與研究[5]??紤]到同行評議結(jié)果受專家個體差異性的影響,如主觀意志的影響、專業(yè)知識水平的局限以及評議過程中其他偶然因素,容易產(chǎn)生偏見與片面性[1],學(xué)者們開始著手研究評議專家“反評估”方法,以期評估專家的評審行為,為評議專家遴選提供參考,以盡可能提高同行評議結(jié)果的公平與公正[6-12]。文獻[6]基于評議專家的基本情況、修養(yǎng)和工作業(yè)績?nèi)齻€方面對評議專家進行評估,奠定了評議專家“反評估”的基本指標體系。作者指出,工作業(yè)績指標可基于歷史評議數(shù)據(jù)計算得出,具有較好的可獲得性。其下屬指標包括評議項目累計數(shù)、(評分數(shù)據(jù)的)離散率、命中率(推薦項目數(shù)/立項項目數(shù))、算數(shù)偏差(與其他專家意見的偏差)等維度。文獻[7-12]在文獻[6]的框架下,從數(shù)學(xué)意義與物理意義討論了指標體系的合理性[7],設(shè)計了更加細粒度的指標體系及相應(yīng)的權(quán)重分配[8,9],對評估數(shù)據(jù)進行預(yù)處理以提高評估可靠性[10],基于不同案例對指標體系進行驗證分析[7-9,11]。文獻[12]針對期刊評議,從審稿時長、審稿意見長度以及審稿意見與編輯意見的一致性三個維度出發(fā),設(shè)計了F3指數(shù)用于輔助期刊評審人選擇,整體而言也并未超出文獻[6]所給出的指標體系范疇。上述工作較大地推進了評議專家評估指標體系的建立與應(yīng)用,然而還存在以下可改進之處:(1)文獻[6]中“工作業(yè)績”指標的核心理念為,在存在大量評議數(shù)據(jù)時,評議專家的業(yè)績可基于該專家與其他專家的一致性程度進行刻畫(一致性越高業(yè)績更好)。因而,在文獻[6]的框架下,現(xiàn)有研究中工作業(yè)績指標均只考慮了蘊含于評議過程與評議結(jié)果數(shù)據(jù)中的專家知識,而未考慮更廣大的學(xué)術(shù)共同體的認可度。(2)現(xiàn)有研究對指標的驗證分析往往退化為指標的應(yīng)用分析。即針對某組評議案例計算指標值,進而從數(shù)值分布的角度分析指標的合理性。缺乏評議專家(的評分)與評議對象(如被學(xué)術(shù)共同體認可程度)的交叉驗證。針對上述問題,本文針對期刊評議,同時考慮蘊含于評議數(shù)據(jù)中的專家知識與蘊含于發(fā)表文獻的計量數(shù)據(jù)中的學(xué)術(shù)共同體知識,提出一種審稿專家一致性評價方法,基于《長江流域資源與環(huán)境》期刊評議數(shù)據(jù)與已發(fā)論文的計量數(shù)據(jù)計算一致性指數(shù),設(shè)計假設(shè)檢驗方法檢驗一致性更高的專家是否能對論文做出更為準確的評價。本文的方法有望輔助期刊編輯從數(shù)據(jù)的角度了解審稿專家,從而為專家遴選提供參考。

2一致性指數(shù)

針對期刊論文評議,本文的核心思想為,審稿專家的評議意見應(yīng)契合于論文的學(xué)術(shù)水平。在評審階段,論文的學(xué)術(shù)水平應(yīng)契合于評審論文的(所有)專家的整體意見;后,論文的學(xué)術(shù)水平應(yīng)契合于學(xué)術(shù)共同體的認可程度。換言之,審稿專家的業(yè)績可基于其與(其他)審稿專家的一致性程度(簡稱“評審一致性”)以及其與學(xué)術(shù)共同體認可度的一致性程度(簡稱“學(xué)術(shù)共同體一致性”)刻畫。因而,本文的一致性指數(shù)C定義如公式1所示:(1)rpC=C+−C(1)其中,Cr與Cp分別為評審一致性與學(xué)術(shù)共同體一致性,一致性指數(shù)C為Cr與Cp的線性疊加,(0,1)為疊加權(quán)重,用于決定評審一致性與學(xué)術(shù)共同體一致性在最終一致性指數(shù)中的占比。在實際應(yīng)用中,可設(shè)置α=0.5以表達評審一致性與學(xué)術(shù)共同體一致性在構(gòu)成一致性指數(shù)時同等重要[13]。對于評審一致性,考慮到每篇論文需要多個專家評審,大部分專家具備審理多篇論文的經(jīng)歷,令1,mS=ss,isS為專家對其所審理的論文i的評分,1,mE=ee,ieE為審理論文i的所有專家評分的平均值,則評審一致性Cr定義如公式2所示:(,)rC=rSE(2)其中,r()[−1,1]返還兩個給定向量的皮爾森相關(guān)性系數(shù)[14],用于反映兩個變量的一致性程度。si的取值決定于審稿數(shù)據(jù)所使用的評分量表?,F(xiàn)行審稿制度中,李克特量表由于其易于編制和較高的信度成為應(yīng)用最為廣泛的一種量表形式。而我國期刊評審主要采用李克特量表的3、4與5分制量表[15]。具體到本文的研究,由于后續(xù)所使用的《長江流域資源與環(huán)境》期刊的評議數(shù)據(jù)遵循4分制量表,公式2中,{1,2,3,4}iisSs(其中1至4分別對應(yīng)拒稿,重大修改,修改后錄用,錄用)。在使用論文平均值表征所有審稿專家的綜合意見的情況下,公式2表達了專家的評審歷史中,對論文的評價與其他專家的一致性程度。對于學(xué)術(shù)共同體一致性,后,論文的下載、引用等計量指標可表征學(xué)術(shù)共同體對論文的關(guān)注、認可程度[16]。本文基于論文的被引次數(shù)表征論文被學(xué)術(shù)共同體的認可程度。其中“認可程度”不對論文的質(zhì)量或?qū)W術(shù)創(chuàng)新性進行評價,而代表學(xué)術(shù)共同體認為該論文對推進某方面研究具備(正向或負向)借鑒意義。因而,給定1,mTC=tctc,itcTC為i的被引次數(shù),則學(xué)術(shù)共同體一致性Cp定義如公式3所示:(,)pC=rSTC(3)公式3表達了有專家審理且發(fā)表的論文,專家對論文的評價與學(xué)術(shù)共同體對論文認可度的一致性程度。由一致性指數(shù)的定義可知,一致性指數(shù)是文獻[6]中“工作業(yè)績”指標下屬“算數(shù)偏差”指標的改進與擴展。一致性指數(shù)的計算蘊含了專家需具備一定的審稿量(累計數(shù)),論文評分具備一定的離散度(否則無法計算一致性1),所評審論文具有一定的命中率(即錄用率,否則無法計算共同體一致性)。換言之,本文所設(shè)計的一致性指數(shù)是一個較為綜合的工作業(yè)績指標。下面將探討一致性指數(shù)是否可用于表征審稿專家對論文做出準確評價的能力。

3有效性分析

3.1檢驗方法。基于一致性指數(shù)的定義可知,相較而言,一致性更高的專家應(yīng)對論文的評價應(yīng)更契合于(其他)審稿專家以及學(xué)術(shù)共同體對論文的認知??紤]到后,對論文進行“審閱”的讀者比審稿專家更多,同時也更具多樣性(學(xué)術(shù)領(lǐng)域多樣性、學(xué)術(shù)成就多樣性等),本文基于已的被引次數(shù)檢驗一致性指數(shù)的有效性。具體而言,給定專家集合R,評分集合S、發(fā)表文獻集合P及其對應(yīng)的被引次數(shù)集合TC,首先基于公式1計算所有審稿專家的一致性指數(shù)集合C。對iRR,令ijsS為專家Ri對論文jpP的評分,ijtcTC為專家Ri對論文pj的評分,則專家區(qū)分度集合D定義如公式4所示:{{}{}}hliiD=AvgTCAvgTC(4)其中,Avg{}返還給定數(shù)值集合的均值,,,,hlijiijikiiktcTCsHtcTCsL,H與L用于定義高/低評分論文,如可定義H={3,4},L={1,2}用于表達直接錄用或修改后錄用為高評分論文,否則為低評分論文。由公式4可知,對于每個審稿專家,專家區(qū)分度給出了該專家所評審的高評分論文的平均被引次數(shù)相對低評分論文的平均被引次數(shù)的倍數(shù)關(guān)系,該值越大,表明專家區(qū)分論文的學(xué)術(shù)共同體認可度的能力越強。令idD為專家Ri的區(qū)分度,icC為專家Ri的一致性指數(shù),定義{|}hiiD=dDc為高一致性專家的區(qū)分度集合,其中為給定參數(shù),用于決定高一致性專家的最低一致性指數(shù)值。令lhD=D−D為(相對)低一致性專家的區(qū)分度集合。使用Mann-WhitneyU檢驗Dh與Dl是否具有顯著的差別,以回答高一致性專家是否可更有效地區(qū)分論文的學(xué)術(shù)共同體認可度??紤]到一致性指數(shù)的定義中“學(xué)術(shù)共同體一致性”作為合成指標之一,一致性指數(shù)的計算過程理應(yīng)邏輯蘊含“高評分論文組平均被引次數(shù)高于低評分論文組平均被引次數(shù)”的趨勢,本文進一步從數(shù)據(jù)上將一致性指數(shù)的計算過程與檢驗過程進行物理分割。針對給定數(shù)據(jù)集,基于給定年份Y將數(shù)據(jù)分割為兩個互斥的子集?;谠缬诨虻扔谠撃攴莸臄?shù)據(jù)集計算高一致性專家hpreR的區(qū)分度hpreD,進而基于晚于該年份的數(shù)據(jù)集計算hpreR中的專家在后續(xù)年份中的區(qū)分度hpstD,使用Mann-WhitneyU檢驗hpreD與hpstD是否具有顯著的差別。此方法具有兩個優(yōu)勢:1)由于數(shù)據(jù)的物理分割,基于更早數(shù)據(jù)計算的一致性指數(shù)將不再蘊含新數(shù)據(jù)中“高評分論文組平均被引次數(shù)高于低評分論文組平均被引次數(shù)”的趨勢;2)檢驗結(jié)果可用于回答“具備高一致性指數(shù)的審稿專家對論文學(xué)術(shù)共同體認可度的辨識能力隨時間的推移可以得到保持”,從而驗證基于歷史數(shù)據(jù)計算一致性指數(shù)并輔助審稿專家遴選是否具備可行性。3.2樣本數(shù)據(jù)。本文將基于《長江流域資源與環(huán)境》期刊評議數(shù)據(jù)與已發(fā)論文的被引數(shù)據(jù)計算審稿專家一致性指數(shù),并對專家區(qū)分度進行檢驗?!堕L江流域資源與環(huán)境》創(chuàng)辦于1992年,刊物立足于長江流域,面向國內(nèi)外,圍繞長江流域的資源開發(fā)與利用保護、生態(tài)環(huán)境、社會經(jīng)濟可持續(xù)發(fā)展、河流流域綜合管理、湖泊富營養(yǎng)化、濕地恢復(fù)與保護、自然災(zāi)害等重大問題,報道原創(chuàng)性的研究成果。創(chuàng)刊以來,在近30年的辦刊過程中積累了大量專家評議數(shù)據(jù)(由于數(shù)字化原因,審稿數(shù)據(jù)主要集中于2009至今,本次樣本數(shù)據(jù)截止2019年4月)。由于一致性指數(shù)的計算要求審稿專家具備一定數(shù)量的關(guān)聯(lián)審稿意見,同時檢驗分析需基于已開展,定義至少具備m個審稿意見的論文為有效論文,選取至少審理過n篇已發(fā)表的有效論文的專家作為有效專家。不同m與n的設(shè)定將導(dǎo)致有效專家數(shù)的不同,且隨著m與n的增大,有效專家數(shù)與有效論文數(shù)將(迅速)降低。通過對審稿數(shù)據(jù)的充分探索,綜合考慮有效數(shù)據(jù)量以及計算所需的關(guān)聯(lián)數(shù)據(jù)量,本研究初定m=2,n=6進行計算與檢驗。經(jīng)過篩選,共177位有效專家所涉及的3114篇有效論文作為本研究的樣本數(shù)據(jù)進行檢驗分析。3114篇中,1245篇論文已發(fā)表,1869篇論文最終未能獲得錄用。所有3114篇論文均將用于計算評審一致性,最終獲得錄用的1245篇論文將用于計算學(xué)術(shù)共同體一致性。數(shù)據(jù)的詳細統(tǒng)計信息如圖1-圖4所示。圖1給出了177位有效專家審理的有效論文數(shù)與有效數(shù),其中審理的有效論文數(shù)分布于[6,75]之間,均值約為28篇,審理的有效數(shù)分布于[6,23]之間,均值約為9篇。圖2給出了3114篇有效論文的審稿專家數(shù)分布。論文的審稿專家數(shù)分布于2-4之間,平均約2.2位專家/篇。經(jīng)中國知網(wǎng)檢索并采集1245篇的被引次數(shù)(檢索日期2020年5月18日),并通過論文標題將論文被引次數(shù)與審稿記錄相對應(yīng)。圖3與圖4分別給出了1245篇已發(fā)論文的發(fā)文時間分布以及截至檢索時的被引次數(shù)分布,可見本案例所使用的絕大部分有效已發(fā)論文分布于2010-2019年之間,論文的被引次數(shù)分布于[0,343]之間,大體服從長尾分布。結(jié)合圖3與圖4可知,已發(fā)論文的發(fā)文時間以及被引次數(shù)均分布于一個較大的區(qū)間,年份的不同可能導(dǎo)致被引次數(shù)無法合理比較。而由公式3和4可知,被引次數(shù)的可比性是一致性指數(shù)計算與檢驗的關(guān)鍵因素之一。因而,本文使用期刊規(guī)范化的引文影響力(JournalNormalizedCitationImpact,JNCI)代替被引次數(shù)。JNCI由數(shù)據(jù)商科瑞唯安提出,定義為論文的被引次數(shù)與同出版年發(fā)表在同期刊上的論文的期望被引次數(shù)的比值,主要用于出版年對被引次數(shù)的影響。具體而言,令論文pi的發(fā)表年為yi,被引次數(shù)為tci,則pi的JNCI值jncii計算如公式5所示。,,{}tijjitcjncitcTCyyAvgTC==(5)基于公式5計算上述1245篇論文的JNCI值,并在公式3與4中,對ip,使用jncii值替換tci值,以消除發(fā)文時間的影響。3.3檢驗結(jié)果依據(jù)。3.1小節(jié)所述檢驗方法,設(shè)定疊加權(quán)重α=0.5以表達評審一致性與學(xué)術(shù)共同體一致性同等重要,高評分論文評分集合H={3,4},低評分論文評分結(jié)合L={1,2},有效審稿意見數(shù)m=2,有效審理論文數(shù)n=6。177位專家中,7位專家對其審理的已給出的評分均為相同分值,無法計算學(xué)術(shù)共同體一致性,因而無法計算一致性指數(shù)。剩余170位專家的一致性指數(shù)分布如圖5所示。由圖5可知,專家一致性指數(shù)分布于[-0.049,0.752]之間,均值μ=0.38,標準差σ=0.203,服從正太分布(Kolmogorov-Smirnov檢驗p=0.08)。基于上述170位專家的一致性指數(shù),設(shè)定=+k*(一致性指數(shù)大于τ為高一致性專家),對專家區(qū)分度進行檢驗。在計算區(qū)分度的過程中,為了進一步保證計算的準確性,對任意專家,我們進一步要求其審理并發(fā)表的(大于6篇的)論文中,高、低評分論文均需至少存在3篇。因而170位專家中,最終有64位專家具備區(qū)分度并參與假設(shè)檢驗(低一致性專家樣本量+高一致性專家樣本量=64)。使用Mann-WhitneyU檢驗對64位專家的區(qū)分度進行檢驗,圖6給出了k=0,0.1,0.2,0.3,0.4,0.5時,高一致性專家與低一致性專家的區(qū)分度的均值,以及高低一致性專家均值的比值(即圖6“高低比”),表1則給了更加詳細的統(tǒng)計量(表1中“高”、“低”分別代表高一致性專家與低一致性專家所對應(yīng)的統(tǒng)計量)。結(jié)合圖6與表1可知,整體而言,高一致性專家的所評價的高評分論文的JNCI是其所評價的低評分論文的2倍,且隨著高一致性閾值的增加,高低評分論文的區(qū)分度逐漸增加。反觀低一致性專家,其所評價的高評分論文的JNCI與其所評價的低評分論文并無太大差別(在區(qū)分度1附近波動)。假設(shè)檢驗表明高一致性專家的區(qū)分度顯著高于低一致性專家的區(qū)分度(以p=0.000拒絕“高低一致性專家的區(qū)分度無顯著差異”的零假設(shè)),表明高一致性專家更能有效地區(qū)分論文的學(xué)術(shù)共同體認可度。為了驗證本文方法在不同參數(shù)設(shè)定下的表現(xiàn),進一步設(shè)定m=2,n=8進行計算與檢驗。經(jīng)篩選,共116位合法專家涉及2489篇合法論文,其中1022篇已發(fā)表,1467篇未能錄用。審理的有效論文數(shù)分布于[11,75]之間,均值約為32篇,審理的有效數(shù)分布于[8,23]之間,均值約為11篇。1467篇有效論文的審稿專家數(shù)分布于2-4之間,平均約2.2位專家/篇。116位專家中,113位可計算一致性指數(shù)。專家一致性指數(shù)分布于[-0.038,0.752]之間,均值μ=0.368,標準差σ=0.17。表2給出了k=0,0.1,0.2,0.3,0.4,0.5時高一致性專家與低一致性專家所對應(yīng)的統(tǒng)計量。結(jié)合表1與表2可知,本文方法在不同參數(shù)設(shè)置下性能表現(xiàn)一致。如3.1小節(jié)所述,以下將通過將數(shù)據(jù)集進行物理分割以移除一致性指數(shù)計算過程與驗證過程之間的相關(guān)性,同時考察具備高一致性指數(shù)的審稿專家對論文學(xué)術(shù)共同體認可度的辨識能力隨時間的推移可以得到保持??紤]到專家評審論文的時間也存在較大差異,統(tǒng)一的切分時間可能導(dǎo)致數(shù)據(jù)切割不均勻。本文針對每個審稿專家,將其所審理的已的發(fā)表年按從早到晚排序,選取排序中值的論文的發(fā)表時間作為切分時間,以保證數(shù)據(jù)切分的均勻性。進而設(shè)定α=0.5,H={3,4},L={1,2},m=2,n=8,10,12計算歷史數(shù)據(jù)(切分時間前的數(shù)據(jù))審稿專家一致性指數(shù)hpreD,基于τ=μ確定高一致性專家,基于驗證數(shù)據(jù)(切分時間后的數(shù)據(jù))計算高一致性專家在驗證數(shù)據(jù)中的一致性指數(shù)的hpstD,并使用Mann-WhitneyU檢驗hpreD與hpstD是否具備差異,結(jié)果如圖7所示,其中紅色與藍色數(shù)據(jù)點分別代表基于驗證數(shù)據(jù)與歷史數(shù)據(jù)計算的區(qū)分度。詳細檢驗統(tǒng)計量如表2所示(“前”、“后”分別代表歷史數(shù)據(jù)與驗證數(shù)據(jù))。其中,n的取值(8,10,12)盡可能權(quán)衡了計算一致性指數(shù)所需的數(shù)據(jù)量與最終可參與檢驗的專家數(shù),隨著n的變化,最終檢驗專家數(shù)會有所不同。結(jié)合圖7與表3可知,歷史數(shù)據(jù)中的高一致性專家在歷史數(shù)據(jù)與驗證數(shù)據(jù)上的區(qū)分度并無顯著差別(分別以p=0.482,0.613,1保持“歷史數(shù)據(jù)與驗證數(shù)據(jù)上高一致性專家的區(qū)分度無顯著差異”的零假設(shè)),驗證了審稿專家對論文學(xué)術(shù)共同體認可度的辨識能力隨時間的推移可以得到保持,基于歷史數(shù)據(jù)計算一致性指數(shù)并輔助審稿專家遴選具備可行性。

4總結(jié)與討論

本文針對期刊評議,設(shè)計了一種審稿專家一致性評價方法以綜合考察專家對稿件的認知相對其他專家以及學(xué)術(shù)共同體的一致程度,基于《長江流域資源與環(huán)境》期刊評議數(shù)據(jù)與已發(fā)論文的引用數(shù)據(jù)計算了部分審稿專家的一致性指數(shù)。設(shè)計了假設(shè)檢驗方法,基于整體數(shù)據(jù)以及劃分數(shù)據(jù)檢驗了一致性指數(shù)對專家區(qū)分度的決定能力。分析表明高一致性專家更能有效地區(qū)分論文的學(xué)術(shù)共同體認可度(能獲得更多的引用),且該能力隨時間的推移可以得到保持,基于歷史數(shù)據(jù)計算一致性指數(shù)并輔助審稿專家遴選具備可行性。值得注意的是,評議專家評價是一個復(fù)雜的問題。本文從數(shù)據(jù)的角度對論文審稿專家進行了定量刻畫與解讀,而專家遴選過程中,對專家的定性了解同樣十分重要。因而,本文的專家一致性指數(shù)不是要替代期刊編輯進行專家選擇,而是希望在期刊編輯選擇審稿專家時為其提供客觀的數(shù)據(jù)參考,以提高遴選效率與效果。此外,由于論文的學(xué)術(shù)性、創(chuàng)新性評價也是一個復(fù)雜的問題,本文在專家一致性指數(shù)的計算與檢驗過程中,論文被引次數(shù)僅用于表征學(xué)術(shù)共同體認可其對推進某方面研究具備(正向或負向)借鑒意義,而不對其學(xué)術(shù)性進行解讀。在實際的計算過程中,被引次數(shù)也可替換為其他相關(guān)指標,如Altmetrics指數(shù)。最后,本文以《長江流域資源與環(huán)境》為案例檢驗了一致性評價在期刊評審人遴選上的輔助作用。在合理的指標選擇下,本文的方法可遷移至項目評審人一致性評價。如對于學(xué)術(shù)共同體對項目執(zhí)行效果的認知,可基于項目的獲獎情況、項目發(fā)文的被引情況等進行刻畫。考慮到本文驗證數(shù)據(jù)的來源與規(guī)模,后續(xù)研究將進一步擴充評議數(shù)據(jù)量(如采集數(shù)據(jù)完整的開放評議數(shù)據(jù)),以在更大規(guī)模的樣本上驗證本文方法的有效性。

作者:岳名亮 李富山 湯宏波 呂新華 馬廷燦