作者特征和期刊特征論文被引要點

時間:2022-09-15 11:36:33

導語:作者特征和期刊特征論文被引要點一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

作者特征和期刊特征論文被引要點

1引言

學術論文作為知識的有形載體在學術交流和科技進步中起到極大的促進作用,學術論文的被引頻次反應了其研究成果的科研水平和應用價值。對于已經發表2-6年的論文,我們可以通過被引頻次評估其影響力。事實上,作者、科研機構和期刊編輯人員更關心之前的被引頻次,作者和科研機構關注研究成果未來的被利用情況,可預測其研究成果的應用價值,期刊編輯關注論文的被引用情況,可預估期刊的影響力。目前,國外已有不少學者研究了學術論文被引頻次的影響因素。早在1983年Stewart,J.A就發現,作者的聲譽會影響其論文的被引量【1】;VanDalen【2】認為,作者的一些特征是引用分配的決定因素;之后VanDalen等【3-4】發現作者過去的表現在某種程度上可以預測其科研成果的影響力,并指出論文的可獲取性、作者聲譽和期刊特征是影響論文被引頻次的最重要因素;JoyceCW等【5】通過文獻計量分析,發現論文的研究內容、論文所在期刊的特征以及作者特征是影響論文被引頻次的主要因素;MingyangWang等人【6】通過研究四種特定期刊的文章,發現第一作者的h指數是影響論文被引頻次的關鍵因素;GiovanniAbramo等人【7】發現高被引論文與高產作者具有強相關關系,高被引論文還受學科因素的影響;TianYu等【8】研究了論文作者特征、引文特征和期刊特征等對論文未來被引用頻次的影響。國內學者對論文被引頻次的影響因素也進行了深入廣泛的探討,其代表性研究有:邱均平等【9】通過實證研究,證明了中的馬太效應,即越是出名的作者越容易獲得在眾多核心期刊發表的機會;之后,侯劍華等【10】在研究中進一步證實了發文作者中的馬太效應,作者的聲譽可能會影響期刊論文被引用的頻次;孟凡蓉等【11】以5本高被引核心期刊論文為樣本,實證研究了論文被引頻次與論文刊載時間、論文所在期刊的影響因子、論文研究方法、論文作者特征等有關;王海濤等【12】利用負二項回歸模型研究了論文作者數量對論文被引頻次的影響規律;鮑玉芳等【13】從作者因素、文章因素、期刊因素、計量方法因素等方面建立了影響論文被引頻次的指標體系;肖學斌等【14】在研究中發現作者人數與論文被引頻次呈正相關。前人的研究成果為本文從作者、期刊視角進行論文被引頻次預測的研究奠定了良好的基礎。但已有研究多是利用傳統的學術影響力指標如發文量、被引次數、h指數、影響因子等研究論文的被引頻次,很少關注論文被引頻次預測的研究【15】,國內更是鮮有綜合多因素對學術論文被引頻次進行預測的研究。本文擬在前人研究的基礎上,選取論文作者和論文所在期刊兩大特征指標來構建影響論文被引頻次的空間向量,通過多元統計分析,探析作者特征、期刊特征與論文被引頻次的相關性,并給出學術論文未來被引頻次的預測模型,為科研人員、科研機構以及期刊編輯人員分析論文質量、預測論文未來的影響力提供參考依據。

2影響論文被引頻次的作者特征與期刊特征

高水平作者因其具有較高的學術產出和學術影響力對期刊學術水平和影響力的提升起著十分重要的作用【16】。而高水平作者通常由其發文量、論文總被引次數、篇均被引次數和h指數等指標來衡量。故本文選取的論文作者特征指標包括:論文對應的作者數量、作者h指數、作者發文量、作者已見刊論文的被引量和篇均被引量;期刊被引指標直接反映論文的被引頻次,根據《中國科技期刊引證報告(2012年版)》中給出的期刊被引指標,本文選取期刊影響因子、期刊即年指標、期刊h指數作為反映論文被引頻次的期刊特征指標。初步選取的影響學術論文被引頻次的13個指標見表1。

3學術論文被引頻次預測

3.1研究工具與方法。本文利用Excels工具完成數據統計,運用SPSS統計分析中的相關分析對影響論文被引頻次的指標進行初步篩選,利用SPSS統計分析中的逐步回歸分析構建論文未來被引頻次的預測模型。相關分析是研究現象之間是否存在某種依存關系,測度各個變量之間關系的一種統計方法。在相關分析中,變量之間關系的密切程度用一個數值來表示。一般根據相關度數值的大小,將相關度r分為4個等級:0<|r|<0.3,為微弱相關;0.3≤|r|<0.5,為低度相關;0.5≤|r|<0.8,為顯著相關;0.8≤|r|<1,為高度相關【17】。逐步回歸分析是一種在多元回歸模型中選擇變量的方法,該方法從包含多個自變量組合的回歸方程中逐個檢驗回歸系數,剔除對因變量作用不顯著的自變量,對剔除后剩下的自變量建立對因變量的多元回歸方程,再逐個檢驗回歸系數,剔除不顯著的變量;重復上述步驟,直到保留在回歸方程中自變量的作用都顯著為止,最后一個方程給出的便是獨立變量的最佳組合。所以,該方法不僅保證了所選變量的有效性和重要性,也減少了額外引入冗余變量;不僅能夠提取隱藏在大量數據集中的重要信息,還可以使用有效變量來預測和控制一個特定的變量。逐步回歸分析包括向前選擇、向后淘汰和雙向消除,本文選擇雙向消除法。在實際應用中,相關分析與逐步回歸分析有著密切關系。在相關分析中,所討論變量的地位一樣,分析側重于隨機變量之間的相關特征,根據相關性顯著與否可對變量進行初步選取;而在逐步回歸分析中,所關心的是一個隨機變量對另一個或多個隨機變量依賴關系的函數形式,因此,在相關分析初步選定變量的基礎上,通過逐步回歸分析對變量進行再次篩選,可以獲取利用關鍵變量表征某一變量的預測模型。3.2數據準備。由于影響學術論文被引頻次的因素很多,為凸顯作者和期刊兩大特征對學術論文被引頻次的影響,弱化其他因素的影響,特做如下的限定:①限定所選的數據庫。由于數據庫對論文的被引頻次有影響【18】,保持論文被收錄數據庫的一致性可弱化數據庫對論文被引頻次的影響,所以限定CNKI數據庫作為本文的采樣數據源。②限定所選的學科。UgoFi⁃nardi和GiovanniAbramo分別在研究中發現,期刊論文的被引頻次與學科有關【7】【19】;鮑玉芳也指出論文被引頻次與學科具有相關性【13】,為弱化學科因素對論文被引頻次的影響,本文限定圖書情報學期刊論文為研究對象。另外,預測學術論文被引頻次時,預測時間的長短要考慮學科論文的被引高峰期,預測時間過長或過短,遠大于或遠小于被引高峰期,都會失去預測原本的意義。盛麗娜【20】通過對SSCI收錄的35種信息科學與圖書館學期刊被引高峰期的分析,發現信息科學與圖書館學期刊被引高峰期的時間平均為6.25年。“信息科學與圖書館學”和“圖書情報學”屬于同一類學科,因此,本文將預測時間定為7年,選取2011年第1期、第2期的論文為研究對象,將論文作者特征作為自變量,選取上述論文2017年12月31日之前的被引頻次為因變量。數據獲取的具體過程為:首先選定圖書情報學領域的17種核心期刊(2011年南大CSSCI期刊目錄中,給出18種圖書情報學期刊,由于《情報學報》沒有被CNKI收錄,考慮到數據獲取的方便性,沒有選取《情報學報》),以2011年第一期論文為數據樣本,共526篇。然后,在CNKI數據庫高級檢索界面“主題”中輸入樣本論文的題目,檢索到的時間、論文作者及單位,記錄每篇論文的作者數目x1和該論文的被引頻次y。之后刪除“主題”中的論文題目,以“作者姓名+作者單位+年份”的檢索策略進行檢索,檢索時間設置為該日期的前一日。對涉及多個單位的作者,根據其研究方向,修改作者單位后進行多次檢索,以降低檢索噪聲,得到作者本之前的所有論文。最后將檢索到的論文按被引量降序排列,統計每位作者的發文量、每篇論文的被引量、所有論文中的最大被引量、總被引量和作者h指數,統計每篇論文所有作者中的最大發文量和最大被引量等,作為作者特征指標的原始數據。統計發現,526篇論文的累計被引頻次為4884。少數論文被引頻次較高,多數論文被引用了少數幾次,被引頻次為0次的論文有50篇,全部526篇論文的被引頻次呈長尾分布,符合圖書情報學學科領域集中分散的引用分布規律,說明本文選取的數據是有效的。從《中國科技期刊印證報告(2011年版)》中選取并記錄上述17種期刊對應的期刊影響因子、期刊即年指標、期刊h指數三個期刊引文指標,作為影響論文被引頻次的期刊特征數據。將獲取到的數據做如下的處理:對每種期刊所有論文對應的每個指標[包括期刊特征指標Ji(i=1、2、3)和作者特征指標Ak(k=1、2、…、10)]分別求和后取均值作為該期刊對應指標Ji、Ak的值,將“論文-被引頻次-影響特征指標”關系轉變為“期刊-被引頻次-影響特征指標”關系;之后,為消除各指標因單位不同帶來的數量上的差異,將所有期刊對應的Ji、Ak值作歸一化處理,見表2。以此作為后續論文被引頻次y與Ji、Ak相關性分析的數據基礎。33.3相關性分析將表2數據導入SPSS進行相關性分析,各指標與論文7年后被引頻次y之間的相關系數如表3所示。表3給出了論文被引頻次y與選定的3個期刊指標Ji和10個作者特征指標Ak的相關系數。根據相關分析中相關度r的4個等級標準【17】不難發現,期刊h指數J3、作者數量A1與論文被引頻次y呈微弱相關,作者數量A1與論文被引頻次y的相關度最小,為0.262,說明作者數量與論文被引頻次關系不大,期刊h指數的高低對論文被引頻次的影響也不明顯。與論文被引頻次y顯著相關的指標有J2、A2、A3、A5、A6、A7、A8、A9、A10。其中,與A10的相關性最高,為0.710。說明期刊即年指標、一篇論文所有作者中作者h指數的最大值、第一作者的發文量、所有作者被引頻次的最大值、第一作者的最大被引頻次、所有作者中總被引頻次的最大值、第一作者的總被引頻次、第一作者的h指數對論文被引頻次具有明顯的影響;而第一作者之前的篇均被引頻次對論文被引頻次的影響最為顯著。說明上述作者特征指標具有高度一致性,它們從相似或等同的視角反映了論文的學術影響力。考慮到表3中A2、A3、A5、A6、A7、A8、A9、A10之間的相關度較高,為避免重復計算同等或相似的特征指標,本文利用逐步回歸分析確定對論文被引頻次貢獻突出的指標,將貢獻不突出的指標自動剔除,從而保證所選變量的有效性和重要性,以建立最優的回歸方程。3.4學術論文被引頻次預測模型構建。根據相關分析結果,選取與被引頻次y具有顯著相關關系的J1、J2、J3、A2、A3、A5、A6、A7、A8、A9、A10指標作為自變量,y為因變量,做逐步回歸分析處理。利用逐步回歸構建預測模型時,要求樣本數量至少是變量數的五倍以上,樣本越多,得到的預測模型預測效果越好【21】。鑒于此,本文以526篇論文為樣本數據,樣本數(526)是變量數[1(y)+3(Ji)+10(Ak)=14]的37倍以上。利用SPSS19.0對526篇論文“論文-被引頻次-影響特征指標”的歸一化數據進行逐步回歸分析,結果見表4。由表4發現,第一作者的篇均被引量A10和期刊即年指標J2的t值分別為3.930和2.942,均大于2,Sig(P值)分別為0.001和0.008,通過了顯著性檢驗。表3同時給出了回歸系數B,由此確定:論文被引頻次可由第一作者之前的篇均被引量A10和期刊即年指標J2來預測,其預測模型為:y=0.781J2+1.176A10-0.052。3.5模型評估與結果分析。從上述17種期刊中隨機選取8種期刊,如《中國圖書館學報》《大學圖書館學報》等,利用給出的預測模型對其2011年第2期152篇論文(第2期超過20篇論文的,選取其前20篇論文)7年后的被引頻次進行預測,并與同一篇論文7年后的實際被引頻次進行對比,對比結果在Excels中按每個數值所占大小的變化趨勢呈現,如圖1所示。圖1預測結果顯示,對8種期刊論文而言,回歸方程的整體預測結果比較令人滿意。但仍存在一定的誤差,誤差產生的主要原因是:(1)論文作者因素。影響預測結果的作者因素是多方面的:①一些作者的發文量較少,但被引量卻很高。如王妙婭發表“國內圖書館服務博客調查分析”(發表于《情報資料工作》2011年第2期)一文之前僅發表了一篇論文“國內圖書館微博應用現狀及建議”,但其被引頻次卻達到140次,這屬于“非高產作者成為高影響力作者的可能性極低”【9】的現象。②作者發表的多篇論文中每篇論文的被引頻次差異較大。如王知津在2011年1月份之前被CNKI收錄的期刊論文共100篇,有的被引次數很高,有的被引次數較低,比如2006年發表在《圖書與情報》中的“網站評價指標體系的構建方法與過程”一文,被引頻次達122次;2007年發表在《圖書館雜志》中的“基于改進遺傳算法的XML信息檢索研究”至今沒有被引用,其篇均被引頻次雖為11.07次,但本文選取的王知津2011發表在《圖書情報知識》第一期的“企業競爭情報作戰室運行準備機制研究”至今被引用2次。模型出現類似預測誤差的還有鄭建明的論文“傳承歷史探索發展——《中國目錄學:理論、傳統與發展》評薦”(刊登于《圖書情報知識》,發表時間為2011年第2期)、孫瑞英的論文“基于‘非零和博弈’視角的公共圖書館立法與運行研究”(刊登于《圖書館》2011年第2期)等。分析發現,這些點對應的作者多屬于圖書情報學研究方向的知名學者,這一現象提示我們:基于作者特征建立預測模型時,需要根據作者之前影響力的不同對作者特征賦予適當的權重系數,以減小預測誤差。③論文作者位次的不同會導致預測不準。如南京理工大學的章成志2011年1月份之前被CNKI收錄的期刊論文共15篇,以第一作者身份發表的期刊論文7篇。以第二作者身份發表的兩篇論文“國內網絡輿情研究的回顧與展望”和“互聯網輿情分析及應用研究”被引頻次分別高達243次和119次,而以第一作者身份發表的論文“自動標引研究的回顧與展望”最高被引頻次61次,多數論文的被引頻次一般在幾次左右,有的為0次。說明第一作者之前發表的論文中,作者署名位次的不同對論文的被引頻次有影響。統計以第一作者身份的被引頻次,以此為模型指標得到的預測效果可能會更理想。(2)論文所在期刊因素。對比圖1給出的各期刊論文被引頻次的預測結果,發現預測效果因期刊而異。模型對一些期刊的預測效果比較理想,如《大學圖書館學報》《圖書情報工作》《國家圖書館學刊》《情報資料工作》《圖書館工作與研究》,其論文的預測被引頻次占比曲線與實際被引頻次占比曲線吻合度較高;對一些期刊的預測效果一般,如《中國圖書館學報》《圖書情報知識》《圖書館》,兩曲線的吻合度不甚理想。說明學術論文被引頻次的預測效果與期刊有關。這種預測結果的差異性提示我們:研究學術論文被引頻次的預測模型時,需要把樣本數據范圍作更嚴格的限定,即不僅限定到某一學科,還應限定到學科內具體的某個期刊,這樣預測效果或許能得到一定的改善。(3)論文研究內容和研究方法因素。本文是在限定學科和數據庫的前提下研究作者、期刊對論文未來被引頻次的影響作用的。實際上,除了數據庫、學科、作者、期刊因素外,論文的研究內容和研究方法對其未來的被引頻次也會產生一定的影響。研究內容與方法決定了論文的類型,如有的論文屬于理論型、有的論文屬于應用型、還有的論文屬于實踐型;有的屬于專題性,有的屬于綜述性等。由于研究者的研究興趣和研究習慣不同,其引用論文的類型也有差異。所以,需將論文研究內容和研究方法作為論文的重要特征指標納入預測模型中,以進一步提高預測效果。