學(xué)術(shù)論文社交媒體可見(jiàn)性分析
時(shí)間:2022-04-24 05:05:06
導(dǎo)語(yǔ):學(xué)術(shù)論文社交媒體可見(jiàn)性分析一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1引言
互聯(lián)網(wǎng)的發(fā)展催生社交媒體的繁榮,越來(lái)越多的學(xué)者在社交媒體上進(jìn)行學(xué)術(shù)信息交流,學(xué)術(shù)論文、著作等出版物也得以在社交媒體中廣泛傳播。學(xué)術(shù)出版物的社交媒體可見(jiàn)性有助于學(xué)術(shù)成果的傳播同時(shí)增強(qiáng)公眾感知[1],也有利于學(xué)者提升學(xué)術(shù)聲譽(yù)和獲取信任[2]。同時(shí),社交媒體拓展了傳統(tǒng)基于被引量的學(xué)術(shù)影響力評(píng)價(jià)體系[3],使得科研產(chǎn)出的社會(huì)影響力也受到學(xué)者關(guān)注。當(dāng)前,學(xué)術(shù)成果的社會(huì)影響力主要通過(guò)其社交媒體可見(jiàn)性進(jìn)行衡量,各類基于社交媒體的Altmetrics指標(biāo),本質(zhì)都是探究觀測(cè)對(duì)象是否被社交媒體提及或分享,即科研產(chǎn)出是否在社交媒體中可見(jiàn)。學(xué)術(shù)論文作為科學(xué)研究成果的主要載體,其影響力是衡量學(xué)者及科研機(jī)構(gòu)影響力的關(guān)鍵。學(xué)術(shù)論文的社交媒體可見(jiàn)性反映前沿知識(shí)從學(xué)界向更廣受眾的傳播和擴(kuò)散,體現(xiàn)了在學(xué)術(shù)界以外更為廣泛的傳播力和影響力,預(yù)測(cè)學(xué)術(shù)論文的社交媒體可見(jiàn)性有助于理解其在社交媒體中的傳播力和客觀探討學(xué)術(shù)論文的社會(huì)影響力。學(xué)術(shù)論文在社交媒體中的傳播是科學(xué)的社會(huì)傳播途徑之一,相關(guān)研究大多集中于探討傳播模式和傳播路徑[4],也有學(xué)者探究學(xué)術(shù)論文傳播平臺(tái)的差異以及社交媒體用戶分享論文的動(dòng)機(jī)[5]。然而,鮮有學(xué)者對(duì)學(xué)術(shù)論文在社交媒體中是否可見(jiàn)及其影響因素進(jìn)行研究。學(xué)術(shù)論文作為一種信息,其傳播受到本身的多維特征影響[6]。基于此,本文以預(yù)測(cè)學(xué)術(shù)論文在社交媒體中的可見(jiàn)性為目標(biāo),從論文、作者與期刊三個(gè)方面探究學(xué)術(shù)論文社交媒體可見(jiàn)性的影響因素,并以糖尿病相關(guān)論文為例,采用多種機(jī)器學(xué)習(xí)算法預(yù)測(cè)其在推特中的可見(jiàn)性,對(duì)比分析不同算法的性能差異和各影響因素的貢獻(xiàn)大小。
2相關(guān)研究
2.1學(xué)術(shù)文獻(xiàn)的社交媒體傳播模式。學(xué)界使用社交媒體人數(shù)的增加,加速了學(xué)術(shù)論文的傳播,使得學(xué)者、論文、出版物的社交媒體可見(jiàn)性得以增強(qiáng)[7-8]。學(xué)術(shù)論文在社交媒體中的傳播模式以及傳播所帶來(lái)的社會(huì)關(guān)注度的提升成為學(xué)者們的研究熱點(diǎn)。不同類型社交媒體平臺(tái)的功能與受眾存在明顯差異,較多研究針對(duì)單一平臺(tái)傳播特征進(jìn)行探討,或?qū)Ρ炔煌脚_(tái)的傳播差異。推特(Twitter)與臉書(Facebook)作為面向公眾的社交媒體平臺(tái)的典型代表,是主要的關(guān)注對(duì)象。Alperin等以推特中得到廣泛傳播的學(xué)術(shù)論文為研究對(duì)象,通過(guò)探究其轉(zhuǎn)發(fā)者粉絲網(wǎng)絡(luò)的構(gòu)成,發(fā)現(xiàn)大多數(shù)學(xué)術(shù)論文主要在單連接的社區(qū)中傳播,并且向公眾的傳播較為有限[4]。Zhang等則發(fā)現(xiàn)論文相關(guān)推文(Tweet)的時(shí)機(jī)和推特帳戶類型會(huì)影響其在社交媒體上的受關(guān)注程度[5]。以學(xué)者為主要用戶的學(xué)術(shù)型社交網(wǎng)絡(luò)如Mendeley、ResearchGate等同樣備受關(guān)注。相關(guān)研究主要集中于探究平臺(tái)中被廣泛傳播的論文的特征、傳播效果[9]以及傳播受眾類型[10]等。另外,學(xué)術(shù)論文在不同類型社交媒體平臺(tái)中的傳播差異也是學(xué)者們關(guān)注的熱點(diǎn)。Holmberg和Vainio就以推特和Mendeley為例,探究了影響學(xué)術(shù)論文在不同社交媒體中引起在線關(guān)注的原因,發(fā)現(xiàn)Mendeley上的關(guān)注是由于學(xué)術(shù)界的讀者而引起的,而推特上受到關(guān)注的原因則與更廣泛的社會(huì)受眾有關(guān)[11]。綜上所述,鮮有學(xué)者關(guān)注學(xué)術(shù)論文在社交媒體上是否可見(jiàn)這一問(wèn)題,亟需探究具有怎樣特征的學(xué)術(shù)論文能夠在社交媒體中可見(jiàn)。2.2面向影響力預(yù)測(cè)的學(xué)術(shù)論文特征。針對(duì)文獻(xiàn)被引量預(yù)測(cè)的研究對(duì)學(xué)術(shù)論文的特征選擇與描述的關(guān)注較多。Tahamtan等從198篇相關(guān)文獻(xiàn)中識(shí)別出28個(gè)與引用頻次相關(guān)的學(xué)術(shù)論文特征,并將其分為論文相關(guān)、作者相關(guān)與期刊相關(guān)三個(gè)維度[12]。Xie等則從論文相關(guān)、作者相關(guān)、參考文獻(xiàn)相關(guān)以及引文相關(guān)四個(gè)維度構(gòu)建學(xué)術(shù)論文特征描述框架,該框架共包含66種可能與引文數(shù)量相關(guān)的特征,其中46個(gè)特征被證實(shí)與論文被引量具有顯著相關(guān)性[13]。盡管學(xué)者針對(duì)學(xué)術(shù)論文特征類別的劃分方式不同,但總的來(lái)看可分為論文、作者以及期刊等三個(gè)方面。論文相關(guān)特征的研究關(guān)注點(diǎn)大多是與論文知識(shí)內(nèi)容無(wú)關(guān)的“外部特征”,如文章長(zhǎng)度[14]、關(guān)鍵詞個(gè)數(shù)[15]、文章的類型[16]、文章的語(yǔ)言、出版時(shí)長(zhǎng)、參考文獻(xiàn)數(shù)量[13]、資助基金[17]以及開(kāi)放獲取情況[18]。也有部分學(xué)者考察了能夠表征文章知識(shí)內(nèi)容的特征,諸如論文質(zhì)量、創(chuàng)新性、研究主題[19-20]等。然而,如何科學(xué)合理地量化相應(yīng)特征仍是亟需解決的問(wèn)題。其次,作者數(shù)量、作者基于引文的學(xué)術(shù)影響力(如h指數(shù))、作者發(fā)文量以及作者所屬機(jī)構(gòu)等作者相關(guān)特征[21]也得到學(xué)者廣泛關(guān)注。隨著國(guó)際合作論文的日益頻繁,學(xué)術(shù)論文是否存在跨國(guó)合作、作者的國(guó)別數(shù)量是否與論文影響力、質(zhì)量相關(guān)也成為學(xué)者們關(guān)注的焦點(diǎn)[22]。學(xué)術(shù)論文期刊的級(jí)別一定程度上能夠反映論文的質(zhì)量,期刊相關(guān)特征也成為相關(guān)研究討論的重點(diǎn)。其中,期刊影響因子[23]、出版語(yǔ)言[24]、出版形式[25]等特征與論文被引量之間的關(guān)系得到眾多學(xué)者的關(guān)注。此外,一些Altmetrics指標(biāo),如提及數(shù)、讀者數(shù)、下載數(shù)等,也被用作學(xué)術(shù)論文特征[26-27]。2.3數(shù)據(jù)驅(qū)動(dòng)的學(xué)術(shù)論文影響力預(yù)測(cè)。學(xué)術(shù)論文的影響力包括學(xué)術(shù)影響力與社會(huì)影響力兩方面。針對(duì)論文學(xué)術(shù)影響力的預(yù)測(cè)較多,相關(guān)研究主要利用論文的多維度特征建立模型預(yù)測(cè)論文的被引頻次[28-29]。例如,Yu等使用論文的外部特征、作者、出版物以及引文的特征,基于逐步回歸分析預(yù)測(cè)論文的被引量[30]。Cao等提出了一種利用論文出版后短期(3年)的被引量預(yù)測(cè)其未來(lái)被引量的方法[31]。Singh研究了論文早期引用者的影響力對(duì)論文長(zhǎng)期的被引頻次的影響[32]。也有學(xué)者將論文所在學(xué)術(shù)網(wǎng)絡(luò)的相關(guān)信息用于預(yù)測(cè)其未來(lái)的被引頻次。例如,Sarigöl等利用科學(xué)家的合著網(wǎng)絡(luò)和作者集中度的方法來(lái)預(yù)測(cè)高被引論文[33];Pobiedina等使用引文網(wǎng)絡(luò)的頻繁圖形模式挖掘提高了論文被引頻次預(yù)測(cè)的準(zhǔn)確率[34]。常用的預(yù)測(cè)論文被引頻次方法包括經(jīng)典的機(jī)器學(xué)習(xí)方法、時(shí)間序列模型、復(fù)雜網(wǎng)絡(luò)的鏈路預(yù)測(cè)等方法。用于預(yù)測(cè)被引頻次的機(jī)器學(xué)習(xí)方法包括邏輯回歸、樸素貝葉斯、支持向量機(jī)、隨機(jī)森林[35]和人工神經(jīng)網(wǎng)絡(luò)[28]等分類算法模型,以及分位數(shù)回歸[36]、半連續(xù)回歸[37]、梯度提升回歸樹(shù)[38]等回歸模型。而時(shí)間序列模型的方法側(cè)重于對(duì)論文被引頻次累積過(guò)程的分布進(jìn)行建模[39-40],并基于不同的分布模型確定論文未來(lái)的被引頻次。復(fù)雜網(wǎng)絡(luò)的鏈路預(yù)測(cè)方法則是利用論文的引文網(wǎng)絡(luò),常采用基于節(jié)點(diǎn)的相似性和基于最大似然估計(jì)的方法預(yù)測(cè)論文之間的引用關(guān)系[41-42],從而達(dá)到預(yù)測(cè)論文被引頻次的目的。學(xué)術(shù)論文的社會(huì)影響力比其學(xué)術(shù)影響力更加難以衡量。目前,學(xué)者對(duì)于如何客觀評(píng)價(jià)學(xué)術(shù)論文的社會(huì)影響力仍缺乏統(tǒng)一認(rèn)識(shí),針對(duì)論文社會(huì)影響力預(yù)測(cè)的研究較少,相關(guān)方法也存在不足。考慮到論文的學(xué)術(shù)影響力和社會(huì)影響力都受到論文本身特征的影響,本研究借鑒論文學(xué)術(shù)影響力預(yù)測(cè)的相關(guān)方法,來(lái)預(yù)測(cè)學(xué)術(shù)論文社交媒體可見(jiàn)性。
3論文社交媒體可見(jiàn)性預(yù)測(cè)方法
3.1學(xué)術(shù)論文特征框架構(gòu)建。基于以往針對(duì)學(xué)術(shù)論文特征的研究,本文從論文、作者和期刊三個(gè)方面構(gòu)建學(xué)術(shù)論文多維特征框架,選擇了26個(gè)具有代表性的特征用于后續(xù)的機(jī)器學(xué)習(xí)算法模型。(1)論文特征論文相關(guān)特征主要包括研究?jī)?nèi)容、形式結(jié)構(gòu)和學(xué)術(shù)影響力三方面的多個(gè)特征。在研究?jī)?nèi)容方面,使用主題類別和WebofScience類別兩個(gè)特征來(lái)揭示論文的內(nèi)容。論文形式結(jié)構(gòu)的特征是指與內(nèi)容無(wú)關(guān)的外部特征,包括論文的語(yǔ)言、文章類型、開(kāi)放獲取狀態(tài)、論文長(zhǎng)度(頁(yè)數(shù))、關(guān)鍵詞數(shù)量、資助基金、出版時(shí)間等屬性。論文的學(xué)術(shù)影響力特征是之后一段時(shí)間內(nèi),所獲得的使用次數(shù)和被引頻次等。論文相關(guān)特征如表1所示。為確定論文的主題類別,本研究將論文題錄數(shù)據(jù)中每一篇論文的標(biāo)題、摘要、關(guān)鍵詞等文本進(jìn)行連接,形成語(yǔ)料庫(kù),對(duì)語(yǔ)料庫(kù)進(jìn)行清洗并轉(zhuǎn)化為文檔-詞頻矩陣,在此基礎(chǔ)上設(shè)置不同的主題數(shù)分別訓(xùn)練LDA(LatentDirichletAllocation)主題模型,并計(jì)算模型的困惑度,根據(jù)最小困惑度原則確定最佳主題數(shù),通過(guò)最佳主題模型確定每一篇學(xué)術(shù)論文的所屬主題。(2)作者特征論文作者及科研機(jī)構(gòu)的學(xué)術(shù)水平和影響力也對(duì)其傳播有一定影響,權(quán)威機(jī)構(gòu)和專家學(xué)者的研究成果更容易獲得媒體的報(bào)道和公眾的關(guān)注,也更容易在社交媒體上可見(jiàn)。本文從學(xué)術(shù)論文作者影響力和作者合作程度兩個(gè)方面確定了12個(gè)作者相關(guān)特征。其中,作者影響力方面的特征包括作者發(fā)文量、被引量及H指數(shù)[43]等指標(biāo)。考慮到全部作者對(duì)論文均有貢獻(xiàn),而第一作者和通訊作者通常更加重要。因此,本研究分別從第一作者、通訊作者和全部作者(團(tuán)隊(duì))的角度計(jì)算了以上作者影響力指標(biāo),合計(jì)9個(gè)特征。作者合作程度方面的特征包括作者數(shù)量、作者機(jī)構(gòu)數(shù)量和國(guó)別數(shù)量,這些特征反映了學(xué)術(shù)論文的國(guó)際合作程度和論文被主動(dòng)傳播的機(jī)會(huì)。作者相關(guān)的特征如表2所示。若論文的題錄信息中未注明通訊作者,視第一作者為通訊作者,以避免相應(yīng)特征出現(xiàn)缺失值。此外,針對(duì)同名作者,本文以文獻(xiàn)[44]中的方法為基礎(chǔ),根據(jù)作者的orcid、姓名、地址等信息按圖1中規(guī)則進(jìn)行作者消歧。首先對(duì)比兩個(gè)作者的orcid,若不一致,則判定為不同作者;若作者的orcid信息缺失,則對(duì)比兩位作者的標(biāo)準(zhǔn)姓名縮寫[45](縮寫形式為姓在前、名在后,且只縮寫名而不縮寫姓)。若標(biāo)準(zhǔn)姓名縮寫不一致,則判定為不同作者;否則,繼續(xù)對(duì)比兩位作者的完整姓名,若出現(xiàn)不一致,則判定為不同作者;否則繼續(xù)計(jì)算作者通訊地址的相似度,若兩位作者的地址相似度大于0.8或兩個(gè)地址存在包含關(guān)系,則認(rèn)為通訊地址一致,判定為同一個(gè)作者。為檢驗(yàn)作者消歧方法的有效性,本文通過(guò)解析WOS數(shù)據(jù)集中的作者字段,得到全部作者記錄,從中隨機(jī)抽取274組共1004條同名作者,分別檢索每位作者對(duì)應(yīng)的原論文并通過(guò)文章詳情頁(yè)進(jìn)入相應(yīng)作者的WOS個(gè)人主頁(yè),通過(guò)對(duì)比每組同名作者的主頁(yè)鏈接及內(nèi)容是否完全一致,對(duì)作者身份進(jìn)行人工判別。同時(shí),根據(jù)圖1中的消歧方法編寫Python程序進(jìn)行自動(dòng)消歧試驗(yàn),對(duì)比人工判別和機(jī)器判別的結(jié)果后發(fā)現(xiàn),本文提出的作者消歧方法的準(zhǔn)確率達(dá)到98.3%。(3)期刊特征期刊是學(xué)術(shù)時(shí)的重要載體,期刊的影響力也在一定程度上反映了學(xué)術(shù)論文的研究質(zhì)量和學(xué)術(shù)價(jià)值。高影響力的期刊往往對(duì)論文的質(zhì)量和創(chuàng)新性要求更高,也更加受學(xué)者關(guān)注。因此,發(fā)表在高影響力期刊上的論文可能更容易被關(guān)注和傳播,期刊的影響力對(duì)學(xué)術(shù)論文的社交媒體可見(jiàn)性也存在影響。為客觀表征期刊影響力,本文選取了JournalCitationReports中3個(gè)較為重要的指標(biāo),分別是總被引量、影響因子和特征因子分值,它們從三個(gè)方面反映了期刊的特征。其中,總被引量這一絕對(duì)統(tǒng)計(jì)量反映期刊在當(dāng)年總體規(guī)模上的影響力。影響因子則消除了不同期刊發(fā)文量的差異,是反映期刊學(xué)術(shù)影響力的相對(duì)統(tǒng)計(jì)量。而特征因子分值還考慮了引文所在期刊的質(zhì)量,并排除了自引。通過(guò)對(duì)三個(gè)指標(biāo)的各年數(shù)據(jù)進(jìn)行平均,可以消除同一期刊的影響力在時(shí)間維度上的差異,使不同期刊的影響力對(duì)比更為客觀。基于這3個(gè)JCR指標(biāo)分別計(jì)算年平均值形成的期刊相關(guān)特征如表3所示。3.2基于分類的論文社交媒體可見(jiàn)性預(yù)測(cè)模型。(1)分類模型整體流程社交媒體可見(jiàn)性主要用于表征學(xué)術(shù)論文是否能夠在社交媒體上被提及與傳播,本研究將學(xué)術(shù)論文的社交媒體可見(jiàn)性預(yù)測(cè)問(wèn)題轉(zhuǎn)為二分類問(wèn)題,分類模型的整體流程如圖2所示。首先,基于學(xué)術(shù)論文的特征框架從原始數(shù)據(jù)集中提取論文的多維特征,并將論文在推特上的總提及量作為其社交媒體可見(jiàn)性的評(píng)估指標(biāo),由此得到每一篇論文的類別標(biāo)簽。若論文的推特總提及量大于0,說(shuō)明是社交媒體可見(jiàn)的,標(biāo)記為正類,若推特總提及量等于0或論文在altmetric.com平臺(tái)無(wú)任何記錄,則標(biāo)記為負(fù)類。其次,將論文樣本集劃分為訓(xùn)練集和測(cè)試集,選擇適當(dāng)?shù)姆诸愃惴ㄔ谟?xùn)練集上擬合模型,在測(cè)試集上對(duì)各模型的性能進(jìn)行評(píng)估及對(duì)比。最后,使用性能最佳的預(yù)測(cè)模型,對(duì)新論文的類別標(biāo)簽進(jìn)行預(yù)測(cè),對(duì)以達(dá)到利用論文、期刊和作者等多維特征預(yù)測(cè)學(xué)術(shù)論文社交媒體可見(jiàn)性的目的。(2)特征編碼與標(biāo)準(zhǔn)化特征編碼。對(duì)于論文相關(guān)特征中的主題類別、WebofScience類別、語(yǔ)言、文章類型、開(kāi)放獲取狀態(tài)等5個(gè)離散特征,使用基于Python的機(jī)器學(xué)習(xí)工具scikit-learn進(jìn)行one-hot編碼,將其全部轉(zhuǎn)化為向量形式,便于參與機(jī)器學(xué)習(xí)模型的計(jì)算。特征標(biāo)準(zhǔn)化。使用z-score標(biāo)準(zhǔn)化將全部特征保持在同一尺度上,并使得轉(zhuǎn)換后的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布。計(jì)算公式如下:𝑧−𝑠𝑐𝑜𝑟𝑒=𝑥−𝜇𝜎(1)其中,𝜇為特定特征列的樣本均值,𝜎為對(duì)應(yīng)特征列的樣本標(biāo)準(zhǔn)差。(3)分類算法選擇與訓(xùn)練結(jié)合學(xué)術(shù)論文數(shù)據(jù)集的特征和二分類任務(wù)的特點(diǎn),本研究選擇了邏輯回歸、支持向量機(jī)、樸素貝葉斯、LightGBM、AdaBoost、隨機(jī)森林以及人工神經(jīng)網(wǎng)絡(luò)等7種不同的機(jī)器學(xué)習(xí)算法分別實(shí)現(xiàn)分類模型。將經(jīng)過(guò)預(yù)處理的學(xué)術(shù)論文數(shù)據(jù)集隨機(jī)劃分為80%的訓(xùn)練集和和20%測(cè)試集,并在訓(xùn)練集上采用k折交叉驗(yàn)證的方法調(diào)整超參數(shù)。已有研究表明,10折交叉驗(yàn)證提供了在偏差與方差之間的最佳平衡[46],因此實(shí)驗(yàn)中k設(shè)置為10。各機(jī)器學(xué)習(xí)模型訓(xùn)練完成后,分別調(diào)用模型對(duì)測(cè)試集中的學(xué)術(shù)論文樣本的社交媒體可見(jiàn)性進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果與其真實(shí)的類標(biāo)簽對(duì)比,以評(píng)估各個(gè)分類器的性能。選擇常見(jiàn)的二分類模型性能評(píng)估指標(biāo)對(duì)預(yù)測(cè)模型進(jìn)行評(píng)估,包括模型的準(zhǔn)確率(Accuracy),模型的精確率(Precision)和召回率(Recall)以及F1-得分(F1-score)。
4實(shí)驗(yàn)結(jié)果與分析
4.1數(shù)據(jù)來(lái)源。健康問(wèn)題是學(xué)界與公眾共同關(guān)注的焦點(diǎn),生物醫(yī)學(xué)相關(guān)學(xué)術(shù)論文作為一種高質(zhì)量的健康信息,其在社交媒體中的傳播不僅有助于學(xué)者擴(kuò)大研究成果的影響力,也使公眾能夠獲取最新的健康知識(shí),從而達(dá)到知識(shí)擴(kuò)散和科學(xué)普及的效果。根據(jù)世界衛(wèi)生組織的數(shù)據(jù)[47],糖尿病在2016年直接造成160萬(wàn)例死亡,是全球前10位死亡原因之一。因此,本文以糖尿病相關(guān)的學(xué)術(shù)論文為例開(kāi)展研究。論文特征數(shù)據(jù)主要來(lái)源于PubMed、WebofScience以及JournalCitationReports3個(gè)數(shù)據(jù)庫(kù)。PubMed提供超過(guò)3000萬(wàn)生物醫(yī)學(xué)文獻(xiàn)的數(shù)據(jù)[48],是本文的主要數(shù)據(jù)來(lái)源。以"diabetesmellitus"[AllFields]為條件檢索PubMed數(shù)據(jù)庫(kù),設(shè)置文獻(xiàn)出版時(shí)間范圍為2012年1月1日至2018年12月31日,篩選出版類型為“JournalArticle”的文獻(xiàn),并剔除數(shù)據(jù)集中作者信息為空或作者為匿名的記錄,剩余有效數(shù)據(jù)一共119334條,PubMed數(shù)據(jù)下載時(shí)間為2019年8月25日。由于PubMed提供的文獻(xiàn)題錄信息不包括被引量、開(kāi)放獲取等特征,本文基于醫(yī)學(xué)文獻(xiàn)唯一標(biāo)識(shí)符PubMedID,使用Python程序生成檢索式,并通過(guò)爬蟲程序在WOS中對(duì)已獲取文獻(xiàn)進(jìn)行二次檢索以補(bǔ)全論文特征信息,WOS數(shù)據(jù)獲取時(shí)間為2019年8月29日。另外,本文在JCR數(shù)據(jù)庫(kù)下載了2012年至2018年的期刊引證報(bào)告,并通過(guò)標(biāo)準(zhǔn)期刊名對(duì)應(yīng)到糖尿病論文數(shù)據(jù)集中的每一篇文獻(xiàn)。JCR數(shù)據(jù)獲取時(shí)間為2019年9月19日。Haustein等發(fā)現(xiàn),醫(yī)學(xué)、心理學(xué)及社會(huì)科學(xué)等學(xué)科領(lǐng)域的文獻(xiàn)在推特平臺(tái)上最受關(guān)注[49]。此外,高Altmetrics指標(biāo)的論文,其底層數(shù)據(jù)量主要由推特貢獻(xiàn)[50]。altmetric.com作為主流的替代計(jì)量工具之一,能夠提供從多種在線平臺(tái)追蹤到的科研成果的關(guān)注數(shù)據(jù)[51],本文在altmetric.com通過(guò)檢索糖尿病論文的PubMedID,獲取了在該平臺(tái)有推特提及記錄的論文截至2019年8月29日的相關(guān)數(shù)據(jù)。4.2數(shù)據(jù)基本特征描述。糖尿病論文數(shù)據(jù)集包含119334篇學(xué)術(shù)論文,其基本情況如表4所示:論文來(lái)源于4753種期刊,分別以24種語(yǔ)言撰寫,其中英文論文116864篇,其次為西班牙語(yǔ)論文806篇。文章類別有Article、Review和“其他”3種,其中Article98358篇,Review14843篇。本文利用糖尿病相關(guān)學(xué)術(shù)論文的標(biāo)題、摘要、關(guān)鍵詞等文本信息建立了LDA主題模型,實(shí)驗(yàn)中最佳主題數(shù)為20,根據(jù)文檔-主題概率分布得到每一篇論文的主題,各個(gè)主題包含的論文數(shù)量如圖3所示。可以發(fā)現(xiàn),主題15是當(dāng)前糖尿病論文數(shù)據(jù)集上最大的一個(gè)主題,共有13651篇學(xué)術(shù)論文屬于該主題。另一個(gè)較大的為主題4,有11673篇學(xué)術(shù)論文屬于該主題。主題12是最小的一個(gè)主題,僅有1654篇文獻(xiàn)屬于該主題。總體來(lái)看,糖尿病相關(guān)論文的主題分布是不均衡的,反映出學(xué)術(shù)論文在內(nèi)容層面的特征也是存在較大差異的。4.3論文的社交媒體可見(jiàn)性分析。糖尿病相關(guān)學(xué)術(shù)論文社交媒體可見(jiàn)性分布如表5所示。可以看出,51%的論文在推特中至少被提及了一次,即有51%的糖尿病相關(guān)論文在社交媒體中可見(jiàn)。從數(shù)據(jù)分布來(lái)看,本研究數(shù)據(jù)集的類別是均衡的,適合直接采用分類算法進(jìn)行預(yù)測(cè)。根據(jù)學(xué)術(shù)論文特征描述框架,本文分別從論文、作者、期刊三個(gè)方面探究社交媒體可見(jiàn)的糖尿病論文的特征,并將其與社交媒體不可見(jiàn)論文的特征進(jìn)行對(duì)比。(1)論文相關(guān)論文相關(guān)的特征同時(shí)包含數(shù)值特征和類別特征,社交媒體可見(jiàn)的糖尿病相關(guān)論文與不可見(jiàn)的論文,其論文相關(guān)數(shù)值特征的基本統(tǒng)計(jì)指標(biāo)對(duì)比如表6所示。可以發(fā)現(xiàn),無(wú)論是否社交媒體可見(jiàn),糖尿病相關(guān)論文在使用次數(shù)和被引頻次這兩個(gè)反映學(xué)術(shù)影響力的特征上,其均值都是顯著高于中位數(shù)的。說(shuō)明較多論文的使用次數(shù)和被引頻次都較少,而少數(shù)論文的使用次數(shù)和被引頻次較多以至于拉高了均值。對(duì)比社交媒體可見(jiàn)和不可見(jiàn)論文的特征可以發(fā)現(xiàn),社交媒體可見(jiàn)的論文,其使用次數(shù)、被引頻次兩個(gè)特征的均值及中位數(shù)都要顯著高于不可見(jiàn)論文的對(duì)應(yīng)指標(biāo),說(shuō)明社交媒體可見(jiàn)的論文,其總體的學(xué)術(shù)影響力更高。此外,社交媒體可見(jiàn)的糖尿病相關(guān)論文,其出版時(shí)長(zhǎng)的均值、中位數(shù)和標(biāo)準(zhǔn)差都小于不可見(jiàn)論文的對(duì)應(yīng)指標(biāo)。說(shuō)明可見(jiàn)的論文,都是在出版后較短時(shí)間內(nèi)獲得社交媒體的關(guān)注,而未在短期被提及的論文,也較難在長(zhǎng)期獲得社交媒體的關(guān)注。對(duì)于論文相關(guān)的類別特征,本文統(tǒng)計(jì)了全部社交媒體可見(jiàn)的糖尿病相關(guān)論文的主題分布,如圖4所示。和圖3對(duì)比可以發(fā)現(xiàn),社交媒體可見(jiàn)的60898篇學(xué)術(shù)論文的主題分布與數(shù)據(jù)集中全部糖尿病相關(guān)論文的主題分布基本上是一致的,最大的主題仍是主題15,其次是主題4。說(shuō)明社交媒體可見(jiàn)的論文并未在研究主題上表現(xiàn)出特異性。(2)作者相關(guān)就作者相關(guān)特征來(lái)看,無(wú)論是否可見(jiàn),論文在作者團(tuán)隊(duì)平均被引頻次、第一作者被引頻次、通訊作者被引頻次這三個(gè)特征上,其均值都要顯著高于中位數(shù),如表7所示。說(shuō)明較多論文其作者的被引頻次是較少的,而少數(shù)論文其作者的被引頻次極高以至于拉高了均值。對(duì)比社交媒體可見(jiàn)和不可見(jiàn)論文的作者相關(guān)特征可以發(fā)現(xiàn),社交媒體可見(jiàn)的糖尿病相關(guān)論文,其作者團(tuán)隊(duì)平均被引頻次、第一作者被引頻次、通訊作者被引頻次三個(gè)特征的均值和中位數(shù)都顯著高于不可見(jiàn)的糖尿病相關(guān)論文的對(duì)應(yīng)指標(biāo),結(jié)合表6的分析,說(shuō)明社交媒體可見(jiàn)的論文與其作者在被引頻次這一計(jì)量指標(biāo)上是相互促進(jìn)的。此外,對(duì)比h指數(shù)、發(fā)文量有關(guān)特征的統(tǒng)計(jì)指標(biāo)可以發(fā)現(xiàn),社交媒體可見(jiàn)的論文在這些特征上的均值都要高于不可見(jiàn)論文的對(duì)應(yīng)均值,說(shuō)明社交媒體可見(jiàn)的論文,其作者的總體學(xué)術(shù)影響力略高。(3)期刊相關(guān)社交媒體可見(jiàn)的糖尿病相關(guān)論文,其期刊相關(guān)3個(gè)特征的均值和中位數(shù)都要顯著高于不可見(jiàn)論文的對(duì)應(yīng)指標(biāo),如表8所示。說(shuō)明社交媒體可見(jiàn)的論文較多來(lái)源于高水平期刊,期刊的影響力可能在一定程度上促進(jìn)了論文的社交媒體可見(jiàn)。社交媒體可見(jiàn)的糖尿病論文數(shù)量排名前10的期刊如圖5所示。可以發(fā)現(xiàn),排名前10的期刊擁有的社交媒體可見(jiàn)論文數(shù)量呈三級(jí)階梯狀分布。PLOSONE和DiabetesCare提供了糖尿病研究領(lǐng)域最多的社交媒體可見(jiàn)的學(xué)術(shù)論文,分別都有超過(guò)2000篇的學(xué)術(shù)論文在推特上被提及,是糖尿病研究領(lǐng)域社交媒體可見(jiàn)性最高的兩本期刊。Diabetes、Diabetologia、DiabeticMedicine以及DOM等4本期刊的被提及論文數(shù)量都在1000左右。就期刊的定位來(lái)看,排名前10的期刊中,除了PLOSONE是一本包容性較高的跨學(xué)科期刊,ScientificReports是關(guān)注自然科學(xué)與臨床醫(yī)學(xué)的期刊,BMJOpen是關(guān)注多學(xué)科及治療領(lǐng)域的醫(yī)學(xué)期刊以外,絕大多數(shù)期刊都是專注于糖尿病這一細(xì)分研究領(lǐng)域的專業(yè)期刊。根據(jù)每一本期刊擁有的社交媒體可見(jiàn)的糖尿病論文數(shù)量,本文劃分了4個(gè)層級(jí),并統(tǒng)計(jì)了各層級(jí)下的期刊數(shù)量和被提及論文總量,如表9所示。可以發(fā)現(xiàn),絕大部分社交媒體可見(jiàn)的糖尿病相關(guān)論文是來(lái)源于一小部分核心的期刊,這些期刊擁有的被提及糖尿病論文數(shù)量都在10篇以上,說(shuō)明這部分期刊在糖尿病研究領(lǐng)域具有較高的社交媒體關(guān)注度和可見(jiàn)性。4.4社交媒體可見(jiàn)性預(yù)測(cè)結(jié)果分析。采用7種不同的機(jī)器學(xué)習(xí)算法對(duì)學(xué)術(shù)論文的社交媒體可見(jiàn)性進(jìn)行預(yù)測(cè),結(jié)果如表10所示。其中,LightGBM、隨機(jī)森林和AdaBoost等集成學(xué)習(xí)算法效果較好,三個(gè)分類模型的F1得分都達(dá)到了0.70左右,LightGBM方法的分類準(zhǔn)確率達(dá)到了0.70,隨機(jī)森林和AdaBoost模型的準(zhǔn)確率分別為0.69和0.68,說(shuō)明在本研究確定的學(xué)術(shù)論文特征框架下,集成學(xué)習(xí)的方法通過(guò)將多個(gè)分類器學(xué)到的信息互補(bǔ),能夠更有效地預(yù)測(cè)學(xué)術(shù)論文的社交媒體可見(jiàn)性。另外,傳統(tǒng)的機(jī)器學(xué)習(xí)方法,例如邏輯回歸、支持向量機(jī),在本研究定義的分類任務(wù)中表現(xiàn)差強(qiáng)人意。支持向量機(jī)模型的F1得分和準(zhǔn)確率都達(dá)到了0.68,邏輯回歸模型的F1得分和準(zhǔn)確率都達(dá)到了0.67。最后,樸素貝葉斯方法和人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于學(xué)術(shù)論文社交媒體可見(jiàn)性預(yù)測(cè)的表現(xiàn)稍差,盡管樸素貝葉斯模型的F1得分達(dá)到了0.68,但其準(zhǔn)確率僅有0.54,精確率也僅有0.53,而召回率異常偏高,人工神經(jīng)網(wǎng)絡(luò)的F1得分達(dá)到了0.67,準(zhǔn)確率僅有0.65,而召回率達(dá)到了0.99,說(shuō)明這兩個(gè)模型將大量樣本預(yù)測(cè)為正類,存在一定偏差。為客觀評(píng)估各分類算法性能的顯著性差異,對(duì)部分算法在交叉驗(yàn)證集上的準(zhǔn)確率進(jìn)行t檢驗(yàn)。在顯著性水平為0.05的情況下,LightGBM算法的性能顯著優(yōu)于其他算法,說(shuō)明LightGBM算法用于學(xué)術(shù)論文的社交媒體可見(jiàn)性預(yù)測(cè)是最有效的。此外,LightGBM、隨機(jī)森林、AdaBoost等集成學(xué)習(xí)算法的性能顯著優(yōu)于邏輯回歸、支持向量機(jī)、樸素貝葉斯等傳統(tǒng)的機(jī)器學(xué)習(xí)算法。4.5特征重要性分析隨機(jī)森林是以決策樹(shù)為基學(xué)習(xí)器的集成學(xué)習(xí)方法,可以通過(guò)計(jì)算各個(gè)特征在所有決策樹(shù)上的平均貢獻(xiàn)來(lái)測(cè)量特征的重要性。本研究使用隨機(jī)森林評(píng)估在學(xué)術(shù)論文社交媒體可見(jiàn)性預(yù)測(cè)任務(wù)中學(xué)術(shù)論文各個(gè)特征的重要性,根據(jù)特征重要性確定對(duì)學(xué)術(shù)論文的社交媒體可見(jiàn)性影響較大的因素。影響較大的前10個(gè)特征及其重要性如表11所示,總的來(lái)看,論文、作者、期刊三方面特征均會(huì)影響學(xué)術(shù)論文的社交媒體可見(jiàn)性。其中期刊相關(guān)特征的重要性程度最高,期刊的年均影響因子位列第一,重要性為0.074,而期刊的年均特征因子分值和年均被引量在預(yù)測(cè)論文的社交媒體可見(jiàn)性中也十分重要,說(shuō)明在高影響力期刊上發(fā)表的論文更可能在社交媒體中可見(jiàn)。此外,出版時(shí)長(zhǎng)對(duì)學(xué)術(shù)論文社交媒體可見(jiàn)性的影響位居第二,重要性為0.061。已有研究發(fā)現(xiàn),超過(guò)80%的社交媒體可見(jiàn)的論文都是在發(fā)表后一年之內(nèi)被推特提及[52]。本文的研究進(jìn)一步驗(yàn)證了這一現(xiàn)象,未在發(fā)表后短期被提及的論文,未來(lái)也較難在社交媒體中可見(jiàn)。其他論文相關(guān)的特征中,論文的使用次數(shù)和被引頻次重要性也很高,說(shuō)明論文的學(xué)術(shù)影響力在一定程度上影響其社交媒體可見(jiàn)性,學(xué)術(shù)影響力較高的論文更可能被用戶在社交媒體中分享與傳播。已有研究發(fā)現(xiàn),更長(zhǎng)的論文獲得的被引量也更大[14],本文也發(fā)現(xiàn)論文的頁(yè)數(shù)對(duì)其社交媒體可見(jiàn)性的影響較大。對(duì)于作者相關(guān)特征而言,作者被引頻次的影響較為突出。無(wú)論是作者團(tuán)隊(duì)的平均被引頻次,還是第一作者的被引頻次、通訊作者的被引頻次,重要性排名都比較靠前。說(shuō)明論文作者的學(xué)術(shù)影響力尤其是整個(gè)研究團(tuán)隊(duì)的學(xué)術(shù)影響力對(duì)于論文的社交媒體可見(jiàn)性影響較大。而作者數(shù)量、機(jī)構(gòu)數(shù)量等特征對(duì)可見(jiàn)性的影響卻較小,說(shuō)明論文的合作程度對(duì)其社交媒體可見(jiàn)性影響較小,社交媒體用戶在提及學(xué)術(shù)論文時(shí)可能更加看重作者的影響力而不是作者數(shù)量或機(jī)構(gòu)的多少。
5結(jié)語(yǔ)
本文從論文、作者、期刊三個(gè)方面構(gòu)建學(xué)術(shù)論文的特征描述框架,以糖尿病相關(guān)論文為例,對(duì)社交媒體可見(jiàn)和不可見(jiàn)論文的特征進(jìn)行對(duì)比分析,并基于特征描述框架使用多種機(jī)器學(xué)習(xí)算法對(duì)論文的社交媒體可見(jiàn)性進(jìn)行預(yù)測(cè),同時(shí)對(duì)各個(gè)特征在預(yù)測(cè)中的重要性進(jìn)行評(píng)估,評(píng)估結(jié)果可作為提升學(xué)術(shù)論文社交媒體可見(jiàn)性的參考途徑。結(jié)果表明,社交媒體可見(jiàn)的糖尿病相關(guān)論文,其總體的被引頻次和使用次數(shù)都高于不可見(jiàn)的論文,且可見(jiàn)的論文較多來(lái)源于高水平期刊和高影響力作者。就預(yù)測(cè)模型而言,以LightGBM為代表的集成學(xué)習(xí)的方法,對(duì)論文的社交媒體可見(jiàn)性的預(yù)測(cè)效果是最佳的,其準(zhǔn)確率達(dá)到了0.70,顯著高于其他機(jī)器學(xué)習(xí)算法,隨機(jī)森林和AdaBoost兩種集成學(xué)習(xí)方法的預(yù)測(cè)效果同樣較佳。就學(xué)術(shù)論文特征描述框架而言,論文相關(guān)、作者相關(guān)和期刊相關(guān)的三類特征都對(duì)論文的社交媒體可見(jiàn)性有一定影響。期刊相關(guān)特征對(duì)于預(yù)測(cè)論文社交媒體可見(jiàn)性影響較大,其中期刊的年均影響因子這一特征最為重要。論文相關(guān)特征中,出版時(shí)長(zhǎng)是對(duì)論文社交媒體可見(jiàn)性影響較大的,其次是論文使用次數(shù)、被引頻次等反映論文學(xué)術(shù)影響力的特征。作者相關(guān)特征中較為重要的是作者被引頻次對(duì)應(yīng)的三個(gè)特征,說(shuō)明作者的學(xué)術(shù)影響力在一定程度上影響了論文的社交媒體可見(jiàn)性。
本文作為學(xué)術(shù)論文的社交媒體傳播力預(yù)測(cè)初探,僅選擇了糖尿病相關(guān)論文作為研究對(duì)象,今后需要擴(kuò)大數(shù)據(jù)集,開(kāi)展多學(xué)科多領(lǐng)域的學(xué)術(shù)論文社交媒體可見(jiàn)性分析和預(yù)測(cè),以發(fā)現(xiàn)學(xué)術(shù)論文社交媒體可見(jiàn)性的學(xué)科差異和普遍規(guī)律。此外,本文僅針對(duì)推特這一平臺(tái)開(kāi)展研究,未來(lái)可結(jié)合學(xué)術(shù)論文在多個(gè)社交媒體平臺(tái)的傳播數(shù)據(jù),形成其社交媒體可見(jiàn)性的綜合指標(biāo),以全面反映學(xué)術(shù)論文在社交媒體中的傳播力和影響力。最后,本研究將學(xué)術(shù)論文的社交媒體可見(jiàn)性預(yù)測(cè)簡(jiǎn)化為二分類問(wèn)題,僅考慮了論文是否在社交媒體中可見(jiàn),沒(méi)有衡量其社交媒體可見(jiàn)的程度或受關(guān)注程度,后續(xù)研究可以對(duì)論文的社交媒體可見(jiàn)性程度進(jìn)行分級(jí),將二分類問(wèn)題轉(zhuǎn)為多分類問(wèn)題,以便根據(jù)論文的社交媒體可見(jiàn)性評(píng)估其傳播力或社會(huì)影響力,建立從論文的學(xué)術(shù)影響力到社會(huì)影響力的完整預(yù)測(cè)框架和流程。
作者:李綱 管為棟 馬亞雪 毛進(jìn) 單位:武漢大學(xué)信息資源研究中心