中文電子期刊資源訪問(wèn)要點(diǎn)
時(shí)間:2022-05-27 05:20:05
導(dǎo)語(yǔ):中文電子期刊資源訪問(wèn)要點(diǎn)一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
信息行為研究一直是圖書(shū)情報(bào)學(xué)中的重要內(nèi)容。隨著信息技術(shù)的發(fā)展,信息行為研究逐漸進(jìn)入“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代。與傳統(tǒng)研究不同,“數(shù)據(jù)驅(qū)動(dòng)”的信息行為研究更關(guān)注用戶與各類(lèi)信息系統(tǒng)平臺(tái)及信息本身自然交互過(guò)程中留下來(lái)的外在的、非介入的、客觀的數(shù)據(jù)記錄,規(guī)避了傳統(tǒng)研究方法由于研究樣本(用戶)的主觀觀點(diǎn),及可能無(wú)意或有意地偏離正式情景而帶來(lái)的研究結(jié)果偏差的弊端[1],高質(zhì)量的日志數(shù)據(jù)是新范式下信息行為研究的重要資源。本數(shù)據(jù)集是通過(guò)ERU系統(tǒng)(LibraryElectronicResourcesUsingStatisticalAnalysisSystem,電子資源使用訪問(wèn)系統(tǒng))采集的2018年復(fù)旦大學(xué)師生訪問(wèn)中文電子期刊資源的結(jié)構(gòu)化行為數(shù)據(jù),是開(kāi)展數(shù)據(jù)驅(qū)動(dòng)的信息行為研究的重要數(shù)據(jù)資源。
1數(shù)據(jù)采集和處理方法
1.1數(shù)據(jù)采集。通過(guò)ERU系統(tǒng)抓取復(fù)旦大學(xué)用戶訪問(wèn)復(fù)旦大學(xué)圖書(shū)館訂閱期刊數(shù)據(jù)庫(kù)的檢索、瀏覽和下載行為數(shù)據(jù)。將數(shù)據(jù)導(dǎo)出后進(jìn)行格式轉(zhuǎn)化,根據(jù)數(shù)據(jù)情況和MicrosoftExcel的文件要求,將數(shù)據(jù)分為14個(gè)表格文件,其中檢索數(shù)據(jù)分為2文件,瀏覽和下載數(shù)據(jù)按月份為12個(gè)文件。在數(shù)據(jù)采集中,設(shè)定條件如下:(1)時(shí)間范圍:2018年1月至12月;(2)限定平臺(tái)為中國(guó)知網(wǎng)和萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái);(3)篩選出平臺(tái)相應(yīng)的期刊論文數(shù)據(jù)。1.2數(shù)據(jù)清洗。對(duì)系統(tǒng)采集數(shù)據(jù)進(jìn)行人工對(duì)比檢查,對(duì)數(shù)據(jù)的檢查包括網(wǎng)絡(luò)異常、程序錯(cuò)誤等造成的數(shù)據(jù)缺失等問(wèn)題。此外,也包括數(shù)據(jù)格式、字段標(biāo)準(zhǔn)化命名和數(shù)據(jù)完整性等。數(shù)據(jù)清洗過(guò)程中還對(duì)異常數(shù)據(jù)進(jìn)行了修正、剔除和補(bǔ)充。1.3數(shù)據(jù)脫敏。本數(shù)據(jù)集中的敏感信息為CLIENT_IP字段,采用MD5加密算法進(jìn)行不可逆脫敏處理,處理后字段保留獨(dú)特性和部分可分析性。
2數(shù)據(jù)字典和數(shù)據(jù)樣本
本數(shù)據(jù)集中的14個(gè)文件共涉及20個(gè)字段,字段名稱(chēng)說(shuō)明、樣例值和備注信息如表2所示。
3數(shù)據(jù)質(zhì)量控制
通過(guò)網(wǎng)絡(luò)底層進(jìn)行用戶信息行為數(shù)據(jù)采集、處理、解析和建模技術(shù),運(yùn)用知識(shí)發(fā)現(xiàn)和智能信息技術(shù),從方法論上解決了圖書(shū)館電子資源的異構(gòu)系統(tǒng)和異構(gòu)數(shù)據(jù)庫(kù)問(wèn)題,通過(guò)和國(guó)際Counter報(bào)表進(jìn)行比較分析[3],一定程度上保障了數(shù)據(jù)源的完整性和準(zhǔn)確性,通過(guò)分析數(shù)據(jù)占比情況,保障了數(shù)據(jù)集中的行為數(shù)據(jù)有一定的代表性。通過(guò)系統(tǒng)采集和人工干預(yù)結(jié)合的方式,保障數(shù)據(jù)質(zhì)量。人工干預(yù)方面主要針對(duì)數(shù)據(jù)進(jìn)行完整性判斷,對(duì)必須的字段進(jìn)行補(bǔ)充采集,進(jìn)行數(shù)據(jù)轉(zhuǎn)換與敏感信息變形處理,保障數(shù)據(jù)的完整性、安全性和可分析性。
4數(shù)據(jù)價(jià)值
本數(shù)據(jù)集是基于ERU系統(tǒng)采集的2018年全年復(fù)旦大學(xué)用戶對(duì)中文期刊的檢索、瀏覽和下載行為的結(jié)構(gòu)化數(shù)據(jù),總數(shù)據(jù)量3131612條。與問(wèn)卷調(diào)查、訪談、用戶日記等傳統(tǒng)社會(huì)科學(xué)研究方法獲得的數(shù)據(jù)不同,ERU系統(tǒng)采集的日志類(lèi)型數(shù)據(jù)能夠避免觀察者效應(yīng)、霍桑效應(yīng)等問(wèn)題,對(duì)信息行為特征、模式的研究具有重要價(jià)值。此外,近年來(lái),隨著信息主體所依附的信息環(huán)境復(fù)雜程度日益增強(qiáng),用戶信息行為的影響因素更趨復(fù)雜,受到社會(huì)學(xué)、心理學(xué)、信息科學(xué)、傳播學(xué)、醫(yī)療健康等多個(gè)學(xué)科領(lǐng)域研究者的關(guān)注[4]。本數(shù)據(jù)集也將為不同學(xué)科領(lǐng)域信息行為的研究和應(yīng)用提供基礎(chǔ)支撐。
5數(shù)據(jù)使用方法和建議
基于本數(shù)據(jù)集可開(kāi)展用戶信息行為模式的識(shí)別、用戶行為偏好揭示、用戶需求內(nèi)容的解讀研究,可結(jié)合其他問(wèn)卷調(diào)查、深入訪談、參與觀察和實(shí)驗(yàn)等途徑獲取的用戶信息行為內(nèi)在機(jī)理研究數(shù)據(jù)進(jìn)行融合研究。此外,本數(shù)據(jù)集還可嘗試進(jìn)一步處理探索形成人工智能訓(xùn)練數(shù)據(jù)集,也可用于大數(shù)據(jù)時(shí)代用戶信息行為研究的行為理論、分布式數(shù)據(jù)挖掘、以及數(shù)據(jù)可視化等相關(guān)問(wèn)題的分析和研究。未來(lái)的研究可根據(jù)研究目標(biāo)和內(nèi)容,基于EXCEL、SPSS、STATA、SAS、MATLAB等工具,開(kāi)展基于統(tǒng)計(jì)分析法、建模分析與預(yù)測(cè)、聚類(lèi)分析以及機(jī)器學(xué)習(xí)等相關(guān)研究。
作者:汪東偉 伏安娜 胡杰 張計(jì)龍 殷沈琴