計算機技術古典文獻研究論文

時間:2022-07-14 08:54:00

導語:計算機技術古典文獻研究論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

計算機技術古典文獻研究論文

內容提要:計算機技術古典文獻整理與研究中的貢獻是極大的,但目前存在著缺乏統一領導與規劃;開發商嗜利忘義;熱門文獻數據重復,冷門文獻數據罕見;技術關卡重重,難以互相兼容;功能單調,難以真正為科研服務;學術圈地,使人心有余而力難用等問題。解決這一問題的關鍵在于建立公共古典文獻數據庫和開發個性化文獻檢索服務系統兩個方面。具體說來是加強總體規劃,建立公共古典文獻數據庫;數據庫內容與文獻檢索服務系統分離;加速確定字庫方案;徹底解決古典文獻版權問題;建立公平的交易平臺和發展新興學科,培養專業人才。

關鍵詞:古典文獻數據庫公共古典文獻數據庫文獻檢索服務系統

計算機技術的飛速發展,為古典文獻研究的現代化提供了堅實的基礎,其貢獻是有目共睹的。然而,計算機技術在古典文獻研究中的運用仍然存在著極為嚴重的缺陷也是不容回避的。筆者近幾年來主持并直接參加設計“e書庫”數據庫的過程中,感到有必要將自己的一些想法提供給正在設計有關軟件的計算機專業人員、愿意使用該類軟件的專家學者們參考。

一、我國古典文獻數據庫建設的歷程

自古以來,歷代學者對古典文獻整理與研究一直沿襲手工操作的方式,然而自上世紀80年代后,計算機技術開始涉入到古典文獻研究中,對傳統的古典文獻整理與研究方法(自然也對一切需要使用古典文獻資料的專業研究)起到了極大沖擊。

首先簡單回顧一下計算機技術在古典文獻研究領域內發展的歷程。上世紀80年代初,我國一些圖書館、大專院校及科研機構陸續開始大規模地利用計算機設計并建立數據庫。大致說來有兩類數據庫,一類是書目數據庫,一類是文獻數據庫。南京圖書館于90年代初率先建立書目數據庫,對讀者檢索有關書目起到了極大的幫助。之后,各地圖書館紛紛效尤,類似的書目數據庫很快就普及了。雖說至今各地圖書館的書目數據庫的檢索方式,仍存在機讀編碼格式不統一的問題,然而書目數據庫提供的方便快捷的查詢功能,對讀者來說無疑是一件大好事,具體到學術研究來說,至少為研究者提供了一個比較方便的查找有關古典文獻的實用工具。

在建立書目數據庫的同時,一些大專院校與科研機構開始研發各自的文獻數據庫。從數據制作格式來說,大致可以區分為兩類,一類是圖像格式,即將按原著內容掃描成PDF圖像文本,另一類是元數據格式,即錄入文獻文本內容(或掃描并轉化為電子文本)導入數據庫,并轉換成可閱讀與檢索的數據庫機讀格式。一般說來,無論是PDF格式還是元數據格式,它們數據庫容量都較大,也提供了較為原始的檢索方式,為學術研究提供了不小的幫助。從上述兩類制作格式的數據庫來說,PDF圖像文本可以直接閱讀圖像文字,但總體說來不太適應古典文獻整理與研究的需要。而元數據格式較為精致,初步具備了較為方便的常用的功能,可以檢索、作卡片等等。

古典文獻數據庫從收錄的文獻內容來說,大致可以分為兩類:一類是類目數據庫,即按“類”收錄有關圖籍,如經學類、史學類、文學類以及甲骨文、金文或出土文獻資料、石刻資料等等,另一類是綜合數據庫,如《四庫全書》、《四部叢刊》、《國學寶典》之類數據庫。

大陸最早的古典文獻數據庫是河南大學的《宋人筆記檢索系統南宋主要歷史文獻》,建立于1987年。之后,各種數據庫紛紛涌現,比較重要的有南京大學、河南大學、蘇州大學聯合研制的《計算機甲骨文信息處理系統》、中國社會科學院《全唐詩》、《先秦魏晉南北朝詩》、《全上古三代秦漢三國六朝文》、《十三經》、《全唐文》、《諸子集成》等數據庫、北京大學《全宋詩》數據庫、南京師范大學《全唐五代宋詞》數據庫、四川大學《宋會要輯稿》數據庫(與海外合作)等等。港臺古籍數字化起步較早,均采用繁體字形式。1984年臺灣中央研究院歷史語言研究所開始研發《漢籍全文資料庫》,香港中文大學則有《漢及以前全部傳世文獻》、《魏晉南北朝全部傳世文獻》、《竹簡帛書出土文獻》數據庫等等。其中《竹簡帛書出土文獻》收錄《馬王堆漢墓帛書》、《武威漢簡》、《睡虎地秦墓漢簡》、《銀雀山漢簡》、《居延漢簡釋文合校》及其它散見簡牘共140多萬字的竹簡帛書出土文獻,價值頗高。

值得注意的是,這些數據庫主要是提供給本單位研究人員使用的,當然也有部分數據庫對外開放,為其他研究者提供一定幫助。雖然這些數據庫有種種限制,但它們無疑為古典文獻的研究(當然包括其它專業的學術研究)提供了方便。之后,隨著網絡技術的發展,各科研機構、大專院校、各地方的圖書館、以及其它數以百計的網站向用戶提供收費或不收費的古籍文獻檢索服務,甚至還提供古籍文獻的下載服務。顯然,這些工作的開展,為學術研究的現代化提供了極為有力的支持。至今為止,據筆者所查索到的除科研機構、大專院校、各地圖書館數據庫之外,提供各種文獻下載的中文網站至少在200個以上,其中就有不少古籍文獻下載的網站。這些古典文獻數據庫或有關網站的建立,確實為古典文獻整理與研究乃至其它學術研究提供了極有價值的幫助。

二、目前存在的問題

當然,我們也應該清醒地看到,在古典文獻數據庫大量涌現的同時,一些潛在的問題與數據庫本身的缺陷嚴重地制約著古典文獻數據庫的正常發展。

從古典文獻數據庫技術發展角度來說,筆者認為大致經過三個發展階段。第一階段是PDF圖像文本數據庫,其數據來源主要是以掃描方式獲得,形成PDF圖像文本。這種圖像文本優點是直觀,與原書分毫不差,但它的缺點是功能極其單一,僅可供瀏覽圖像和簡單地檢索書目。雖然第一階段的數據庫功能極少,但畢竟能方便而直觀地閱讀文獻了,因此引起了學者們廣泛的興趣。必須指出的是,由于功能太少,這類數據庫難以進一步發展。

第二階段是元數據數據庫,以香港迪志公司投資、書同文數字化技術有限公司設計、上海人民出版社出版的《四庫全書》、書同文數字化技術有限公司設計、萬方數據電子出版社的《四部叢刊》、尹小林《國學寶典》、南開大學永川公司的《二十四史》,以及大陸、港臺等大專院校或科研機構制作的較大型的數據庫為代表。它們的優點是具有較多的基本功能,如檢索、卡片、打印等功能,有些還附加了日歷查詢、字典、音樂背景等附加功能。然而,它們都不允許對數據庫內的文本錯誤進行修訂、沒有圖表處理能力、不提供功能升級服務(某些軟件提供所謂新版本,實際上只是增加一些文獻文本,并未真正提升軟件服務功能)。而且由于各自為政,開發者大都采取自定義方法來自造非常用的生僻詞,因此各種數據庫之間字庫不能相互兼容。這一階段的古典文獻數據庫也有吸收第一階段數據庫有圖像的優點,如上述提及的《四庫全書》就附有圖像,以利研究者核對文字。該階段絕大多數數據庫注意到版權問題,但仍有一些數據庫在版權上出現較大問題,乃至引起法律糾紛。

計算機技術廣泛地涉入文科研究領域,各種古典文獻數據庫紛紛建立,當然給古典文獻整理與研究的現代化提供了極其有利的幫助,然而,在筆者看來,目前計算機技術在這一領域中的運用形成紛亂無序的“戰國時代”,有許多亟待解決的問題,否則將會影響或說削弱計算機技術在古典文獻研究(乃至其它學術研究)中巨大作用。對此弊病,筆者擬作一概述,企望引起有關部門、數據庫開發者及使用者的重視,以期真正使計算機技術對古典文獻整理與研究起到更大的促進作用。大致說來,主要問題有以下幾個方面:

其一,缺乏整體領導與規劃,國家投資與收益不對稱。當然,首先應該看到,國家有關部門已經著手做了一些規劃,也實施建立一些比較大的古典文獻數據庫,如2002年10月,國家科技圖書文獻中心受科技部的委托,牽頭聯合中國科技信息研究所、國家圖書館、上海圖書館、中科院圖書館、北京大學圖書館等單位,啟動了我國數字圖書館標準規范建設項目。這一項目的目的就是力圖建立我國比較統一和規范的數字圖書館標準,自然也會對建立古典文獻數據庫有較大的借鑒與參考的價值。又如北京大學《中國基本古籍庫》、上海圖書館《古籍影像光盤制作及檢索系統》等等,也由國家有關部門投入大量資金,而且已經啟動并完成了部分內容。不過也應該強調,由于國家沒有制定出一個比較符合國內數據庫發展狀況的真正有價值的規范體系,因此這些項目的承擔者仍是各自為政,數據庫之間并不能兼容,不可能形成技術“合力”。再從所取得的社會效益或說實際使用價值來看,也不盡人意。因為至今為止建立的各種數據庫仍人為地設置許多障礙,無法使它們實現較大的使用價值。數據庫由國家投資,收益自然應該歸國家,或者成為不收費的公益數據庫,但目前收益既不歸國家,又未能成為公益數據庫,這不能不說是個極大的遺憾。實際上,數據庫制作者無償利用國家投資進行了開發,制作完成后卻獲得相當豐厚的收益,使人感到有“國家投資,個別單位圖利”的印象。筆者不反對交納一定使用費用,但收費單位一定應該說明收費后去向,絕不允許產生國家投資而由個別單位乃至某些個人得利的情況。

其二,開發商嗜利忘義,數據庫錯誤嚴重。除上述由國家投資開發的古典文獻數據庫外,還有一些有一定技術實力的軟件開發商加入到古典文獻數據庫的開發中來了。比較而言,各科研機構、大專院校及各地圖書館建立的古典文獻數據庫質量較高,而開發商則很少關注數據庫中的文獻質量。我們承認確有少量開發商制作的數據庫質量較高,如迪志公司開發的《四庫全書》之類,然而象《四庫全書》這樣的數據庫確實鳳毛麟角,難以尋覓。我們發現,甚至有些開發商僅僅是把文本進行文字掃描導入,疏于校對,因此文本錯誤百出,難以卒讀。由于利益驅使,絕大多數開發商都以“獨自開發”為己任,數據庫設計相互保密,互不兼容,使用戶深感不便。這些問題已嚴重地影響到古典文獻數據庫的正常發展了。

其三,熱門文獻數據重復,冷門文獻數據罕見。雖說目前數據庫品種繁多,但由于考慮到使用者對文獻內容的需求,因此許多開發者熱衷于開發那些熱門數據,而一些比較冷門的文獻則鮮有人問津。實際上,冷門的文獻并非是沒有學術價值的文獻,只是使用人較少而已。因而,目前不但數據庫中文獻內容重復現象極為普遍,甚至同名同姓的數據庫也有不少,如《四庫全書》就出現了武漢大學版、上海人民出版社版等數種不同版本。且不說那些數量繁多、質量也不甚高的數據庫浪費了多少人力物力,其實也使用戶陷入無可適從、欲舍不能的境地。用戶往往為了某些少量文獻內容不得不購買和安裝整個數據庫操作系統,而且這些龐大的數據庫大量占據硬盤空間,導致計算機運行速度大為減慢。而那些允許網上檢索的文獻數據庫又往往容量極大,上網檢索者多,導致“交通阻塞”!

其四,技術關卡重重,難以互相兼容。各開發者既鑒于不同開發目的與技術條件,又為防止他人解密,因此在開發過程中在數據庫某些程序中人為設置技術障礙,以保障自己利益不受損害。自然,開發者需要投入大量人力物力,保障本身利益不受損害是無可非議的。然而也由于人為地設置了障礙,卻使各種文獻數據庫之間不能兼容,無法形成合力,先進的技術反而成為技術壁壘。實際上,這一情況大大浪費了寶貴的人力資源與財力,對古典文獻的開發與利用有百害而無一利。另外,由于技術壁壘,在古典文獻數據庫的文字方面更導致許多問題。我國古籍常用漢字大約為4萬余個,這還不包括超過2萬個異體字及數千甲骨文、金文等古文字。然而我國目前在計算機上采納的國標字庫(GB)和擴展字庫(GBK),兩者相加也只有27000余字,這與我國古籍常用漢字數量相比,實在差距太大。因此,如此小的字庫與需求相比確實是捉襟見肘。為了彌補這一缺陷,一些軟件設計者就采取在自定義區自造字(乃至占據字庫中擴展B的位置)、有些也用圖片方式來填字。而這些自造字、圖片字,拷貝到WORD文本之后,由于內碼位置的差異就變成其它字了,從而導致文本錯誤。

其五,功能單調,難以真正為科研服務。建立較早的古典文獻數據庫功能比較單調,只能做些簡單檢索、拷貝,沒有更為先進的功能,不能適應學術研究的需要。后來的一些古典文獻數據庫也存在類似問題,例如《四庫全書》的檢索功能,雖說可以采用添加“作者”、“書名”等限定條件,但檢索結果只是羅列一排出處,無法直觀地了解檢索到的具體內容。而且《四庫全書》也沒有提供更多的功能給用戶,因此這一巨大的工程仍遠遠不能滿足用戶的需求。況且這一數據庫目前已經“定型”,不再繼續開發,使用戶對此深感遺憾。而其它古典文獻數據庫設計者的思維大多仍停留在“文本之爭”當中,重復著原來設計思想的錯誤,沒有更多地開發為科研服務的有效功能,因此在筆者看來,這一做法顯然不可能真正擺脫古典文獻數據庫目前面臨著的困境。

其六,學術圈地,使人心有余而力難用。解放后,一些國家級出版社化費了極大的精力,組織專家點校了不少重要古籍,為學術研究的發展作出了極大貢獻。然而時至計算機時代的來臨,卻出現了“版權”的問題。一些制作者忽視了國家有關版權法規,直接利用了一些出版社的成果來牟取經濟利益,理所當然地會產生版權糾紛。筆者以為,保護版權是每個學者乃至每個公民應盡的責任,根本毫無討價還價的余地。然而問題是,現在一些出版社由于各種原因,沒有對自己已出版的點校過的古籍進行開發,而愿意開發這些古籍資源者卻無法涉入其中,導致他們處于既想開發這一寶藏又無法回避版權問題的尷尬境地,這就使眾多需要使用者望洋興嘆。如果有關出版社不愿授權,那么想要開發這些古籍者只能返回到沒有標點的原始文本中去。這種情況確實使每一個希望使用古典文獻數據庫的用戶感到極其失望,而且嚴重影響了古典整理與研究的現代化進度。

上述種種現實情況,已經是制約計算機技術對古典文獻整理與研究支持的瓶頸了,如果不解決這些問題,計算機技術即使再發達,恐怕也難以對古典文獻整理與研究予以真正意義上的支持與幫助。

三、如何解決古典文獻數據庫存在的問題

古典文獻數據庫存在的問題是十分明顯的,那么如何解決這些問題,以利學術研究(當然包括文獻研究)的迅速發展?筆者以為現在應該設計和開發出新一代文獻數據庫的軟件。按照筆者設想,這代軟件應該以建立能自由升級的公共古典文獻數據庫為目的,是一種以提供強大功能為主、徹底解決版權問題的數據庫,實際上是建立一個規模巨大的功能相對完善的學術研究資源庫。所謂公共古典文獻數據庫是綜合性數據庫,只能由國家有關部門作為主要規劃者,它應該盡可能地包羅我國傳世古典文獻、碑刻資料和出土文獻等。在此基礎上允許建立適應每個研究者研究范圍的個性化的文獻檢索服務系統。個性化的文獻檢索服務系統是指每個具體研究者所擁有的安裝在各自計算機上的文獻檢索服務系統,它擁有一定數量的適合自己研究的范圍的古典文獻文本。其實,各個研究者并不需要一個“包羅萬象”的規模極其巨大的數據庫,即使象占據6至7個G硬盤的《四庫全書》,具體到一個研究者真正需要的內容并不是全部,而是其中一部分內容。

問題的關鍵在于公共古典文獻數據庫與個性化文獻檢索服務系統兩者之間的技術“契合”,即兩者互相兼容的程度。公共古典文獻數據庫應該與個性化文獻檢索服務系統有所區別,公共古典文獻數據庫應該側重于文獻數量的完善、完備,而個性化文獻檢索服務系統則應該考慮其功能強大。因此,從本質上說,公共古典文獻數據庫應該是一個統一的設計比較周密、與其它個性化數據庫在技術上能實現良好兼容的的數據庫;而個性化文獻檢索服務系統應該是“百花齊放”式的但必須能與公共古典文獻數據庫兼容而非各自為政的小型數據庫。兩者關系是源與流的關系。鑒于此,筆者以為目前應該從兩個層次上來解決問題,一是盡快建立公共古典文獻數據庫;一是繼續開發個性化文獻檢索服務系統。

根據筆者近幾年的實踐,感到要解決這些問題并非不可能的。其實只要認真對目前計算機技術在古典文獻整理與研究中存在的問題作一分析與梳理,重點突破一些瓶頸問題,應該說是能解決上述這些問題的。那么怎么才能突破上述這些瓶頸呢?筆者以為以下幾個方面是值得考慮的。

其一,加強總體規劃,建立公共古典文獻數據庫。作為一個具體單位來說,誰也沒有可能建立一個包羅萬象的古典文獻數據庫,因此,這只能由國家有關部門組織人力物力來完成。其實,就目前來說,國家投入資金并不少,但由于制度原因,只是向某些重點院校或科研單位、向重點項目投入巨資,而這些單位建立起各自為政的古典文獻數據庫、期刊數據庫,雖然也為學術研究作了一些貢獻,但不可否認的是,由于各自設計思路不同,相互之間不能兼容,已經妨礙到數據庫進一步發展了。以筆者愚見,國家有關部門應該主動負起責來,加強領導,重新考慮古典文獻數據庫的立項問題,組織力量、投入資金,真正建立起一個規模巨大、能為絕大多數研究者利用的公共古典文獻數據庫。同時也應該考慮所立項的古典文獻數據庫與其它數據庫(如現代文獻數據庫、當代文獻數據庫、期刊數據庫等)之間的兼容關系,只有這樣,或許若干年之后就能建立起一個價值極大的能真正為學術服務的公共古典文獻數據庫,乃至包羅一切文獻的數據庫。當然,就公共古典文獻數據庫來說,可以進行適量收費服務,但主要仍應該定位在“公益”上,不以“利”為主,這樣才能真正建立一個有價值的公共古典文獻數據庫來。

其二,數據庫內容與文獻檢索服務系統分離。這個問題與上述問題是緊密關聯在一起的,如果不能真正做到數據庫內容與文獻檢索服務系統分離,那么目前“列國紛爭”的面貌是不可能真正解決的。

我們知道,一個古典文獻數據庫實際上是兩大部分組成的,一是古典文獻數據庫內容,即數據庫所包括的文獻文本,二是對這些數據進行管理的文獻檢索服務系統。其實目前所見有關古典文獻數據庫都是“兩者合一”,即既包含一些文獻數據內容,又有具體的操作服務系統。事實上,這些古典文獻數據庫在功能上明顯存在缺陷的。就目前古典文獻數據庫管理形式來說,一是網絡管理,一是個人管理。前者是網絡數據庫,一般是單位所擁有的數據庫,即我們所說的網絡版,后者是安裝在個人電腦中的個人版。就功能來說,網絡版沒有必要具有卡片、文本修訂、書簽等個性化的功能,個人版應該具有做卡片、文本修訂、書簽、文獻管理等個性化的功能。就文獻數量來說,網絡版自然力求文獻內容豐富,盡可能包羅文獻文本,而個人版實際所需要的文獻數量是根據各自研究需要而定的,因而強行“規定”使用所有文獻內容并不值得肯定。就文獻內容來說,網絡版與個人版都應該允許不斷地增加其數據庫文獻內容,但不同的是,網絡版應該是只增不減,而個人版應該允許用戶根據研究需要自由增減文獻內容。

在筆者看來,應該從單純的文本內容競爭的思維中解脫出來,進入以文獻檢索服務系統競爭為主,文本竟爭為輔的體系,或許是解決古籍文獻數據庫的出路。也就是說,擅長計算機技術的開發者(開發商)應該注重文獻檢索服務功能的開發與完善,而具體文本的整理可由研究學術的專業人士來完成。這樣,開發者就可能開發出比較成功的文獻檢索服務系統,而數據庫中的文本也由于專業人士的加入而能大大提高文本的準確率,然后合成為一個規模較大的公共古典文獻數據庫。當然,輸入和整理古典文獻文本可以采用投標(或以申報項目形式)來確定,規定統一格式,要求保證文本的正確率達到一定比例,完成后再分別導入這一公共古典文獻數據庫中;經過若干年努力,最終能形成一個規模巨大、適應于學術研究的公共古典文獻數據庫。我想,采取這種措施不但節省了大量重復投資,真正做到人盡其才,物盡其用,而且一旦建立起這個規模巨大的公共古典文獻數據庫,可以解決了目前數據庫泛濫、文本錯誤太多、重復勞動等弊病,而且真正能做到廣大學者對古典資源“共享共有”。

在此基礎上,各個開發商可以力求開發學者們個性化的文獻檢索服務系統,它無須考慮文獻文本內容,但必須功能強大、操作方便,并與公共古典文獻數據庫完全兼容,學者們通過“購買”文本或其它方式來方便地組建自己的數據庫,這樣或許會給學術研究帶來真正的方便。

還須補充的是,我國的古典文獻中有大量表格與圖片,而由于技術原因,目前所有古典文獻數據庫都沒有導入原著的表格與圖片,極個別數據庫有少量圖片也是不能檢索,這是目前眾多古典文獻數據庫的重大失誤之一。其實只要真正化力氣去探索,這個問題是不難解決的。因為筆者曾作過設計并反復試驗,只要設計合理,圖片與表格不但可以導入數據庫,而且都是可以在數據庫中進行檢索。

其三,加速確定字庫方案,以利數據庫健康發展。當然,要真正解決公共古典文獻數據庫問題,還必須解決字庫問題。目前,國家雖然組織專家在論證有關字庫問題,然而由于進程不快,遠遠落后于當今計算機技術發展的需要。按照筆者的看法,應該建立一個以Unicode字庫為基礎的、適應漢語古籍需要的、并與國際接軌的真正有中國特色的字庫。這就需要抓緊工作,迅速落實擴展字庫B的內碼。同時根據我國漢字的具體特點,對自定義區域的6400字的內碼配置也應該有所規范,這樣才能使漢語字庫統一問題落實到實處。如果真能做到如此,那么就能真正解決目前古典文獻數據庫之間字庫互不兼容問題。

與字庫相關聯的是字體問題。古典文獻數據庫應該考慮到古代文獻對文字的特殊需要,筆者以為凡是古代文獻數據庫中的文本應該保留繁體字,以防繁簡不分而導致文義偏差。就目前計算機技術來說,解決這一問題是毫無困難的。其實用繁體字輸入文本早已不是問題,而掃描古籍文本再轉換成文字的技術也十分成熟,如北京書同文公司的“數碼翰林”OCR識別系統,應該說是極有價值的識別軟件,對絕大多數繁體文字能夠正確識別。如果能再進一步加以改進,使擴充字庫數量并與Unicode字庫兼容,那么古代文獻的文字識別問題是可以得到解決的。應該強調的是,古代文獻以繁體字導入數據庫,但應該允許在數據庫中自由進行繁簡轉換,換句話說,若需要使用繁體字時,文本可以保留繁體字,而需要簡體時,可以十分方便地轉換成簡體,這樣就適應用戶對繁簡體的不同需要了。

其四,徹底解決古典文獻版權問題。這是困撓計算機古典文獻數據庫建設的重要難題之一。自然,這一問題要真正得到落實確實存在相當困難的,因為版權保護工作任重道遠!不過,即使困難再大,古籍文獻數據化的發展的潮流是不可能停止的。筆者以為,有關出版社在維護自身法定的版權權益的前提下,應該從大局出發,在收取一定數量的報酬前提下,允許制作有關古典文獻的數據庫,以利學術研究的發展。至于報酬多少可以也應該實事求是地酌情商定,國家有關部門應該主動與那些出版社協調,亦可將目前大量分散投入到各課題中的資金中抽出部分來補償有關出版社,雙贏互利,以求突破版權瓶頸,早日解決這一棘手的問題。

與此相關的是古典文獻電子文本的版權問題,這也是個極難處理的問題。因為用戶若貪圖小利,版權意識不強,不愿化費代價使用電子文本,就容易產生“盜版”問題,如此就使得制作古典文獻電子文本者的正當利益大受損失。按筆者設想,如果真正能夠由國家有關部門主管古典文獻數據庫建設工作,那么就可以設想建立公共古典文獻數據庫規定導入數據庫的文獻文本都給予一個“統一編號”,沒有統一編號的文獻就不能直接導入公共古典文獻數據庫和個人使用的文獻檢索服務系統中,也就是說,個人使用古典文獻電子文獻必須化費一定的代價才能取得使用權,這樣就可以保證制作古典文獻電子文本者的一定收益,防止版權意識不強者侵權使用。同時由于古典文獻電子文本都有了統一編號,那么也就可以防止某一具體文獻文本重復錄入的問題。即使有部分重復,古典文獻電子文本也可以在用戶選擇過程中優勝劣汰。

其五,建立公平的交易平臺。建立龐大的公共古典文獻數據庫當然需要投入巨大的資金,而這種古典文獻數據庫自然不是每一個普通研究者購買得起的。在筆者看來,大專院校、科研機構應該在經濟允許的前提下購買有關數據庫,以供教學、研究之需。當然也應該允許個人在交納一定數量的經費后,自由上網使用這一數據庫,并允許購買(下載)一定數量的古典文獻文本,自行導入各自的文獻檢索服務系統,以利建立個性化的有實用價值的數據庫。如果真能做到這樣的話,那么就將會促進學術研究的迅速發展。

鑒于此,筆者以為就有必要建立一個公平的交易交流平臺,既不是“就此一家,別無分店”的壟斷式的高價出售,又不是無論你需要不需要而進行的“一攬子交易”式的硬性搭售。在筆者看來,應該允許研究者自己輸入的文本在交易平臺上自由交易或交換。當然,學者將自行輸入文本無償贈送給同行應該予以鼓勵,事實上,在網上已經可以看到一些學者將自己輸入的文本無償提供的例證。學術是公器,沒有必要象守財奴那樣守住這一私產。筆者不反對從網上下載一些有價值的文獻文本或其它資料作為自己研究所用,但反對下載文獻文本或資料后,通過各種方式去“變錢”,成為牟利的手段。

其六,發展新興學科,培養專業人才。就目前來說,數據庫開發主要由計算機專業的人才來進行,由于專業的局限,對文獻數據庫尤其是古典文獻數據庫的建設肯定有相當的隔閡,作為統籌解決這一問題,應該考慮在有條件的學校中打破原有招生專業,設計一個文理交叉學科:古典文獻與計算機技術(古典文獻現代化)專業。這個專業以培養古典文獻素養較好,計算機技術出色的社會急需的專門人才為目的。其實培養這樣的人才并非是很難的事。在現有的國內一些招古典文獻學本科專業中增加有關計算機技術課程,化上一兩年時間讓學生專門學習計算機技術,就可以培養出一些有用之才來。當然,還可以以歷史文獻或古典文獻專業與計算機專業聯合招收碩士研究生,以應急需。我想,這種適應于現代社會需要的新型專業人才是肯定會受到社會歡迎的。