網絡信息檢索研究論文

時間:2022-08-31 03:48:00

導語:網絡信息檢索研究論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

網絡信息檢索研究論文

[摘要]搜索引擎是人們使用Internet信息資源的重要工具。本文對目前的中文搜索引擎進行了簡要的分析,指出了其存在的缺陷和發展的方向。

[關鍵詞]信息檢索中文搜索引擎存在的問題發展方向

隨著Internet信息資源的迅速增長,如何在浩瀚的信息海洋中準確、方便、快速地找到自己所需的信息,成了迫切需要解決的問題,從1995年開始出現的信息檢索工具——搜索引擎很好地解決了這一問題。然而各種搜索引擎,特別是尚處于發展初期的中文搜索引擎還存在著很多的缺陷有待改進,本文旨在分析目前中文搜索引擎存在的主要問題,并為解決此類問題提出一些建議和方法。

一、搜索引擎的概念和及類型

搜索引擎又稱檢索引擎,是指運行在Internet上,以信息資源為對象,以信息檢索的方式為用戶提供所需數據的服務系統,主要包括信息存取、信息管理和信息檢索三大部分。

目前,中文搜索引擎主要有三種類型:目錄式搜索引擎、機器人搜索引擎(又稱全文搜索引擎)和元搜索引擎。

1.目錄式搜索引擎。目錄式搜索引擎是以人工或半人工方式收集信息,建立數據庫,由編輯人員在訪問了某個web站點后,對該站點進行描述,并根據站點的內容和性質將其歸為一個預先分好的類別。由于目錄式搜索引擎的信息分類和信息搜集有人的參與,其搜索的準確度較高,導航質量也不錯。但因其人工的介入,維護量大,信息量少,信息更新不及時都使得人們利用它的程度有限。國內著名的新浪、搜狐、中文雅虎都屬于這種類型。

2.機器人搜索引擎。這是一種目前運用較廣泛的搜索引擎。國內以百度,google、天網為代表。它是使用自動采集軟件Robot,搜集和發現信息,并下載到本地文檔庫,再對文檔內容進行自動分析并建立索引。對于用戶提出的檢索要求,通過檢索模塊檢索索引,找出匹配文檔返回給用戶。

機器人搜索引擎具有龐大的全文索引數據庫。其優點是信息量大,范圍廣,較適用于檢索難以查找的信息或一些較模糊的主題。缺點是缺乏清晰的層次結構,檢索結果重復較多,需要用戶自己進行篩選。

3.元搜索引擎。元搜索引擎是一種調用其他搜索引擎的引擎。它是通過一個統一的用戶界面,幫助用戶在多個搜索引擎中選擇和利用合適的搜索引擎來實現檢索。中文元搜索引擎開發較少,較成熟的則更少,萬緯搜索是目前有一定影響的中文元搜索引擎。

二、現階段中文搜索引擎存在的主要問題

1.信息覆蓋面有限。現階段搜索引擎所覆蓋的數據庫的規模是非常有限的,據美國科學期刊Natures一篇報告中稱,全球最大的搜索引擎也只能覆蓋現有網頁的16%。中文搜索引擎因起步慢、中文信息所占互聯網全部信息的比例小(只占全部網絡信息的5%)等原因在這方面尤為突出。

2.查全率不高。查全率是指檢索出的相關信息量與存儲在檢索系統中的全部相關信息量的百分比,是判斷檢索系統質量的度量之一。

國內絕大多數的網站組織的信息大多都是通過瀏覽方式獲得內容。即使是經過精心組織、編排非常合理的網站,也會有70%~80%的網頁不能被搜索引擎檢索到。中文目錄式搜索引擎因需人工介入、維護量大,在這方面表現較明顯。

3.查準率較低。查準率更是判斷檢索系統質量的重要尺度。是指系統所檢索到的真正與查詢內容相關的文檔占檢索出的所有文檔數的百分比。

造成查準率低的原因是,部分搜索引擎的分類體系與科學知識體系之間缺乏內在聯系;類目之間邏輯關系模糊,導致檢索路徑與搜索引擎類目錯位;信息加工深度不夠;檢索功能單一;檢索詞的專指性較差;大部分的檢索結果是題錄式而非全文式,其內容簡單等等。機器人搜索引擎的分類和索引缺乏人工的參與,其查準率不如目錄式搜索引擎,且檢索結果中還含有大量的重復、虛假的信息。

4.專業性的搜索引擎發展遲緩。專業性的搜索引擎是為專門收錄某一行業,某一主題的信息而建立,能夠提供專題信息查詢服務的搜索引擎。目前中文搜索引擎大多是綜合性的,能同時收錄各行業、各學科的多種信息,但在反映某一行業或某一專題的信息方面很難做到全面、精確,不能給用戶提供特定的信息服務。這就使得專業人員,特別是某一領域的學者、專家不愿意利用中文搜索引擎去查詢資料。

5.檢索功能方面存在缺陷。一是檢索中符合布爾邏輯運算符的搜索引擎極為有限;二是關鍵詞檢索輸出的結果相關度排序方式雜亂,不能根據用戶需要來選擇信息輸出的方式;三是多數的搜索引擎是面向主題搜索不是面向用戶搜索,不能重復利用用戶檢索過的成果,更不能對特定的用戶進行定題跟蹤服務;四是檢索網站的主頁不規范,有些太簡,有些又太繁,而且廣告內容太多,無法進行有效檢索。三、中文搜索引擎的發展方向

1.提高查全率。首先是需要開發分布式的系統。這種系統可以把各個接點當作是新的信息資源,擴大數據庫的規模,正在興起的元搜索引擎屬于這種系統,它在接受了用戶的查詢命令后,可同時用多個搜索引擎進行查詢;二是把專業數據庫資源納入自己的檢索范圍。除了Web信息資源外,網上還有大量的非Web信息資源,如聯機檢索系統、光盤檢索系統、專業數據庫系統。如中文搜索引擎能把這些Web和非Web資源結合起來使用,即使有的只能查到題錄、文摘等內容,也大大擴展了檢索范圍,能為用戶提供較全面的檢索需求。

2.提高查準率。需解決以下幾個難關:首先需提高搜索引擎的信息過濾功能。在對網絡信息進行集中的搜集之后,搜索引擎還需對這些信息進行鑒別和過濾,即剔除大量的無用信息,而把有效的信息提煉出來并加以聚集;第二則是需對專家過濾后的信息進行一定的檢索標引,并給予相關的標識符號,如關鍵詞、分類號、主題詞等各種標識,其關鍵是利用智能檢索技術,提高準確性;把檢索的結果存儲在相應的數據庫中,并由URL與Internet建立鏈接供用戶使用;還需注意信息定期更新,以保證信息的新穎性和鏈接的可靠性。

3.建立垂直化專業領域的搜索引擎。網絡用戶所從事的職業千差萬別,不同的用戶對信息搜索往往有不同的要求。綜合性的搜索引擎收錄的范圍太廣、太大無法滿足某一特定的需求。垂直化專業搜索引擎則可解決這一難題。它只面向某一特定的領域,專注于自己的特長和核心技術,能保證對該領域的信息的收錄齊全與更新迅速。在提供專業信息方面有著大型綜合搜索引擎無法比擬的優勢,所采用的技術都是些較成熟的技術。

中文垂直化專業搜索引擎的發展已取得了一定的成功,如新浪的新聞搜索,博客搜索、雅虎的個性化旅行路線搜索、百度的MP3搜索、Google的學術搜索,航班搜索等都為用戶提供了較好的搜索功能,為今后的繼續發展奠定了基礎。

4.搜索引擎的智能化發展。智能搜索引擎是未來搜索引擎的發展趨勢。可以通過自然語言與用戶交互,最大限度地了解用戶的需求。智能檢索一是表現在搜索引擎技術的智能化,研究重點放在自然語言處理技術和人工智能技術的研究上;另一表現是體現在搜索引擎面向檢索者的智能化,它致力于通過分析檢索者的檢索和瀏覽行為來學習檢索者的需求,利用搜索引擎現有的服務有選擇地為檢索者提供個性化的服務。

5.加強搜索引擎的檢索功能。首先需強化全文檢索功能。利用Robot實現對站點頁面文字內容的全面檢索技術。比起目錄檢索,全文檢索提供了全新的檢索功能,可以直接根據文獻資料的內容進行檢索,支持多角度、多側面地綜合利用信息資源,全面、準確、快速是衡量全文檢索系統的關鍵指標;同時改善用戶檢索界面,設計簡潔、明白的界面引導用戶進入檢索狀態;更方便、實用的檢索技巧的利用,中文搜索引擎需簡化和統一語法規則,如布爾邏輯檢索符號的利用:空格或“*”代替“與”、“+”代替“或”、“-”代替“非”,規范語法符號,節省用戶的檢索時間;還需研發查詢圖像、聲音、圖片和電影的搜索引擎。

6.完善元搜索引擎。元搜索引擎彌補了獨立搜索引擎不全的特點,提高了檢索的全面性。現開發出的中文元搜索引擎的數目很少,還有諸多缺陷,需在各方面進一步改進。

元搜索引擎要對各獨立的信息特色進行較細致的調查,以確定自己要收錄的范圍;在對目標搜索引擎的組織中突出獨立搜索引擎的檢索特色,并設計各搜索引擎之間的檢索方式的轉換算法,提高用戶檢索行為的針對性;建立更為靈活的,面向用戶的信息檢索服務。檢索界面要統一和友好,檢索方法的設置要提供給用戶更多的自由空間,使用戶可以按照自己的意愿合理的組織檢索式;在檢索結果的顯示中要開發出一個有效的檢索結果去重、選擇、排序和優化算法,這是中文搜索引擎開發中的一個重點和難點。

參考文獻:

[1]孫建軍成穎:信息檢索技術[M].北京:科學出版社,2004

[2]王豐:國內中文搜索引擎研究[J].網絡通訊與安全,2007,(8)