煤炭資源關鍵詞搜索算法研究
時間:2022-06-24 10:22:17
導語:煤炭資源關鍵詞搜索算法研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
K-means算法是比較典型的搜索引擎算法。K-means算法接受輸入量k;然后將n個數據對象劃分為k個聚類以便使得所獲得的聚類滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小。聚類相似度是利用各聚類中對象的均值所獲得一個“中心對象”(引力中心)來進行計算的。K-means算法的工作過程說明如下:首先從n個數據對象任意選擇k個對象作為初始聚類中心;而對于所剩下其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數。k個聚類具有以下特點:各聚類本身盡可能的緊湊,而各聚類之間盡可能的分開。具體如下:輸入:kdatan①選擇k個初始中心點,例如c0data0…ck-1datak-1;②對于data0…。datan分別與c0…cn-1比較,假定與ci差值最少,就標記為i;③對于所有標記為i點,重新計算ci所有標記為i的dataj之和/標記為i的個數;④重復2、3直到所有ci值的變化小于給定閾值。
FCA算法在煤炭資源關鍵詞搜索算法中的研究
在其理論中每個形式概念由兩部分組成:外延(對象部分)和內涵(屬性部分)。形式概念分析的兩個重要的組成部分是形式背景和概念格。概念格的每一個節點是一個形式概念,由兩部分組成:外延和內涵。外延,即概念所覆蓋的所有對象的集合;內涵,則被認為這些對象所擁有的共同特征的集合。概念格作為形式概念分析核心的數據結構,本質上描述了對象和特征之間的聯系,表明了概念之間泛化和例化之間的關系,其相應的Hasse圖,則實現了對數據的可視化。在搜索引擎算法中,根據文本匹配的基本原理,研究基于形式概念分析(FCA)的文本匹配方法,主要是使用FCA的方法來表示網頁,使網頁的內容表達的更合理,根據現在的網頁表示形式,制定與之適合的網頁與用戶輸入的關鍵詞的匹配操作,以便更加準確地計算網頁與用戶所輸入的關鍵字的匹配程度,根據用戶對檢索到的網頁感興趣的程度來修改對網頁的表示,以提高信息檢索的質量。當煤炭技術人員和煤炭愛好者輸入查詢文本或者關鍵字的時候,根據網頁與用戶輸入的關鍵詞的匹配操作,便可以返回所要搜索的結果。
K-means算法與FCA算法的實驗結果的比較
在實驗過程中運行的機器是1臺PC,配有CPUIntelPentium(雙核),內存為2GB,硬盤160G,運行的操作系統為WindowsXPSP3。算法實驗結果如表1所示,算法時間對比如表2所示。通過上述實驗中發現FCA算法程序運行時間明顯比K-means算法運行時間長,但是準確率比K-means算法算法高一些;使用概念格提高了準確率,由于FCA算法較復雜,但是運行時間比較長;使用K-means算法,由于FCA算法較簡單,所以節省了運行時間。
通過上述的研究分析,K-means與FCA算法適合作為搜索引擎的算法,而且有各自的優點和缺點,使用基于K-means與FCA的煤炭資源關鍵詞搜索算法將會使搜索引擎所搜索到人們滿意的結果,煤炭技術人員和煤炭愛好者使用搜索引擎會搜索到更滿意的結果。
本文作者:朱正國工作單位:攀枝花學院
- 上一篇:煤礦勘查規范的困惑和建議
- 下一篇:課程內容的要素原則與結構研究