網絡信息挖掘評價論文

時間:2022-03-18 03:53:00

導語:網絡信息挖掘評價論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

網絡信息挖掘評價論文

【正文】

隨著電子商務的蓬勃興起,許多企業已經開始意識到其所擁有的豐富的信息資源在商業決策中具有潛在的巨大商業價值。更好的決策支持需求和企業電子商務的開展正推動著網絡信息挖掘系統的研究與開發。

鑒于網絡信息挖掘是在數據挖掘的基礎上發展起來的,因此對于網絡信息挖掘系統的基本問題,本文仍將利用數據挖掘系統的基本理論來描述。

目前,由于網絡信息挖掘系統的發展正在起步階段,因此它的分類還無法達到數據挖掘系統分類那樣細致。具體而言,對網絡信息挖掘系統分類可以從商業能力、挖掘數據類型、挖掘功能、數據分析方法和應用領域角度進行。其中商業能力角度的分類與數據挖掘系統的商業能力分類完全相同,即分為商業產品和研究原型。而從另外幾個角度看,網絡信息挖掘系統的類型具有自身一些特點,例如從應用領域角度看,網絡信息挖掘系統可以分為面向電子商務型、面向遠程教育型、面向旅游型、面向廣告業型等。隨著網絡信息挖掘技術的進一步發展,將出現更加豐富的網絡信息挖掘系統類型。

1系統評價現狀調查

據調查,目前國內外還沒有出現完全針對網絡信息挖掘系統的評價成果,因而對網絡信息挖掘系統的評價具有一定的創新性。筆者認為,對網絡信息挖掘系統的評價可以充分地借鑒數據挖掘系統的評價方法。應該說這兩類系統在很多評價指標上都有重合。

從國外來講,1998年前后已經有一些研究人員和機構對數據挖掘系統進行了一定的評價研究。他們所采用的評價體系各有特點,以下是一些簡要介紹。

1)J.F.Elder等人主要對17種數據挖掘系統進行了評價[1],其中包括了著名的Clementine、IntelligentMiner系統。這些系統具有以下共同的特點:單平臺(StandAlone)、多用途、支持多種模式和分類算法,并支持模式構建中的項目階段。他們主要從6大方面對這些系統進行比較,除此之外,他們還單獨從用戶端角度對數據挖掘系統性能進行評價。他們認為并非支持的算法越多越好,各種算法面對不同的問題其解決能力也是不同的,它們具有自身的優點與缺點。在文章的最后,還對這17種產品的優勢/劣勢作了總體的描述性評價。

2)M.A.King等人針對14種桌面型數據挖掘系統[2],重點對各個系統的特征和性能進行比較。他們選用了20個評價指標,并設計了一個標準的評價過程——6分制評分標準來評價各種軟件工具的優點和缺點。他們評價的特色在于針對4種算法的產品分別評價,并采用4類數據集測試系統的性能。他們認為網絡法(PolynomialandNeural)要比分割法(TreesandRules)更精確,另外也提出可以加入計算機環境、數據庫連接性、提供商的穩定性等指標進一步評價。

3)D.W.Abbott等人主要針對高端型(High-end)用于欺詐甄別的數據挖掘系統進行了評價[3]。盡管僅選擇了5個系統(Clementine、IntelligentMinerforMata、Darwin、En-terpriseMiner、PatternRecognitionWorkbench)進行評價,但是他們針對這5個專門應用于欺詐甄別的系統進行了細致的比較。

4)M.Goebel等人將數據庫中知識發現(KDD)與數據挖掘結合到一起評價[4]。他們在介紹一般知識發現任務以及解決這些任務的方法基礎上,主要調查了43種提供這類功能的軟件工具。這些工具既包括研究的原型系統,也包括已經商業化的產品。其中有較為著名的Clementine、DBMiner、IntelligentMiner系統。他們采用了一個系統特征分類體系對上述產品進行比較,并提出一些尚待解決的問題:如不同技術的集成、可擴展性、與數據庫的無縫集成、對正在變化中的數據進行管理以及非標準的數據類型等問題。

5)J.Hah博士沒有針對個別的數據挖掘系統具體評價,但他認為評價一個數據挖掘系統應包括如下幾個方面[5]:數據類型、系統問題、數據源、數據控制的功能與方法、數據挖掘系統和數據庫或數據倉庫系統的結合、可伸縮性、可視化工具、數據挖掘查詢語言和圖形用戶接口。

6)A.Berson等認為數據挖掘軟件產品因為不同的目標用戶和不同類型的解決問題而具有不同的重點[6]。主要可以分為目標解決方案、商業工具、商業分析工具、研究分析工具4類。另外,從目前整個數據挖掘市場看也可以分成3個主要組成部分:通用的工具、綜合DSS/OLAP/數據挖掘工具和快速成長的面向特定應用的工具。他們還進一步提供了一套專門用于數據挖掘工具評價的屬性和方法,對11種具體的工具進行了評價,其中包括Clementine、IntelligentMiner等著名的工具。

從國內來看,數據挖掘系統的評價研究不如國外活躍,這與數據挖掘系統在國內的應用仍處于初步階段有直接關系。目前這方面的研究狀況如下。

朱愛群提出了一種高級記分卡系統[7],采用該記分系統有助于商業用戶更好地比較不同的數據挖掘技術,并以此作出正確的選擇。該系統共有3種不同的記分卡:商業記分卡、算法記分卡、應用記分卡。

從上述文獻的調查看,國內外數據挖掘系統評價普遍具有的特點是:

1)重視系統算法能力的評價。在7個調查對象中,其中6個都明確采用了算法評價指標,特別是J.F.Elder、D.W.Abbott、朱愛群等人,對算法指標的分析尤為細致。

2)突出或者具有從商業能力角度的評價。朱愛群和A.Berson都明確提出采用商業能力指標,而其他研究者提供的從用戶端角度對系統易用性的評價實際上可以作為系統商業能力評價的一部分。

3)缺少對數據挖掘流程的評價。數據準備、數據預處理、數據建模、模型評估、模型應用等一系列步驟是幾乎每個數據挖掘系統所必須經歷的,往往各種系統在每個階段表現的能力各有不同,因此有必要對過程中的每個階段進行評價。

4)缺少從應用能力角度的評價。從所有的調查對象中看,僅有國內的一個評價提到了應用評價,而且其具體的指標并不是直接針對如保險業、零售業、電子商務等實際應用領域的。

由此可見,本文所要進行的網絡信息挖掘系統的評價應當積極吸取已有數據挖掘系統評價的優點,同時結合網絡信息挖掘的特點來彌補評價中的不足。

2評價系統的選擇

由于目前許多數據挖掘系統也同時提供網絡信息挖掘功能,因此本文所要評價的網絡信息挖掘系統,一方面從一些著名的數據挖掘系統中選擇,一方面將參考KD-nuggets上有關網絡信息挖掘軟件的最新統計報道。

從文獻調查看[8],Int

elligentMiner、EnterpriseMiner、MineSet、Clementine、Darwin、Scenario等被超過50%的團體或個人選用作為數據挖掘評價系統。

從KDNuggets2001對數據挖掘工具利用情況的調查看,位于前5位的工具依次為:Clementine(18%)、SPSS/An-swerTree(16%)、SAS(12%)、CART/MARS(11%)、SASEM(6%)。

通過進一步調查KDnuggets關于網絡信息挖掘的報道[9],可以發現它所提供的19種網絡信息挖掘軟件工具是目前這個領域比較全面和權威的。因此,本文決定對這19種網絡信息挖掘軟件工具展開調查(見表1)。

表1商業能力評價(產品成熟度和提供商實力)

附圖

注:采用7分制評分,各個數字代表的含義分別是:1—優秀;2—好;3—一般;4—還可以;5—較差;6—沒有;7—有,但無法評價。

從上述調查可以發現,比較熟悉的數據挖掘系統的提供商諸如SPSS公司、SAS公司在網絡信息挖掘市場上仍然比較活躍,特別是SPSS公司,它目前擁有Clementine和net.Analysis兩種網絡信息挖掘軟件產品。3評價指標與方法

通過對數據挖掘系統評價方法的調查,了解到目前還沒有針對網絡信息挖掘系統評價報告公布出來。因此,本文在借鑒多種數據挖掘系統評價方法的基礎上,提出從商業能力、算法能力、網絡信息挖掘過程能力、電子商務應用能力這4個角度來評價網絡信息挖掘系統的綜合能力,以期為網絡信息挖掘系統的選擇提供一定的參考。

3.1商業能力

這個指標又具體通過下面3個子指標體現:

1)產品的成熟度和提供商的實力。這個指標可以體現網絡信息挖掘軟件產品是否成熟及它的提供商具備的實力的大小。通常可以從產品推出時間、更新頻率、公司創立時間、擁有客戶數量、客戶涉及領域等多個方面綜合考慮。

2)易用性。這個指標主要從用戶端角度來考慮的,又可以分為如下4個子指標:①挖掘過程的清晰度;②無技術術語;③熟悉的環境;④可視化的報告。

3)投資回報率(ReturnonInvestment,ROI)。這個指標通常被認為是一個主觀性很強、不易衡量的指標,因為對它的評價很大程度上依賴于開展的個別項目以及挖掘專家的專業知識和技能。然而它仍不失為衡量網絡信息挖掘系統商業能力的重要指標之一。在電子商務環境下,網絡可以使投資回報率的評測較易實現,結果更為客觀。這個指標的評價,一方面可以通過各個網絡信息挖掘軟件的新聞報道進行分析,另一方面如果可以獲得網絡信息挖掘軟件提供商或領域專家的客觀評價則更好。

3.2算法能力

算法能力指標用于評價在系統挖掘網絡信息過程中某種算法的有效性。該指標下目前僅列出了8個子指標,即8種算法:①決策樹;②神經網絡;③回歸;④RadialBasisFunctions;⑤最近鄰;⑥NearestMeanKohonen和自組織圖(Self-organizingMaps);⑦聚類;⑧關聯規則。

由于新的挖掘算法不斷出現,可能這里列出的算法不完整,在具體評價時可添加。

3.3網絡信息挖掘過程能力

這個角度的評價是以往的數據挖掘系統評價所缺乏的,因此本文所提出的網絡信息挖掘系統的評價體系中特別加入這個指標。它主要被用來評價網絡信息挖掘系統在網絡信息挖掘過程的各個階段所表現的能力。具體分為如下5個子指標:①商業問題理解;②數據準備:數據選擇,數據預處理,數據轉換;③網絡信息挖掘模型;④模型評價;⑤模型應用。

一般的網絡信息挖掘系統都遵循這樣的5個基本階段。當然有些系統可能也有略微的差別,如WUM6.0的挖掘過程重點就是在前3個階段。

3.4電子商務應用能力

應用能力角度的評價也是數據挖掘系統評價中所忽視的,同時由于網絡信息挖掘在電子商務方面的應用點在不斷增多,本文特別設置從電子商務應用能力角度評價的指標。根據目前掌握的應用情況,又具體分為如下5個子指標:①站點布局/設計;②交叉銷售;③促銷(Up-sells);④個性化/推薦;⑤早期預警。

如果新的應用層面出現,可以考慮添入新的子指標。

4初步評價分析

目前,筆者僅根據在網上可獲取的信息來對各種系統的相應屬性進行評價。目前可以得到的結果如下。

1)網絡信息挖掘軟件與數據挖掘軟件的關聯。本文調查的網絡信息挖掘軟件的提供商中一些是比較熟知的提供數據挖掘軟件的公司,如Clementine網絡信息挖掘應用模板(ClementineWebMining)的提供者就是SPSS公司,該模板是該公司Clementine的應用模板之一。又如Web-hound的提供者是SAS公司。可見,越來越多的數據挖掘軟件公司將目光投入到網絡信息挖掘及其應用中。當然這個充滿前景的領域也吸引了眾多新的擁有網絡信息挖掘先進技術的小公司的加盟。

2)產品的成熟度和提供商的實力比較。通過對這19種軟件產品的成熟度和提供商的實力進行評價,發現大概有1/3的網絡信息挖掘軟件的商業能力超過了普通水平(見圖1)。原來數據挖掘系統領域的領先者,像SPSS公司和SAS公司,在網絡信息挖掘系統領域仍然保持很強的商業能力。當然,本文的評價中還有NetTracker的商業能力也獲得了較好的評價。調查中大概有一半的軟件產品的商業能力處于普通水平之下。另外表1中Analog和WUM6.0仍為研究原型系統,故本次調查暫不對其商業能力進行評價。

附圖

圖1商業能力評價(產品成熟度和提供商實力)

當然;由于筆者主要通過網站調查,對信息的理解往往帶有個人主觀色彩,在評價結果中不可避免存在偏差。

5未來工作

筆者認為此類評價工作應該將專家調查和二手信息收集相結合。可以利用專家調查法獲得較為科學的指標權重,進一步完善本文所建立的網絡信息挖掘系統的評價指標體系。另外可以嘗試利用現有的數據集進行一些可能的測試工作,如網絡信息挖掘準確度的定量評價。

綜上所述,網絡信息挖掘發展方興未艾。從國內外現狀看,網絡信息挖掘系統評價工作也僅處于起步階段。希望本文所提出的網絡信息挖掘系統評價體系和初步的評價結果對國內進一步開展這方面的研究有所裨益。

【參考文獻】

1ElderJ,AbbottDW.AComparisonofLeading DataMiningToolsIn:FourthAnnual

ConferenceonKnowledgeDiscovery&DataMining.NewYork:[s.n],1998

2KingMA,ElderJF,etal.EvaluationofFourteenDesktopDataMining

Tools,Im:1998IEEEInternationalConferenceonSystems,Man,andCybernetics,SanDiego:[s.n],1998

3AbbottDW,MatkovskyIP,ElderJF.AnEvaluationofHigh-endDataMiningToolsforFraudDetection.In:1998IEEEInternationalConferenceonSystems,Man,andCybernetics.SanDiego:[s.n],1998

4GoebelN,GruenwaldL.ASurveyofDataMiningandKnowledgeDiscoverySoftware

Tools.ACMSIGKDD,1999(6)

5HanJKamberM.數據挖掘:概念與技術.北京:機械工業出版社,2001

6BersonA,elal,構建面向CRM的數據挖掘應用.賀奇等譯.北京:人民郵電出版社,2001

7朱愛群.客戶關系管理與數據挖掘.北京:中國財政經濟出版社,2001

8http:///polls/dm_tools_2001_october.htm

9http:///software/web.Html