Web數(shù)據(jù)研究與應(yīng)用論文
時(shí)間:2022-03-11 11:07:00
導(dǎo)語(yǔ):Web數(shù)據(jù)研究與應(yīng)用論文一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1知如何能夠投其所好,為用戶實(shí)現(xiàn)主動(dòng)推薦,提供個(gè)性化服務(wù);這些都是電子商務(wù)成敗的關(guān)鍵問(wèn)題。在這種新型的商務(wù)模式下,如何對(duì)網(wǎng)絡(luò)上大量的信息進(jìn)行有效組織利用,幫助海量數(shù)據(jù)的擁有者們找出真正有價(jià)值的信息和知識(shí),以指導(dǎo)他們的商業(yè)決策行為,成為電子商務(wù)經(jīng)營(yíng)者關(guān)注的問(wèn)題。迅速發(fā)展的基于web的數(shù)據(jù)挖掘技術(shù),為解決電子商務(wù)所面臨的問(wèn)題提供了有效途徑。
2Web數(shù)據(jù)挖掘
2.1Web數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中提取人們事先不知道的、潛在有用的信息和知識(shí)的非平凡過(guò)程。
Web數(shù)據(jù)挖掘(WebMining)是從Web文檔和Web活動(dòng)中抽取感興趣的、潛在的有用模式和隱藏的信息,是數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、人工智能、信息檢索、自然語(yǔ)言理解等技術(shù)的綜合應(yīng)用,是在一定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)現(xiàn)有用的知識(shí)來(lái)幫助人們從WWW中提取知識(shí)。Web數(shù)據(jù)挖掘可以分為Web內(nèi)容挖掘(WebContentMining)、Web結(jié)構(gòu)挖掘(WebStructureMining)、Web使用記錄挖掘(WebUsageMining)三類。Web內(nèi)容挖掘是指從文檔內(nèi)容或其描述中抽取知識(shí)的過(guò)程,又可以分為基于文本的挖掘和基于多媒體的挖掘兩種。Web文本挖掘可以對(duì)Web上大量文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析等。Web結(jié)構(gòu)挖掘是指從Web組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。通過(guò)對(duì)Web結(jié)構(gòu)的挖掘,可以用來(lái)指導(dǎo)對(duì)頁(yè)面進(jìn)行分類和聚類,找到權(quán)威頁(yè)面,從而提高檢索的性能,同時(shí)還可以用來(lái)指導(dǎo)網(wǎng)頁(yè)采集工作,提高采集效率。Web使用記錄挖掘是指從服務(wù)器端記錄的客戶訪問(wèn)日志或從客戶的瀏覽信息中抽取感興趣的模式。
基于Web的數(shù)據(jù)挖掘技術(shù)的出現(xiàn)不僅為商家做出正確的商業(yè)決策提供了強(qiáng)有力的工具,也為商家更加深入地了解客戶需求信息和購(gòu)物行為的特征提供了可能性。
2.2電子商務(wù)中Web數(shù)據(jù)挖掘的步驟
電子商務(wù)中Web數(shù)據(jù)挖掘的步驟如下:
①明確數(shù)據(jù)挖掘的對(duì)象—業(yè)務(wù)對(duì)象,確定商業(yè)應(yīng)用主題,不能盲目地進(jìn)行挖掘;
②將與業(yè)務(wù)對(duì)象的各類原始數(shù)據(jù)收集起來(lái)作為挖掘的數(shù)據(jù)源泉;
③對(duì)收集的數(shù)據(jù)進(jìn)行預(yù)處理,一般包括數(shù)據(jù)凈化、用戶識(shí)別、會(huì)話識(shí)別、路徑補(bǔ)充、事務(wù)識(shí)別和格式化等階段,以提高挖掘效率,剔除無(wú)用、無(wú)關(guān)信息并對(duì)信息進(jìn)行必要的整理。
④根據(jù)需要解決的問(wèn)題建立合適的數(shù)據(jù)挖掘模型,然后利用已知數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練和測(cè)試,并應(yīng)用該模型得到挖掘結(jié)果;
⑤利用可視化技術(shù),驗(yàn)證、解釋挖掘的結(jié)果,并據(jù)此做出決策或豐富知識(shí),即進(jìn)行模式分析與應(yīng)用。
在整個(gè)Web數(shù)據(jù)挖掘的過(guò)程中,被明確的業(yè)務(wù)對(duì)象是挖掘過(guò)程的基礎(chǔ),它驅(qū)動(dòng)整個(gè)Web數(shù)據(jù)挖掘的全過(guò)程;同時(shí),也是檢驗(yàn)挖掘結(jié)果和引導(dǎo)分析人員完成挖掘的依據(jù)。
2.3電子商務(wù)中Web數(shù)據(jù)挖掘的數(shù)據(jù)源
在電子商務(wù)中,可以用來(lái)作為數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較大,而且類型眾多,總結(jié)起來(lái)有以下幾種類型的數(shù)據(jù)可用于Web數(shù)據(jù)挖掘技術(shù)產(chǎn)生各種知識(shí)模式。
①服務(wù)器數(shù)據(jù)。客戶訪問(wèn)站點(diǎn)時(shí)會(huì)在Web服務(wù)器上留下相應(yīng)的日志數(shù)據(jù),這些日志數(shù)據(jù)通常以文本文件的形式存儲(chǔ)在服務(wù)器上。一般包括serverslogs、errorlogs、cookieslogs等。
②查詢數(shù)據(jù)。它是電子商務(wù)站點(diǎn)在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。例如,對(duì)于再現(xiàn)存儲(chǔ)的客戶也許會(huì)搜索一些產(chǎn)品或某些廣告信息,這些查詢信息就是通過(guò)cookie或是登記信息連接到服務(wù)器的訪問(wèn)日志上。
③在線市場(chǎng)數(shù)據(jù)。這類數(shù)據(jù)主要是傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)里存儲(chǔ)的有關(guān)電子商務(wù)站點(diǎn)信息、用戶購(gòu)買信息、商品信息等數(shù)據(jù)。
④Web頁(yè)面。主要是指HTML和XML頁(yè)面的內(nèi)容,包括文本、圖片、語(yǔ)音、圖像等。
⑤Web頁(yè)面超級(jí)鏈接關(guān)系。主要是指頁(yè)面之間存在的超級(jí)鏈接關(guān)系,這也是一種重要的資源。
⑥客戶登記信息。客戶登記信息是指客戶通過(guò)Web頁(yè)輸入的、要提交給服務(wù)器的相關(guān)用戶信息,這些信息通常是關(guān)于用戶的人口特征。在Web的數(shù)據(jù)挖掘中,客戶登記信息需要和訪問(wèn)日志集成,以提高數(shù)據(jù)挖掘的準(zhǔn)確度,使之能更進(jìn)一步的了解客戶。
2.4Web數(shù)據(jù)挖掘能夠獲取的知識(shí)模式
運(yùn)用Web數(shù)據(jù)挖掘技術(shù)能夠?qū)φ军c(diǎn)上的各種數(shù)據(jù)源進(jìn)行挖掘,找到相關(guān)的一些知識(shí)模式,以指導(dǎo)站點(diǎn)人員更好地運(yùn)作站點(diǎn)和向客戶提供更好的服務(wù)。一般運(yùn)用Web數(shù)據(jù)挖掘可以在站點(diǎn)上挖掘出來(lái)的知識(shí)模式有以下幾個(gè):
①路徑分析。它可以被用于判定在一個(gè)Web站點(diǎn)中最頻繁訪問(wèn)的路徑。通過(guò)路徑分析,可以得到重要的頁(yè)面,可以改進(jìn)頁(yè)面及網(wǎng)站結(jié)構(gòu)的設(shè)計(jì)。
②關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。在電子商務(wù)中關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)可以找到客戶對(duì)網(wǎng)站上各種文件之間訪問(wèn)的相互關(guān)系,可以找到用戶訪問(wèn)的頁(yè)面與頁(yè)面之間的相關(guān)性和購(gòu)買商品間的相關(guān)性。利用這些相關(guān)性,可以更好的組織站點(diǎn)的內(nèi)容,實(shí)施有效的市場(chǎng)策略,增加交叉銷售量,同時(shí)還可以減少用戶過(guò)濾信息的負(fù)擔(dān)。
③序列模式的發(fā)現(xiàn)。序列模式的發(fā)現(xiàn)就是在時(shí)間戳有序的事務(wù)集中,找到那些“一些項(xiàng)跟隨另一項(xiàng)”的內(nèi)部事務(wù)模式。它能夠便于進(jìn)行電子商務(wù)的組織預(yù)測(cè)客戶的訪問(wèn)模式,對(duì)客戶開(kāi)展有針對(duì)性的廣告服務(wù)。通過(guò)系列模式的發(fā)現(xiàn),能夠在服務(wù)器方選擇有針對(duì)性地頁(yè)面,以滿足訪問(wèn)者的特定要求。
④分類和預(yù)測(cè)。分類發(fā)現(xiàn)就是給出識(shí)別一個(gè)特殊群體的公共屬性的描述,這個(gè)描述可以用來(lái)分類新的項(xiàng)。分類的目的是通過(guò)構(gòu)造分類模型或分類器,把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè),以便用于預(yù)測(cè);也就是利用歷史數(shù)據(jù)記錄自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣描述,從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè),進(jìn)行適合某一類客戶的商務(wù)活動(dòng)。
⑤聚類分析。聚類分析可以從Web訪問(wèn)信息數(shù)據(jù)中聚集出具有相似特性的那些客戶。在Web事務(wù)日志中,聚類顧客信息或數(shù)據(jù)項(xiàng)能夠便于開(kāi)發(fā)和執(zhí)行未來(lái)的市場(chǎng)策略。這種市場(chǎng)策略包括自動(dòng)給一個(gè)特定的顧客聚類發(fā)送銷售郵件、為屬于某一個(gè)顧客聚類中的顧客推薦特定的商品等。對(duì)電子商務(wù)來(lái)說(shuō),客戶聚類可以對(duì)市場(chǎng)細(xì)分理論提供有力的支持。通過(guò)對(duì)聚類客戶特征的提取,電子商務(wù)網(wǎng)站可以為客戶提供個(gè)性化的服務(wù)。
⑥異常檢測(cè)。異常檢測(cè)是對(duì)分析對(duì)象的少數(shù)的、極端的特例的描述,以揭示內(nèi)在的原因,從而減小經(jīng)營(yíng)的風(fēng)險(xiǎn)。異常檢測(cè)在電子商務(wù)中的應(yīng)用可以體現(xiàn)在信用卡欺詐甄別、發(fā)現(xiàn)異常客戶和網(wǎng)絡(luò)入侵檢測(cè)等方面。
Web數(shù)據(jù)挖掘的各項(xiàng)功能不是獨(dú)立存在的,而是在挖掘過(guò)程中互相聯(lián)系,發(fā)揮作用。
3Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
3.1數(shù)據(jù)抽取方法在電子商務(wù)中的應(yīng)用
與傳統(tǒng)商務(wù)活動(dòng)相比,電子商務(wù)具有更多的虛擬和不確定的因素:如客戶購(gòu)買的心理、動(dòng)機(jī)、能力、欲望等。Web數(shù)據(jù)挖掘要解決的問(wèn)題就是如何從零散的無(wú)規(guī)則的網(wǎng)絡(luò)數(shù)據(jù)中找到有用的和有規(guī)則的數(shù)據(jù)和知識(shí),基本方法之一就是進(jìn)行數(shù)據(jù)抽取,以期對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述,如方差值等統(tǒng)計(jì)值或用直方圖等圖形方式表示,從數(shù)據(jù)泛化的角度討論數(shù)據(jù)總結(jié),把最原始、基本的信息數(shù)據(jù)從低層次抽象到高層次,以便于企業(yè)決策。
3.2基于Web數(shù)據(jù)挖掘的智能化搜索引擎
電子商務(wù)企業(yè)在活動(dòng)過(guò)程中面臨的問(wèn)題之一是如何通過(guò)Internet全面、準(zhǔn)確、及時(shí)地收集到企業(yè)內(nèi)、外部的環(huán)境信息,尤其是一些隱性的、關(guān)系到企業(yè)經(jīng)營(yíng)成敗的關(guān)鍵信息,以提高競(jìng)爭(zhēng)力。目前的搜索引擎存在著查準(zhǔn)率低、返回?zé)o用信息多的問(wèn)題,使企業(yè)無(wú)法得到優(yōu)質(zhì)的信息。鑒于此,將Web數(shù)據(jù)挖掘技術(shù)應(yīng)用于搜索引擎,使之成為智能搜索引擎,從而提高性能,滿足電子商務(wù)企業(yè)的需要。Web挖掘技術(shù)主要在以下幾個(gè)方面對(duì)搜索引擎有借鑒作用:文檔的自動(dòng)分類、自動(dòng)摘要的形成、檢索結(jié)果的聯(lián)機(jī)聚類和相關(guān)度排序及實(shí)現(xiàn)個(gè)性化的搜索引擎。經(jīng)過(guò)文檔的分類處理,可以對(duì)搜索結(jié)果進(jìn)行分門別類,可以通過(guò)限制搜索范圍來(lái)使文本的查找更為容易,幫助用戶快速的對(duì)目標(biāo)知識(shí)進(jìn)行定位,從而提高用戶進(jìn)行網(wǎng)上信息搜索的效率;自動(dòng)摘要能夠解決大部分搜索引擎機(jī)械地截取文檔的前幾句和固定字?jǐn)?shù)的摘要使信息反映不完整的缺陷,使用戶能較準(zhǔn)確、快速、方便地了解檢索信息;通過(guò)對(duì)檢索結(jié)果的文檔集合進(jìn)行聚類,可以使得與用戶檢索結(jié)果相關(guān)的文檔集中在一起,從而遠(yuǎn)離那些不相關(guān)的文檔,將處理以后的信息以超鏈結(jié)構(gòu)組織的層次方式可視化地提供給用戶,由用戶選擇他所感興趣的那一簇,將大大縮小所需瀏覽的頁(yè)面數(shù)量;將Web使用挖掘中的個(gè)性化技術(shù)應(yīng)用在搜索引擎中,可以在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對(duì)象間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息提取,使得搜索引擎可以按照用戶的興趣偏好擴(kuò)充用戶搜索的關(guān)鍵詞,以使得檢索結(jié)果更接近用戶要求,或者根據(jù)用戶歷史瀏覽信息的分析獲得用戶興趣庫(kù),調(diào)用個(gè)性化的搜索引擎可以提高用戶檢索的查全率與查準(zhǔn)率。通過(guò)借鑒Web挖掘技術(shù)可以提高查準(zhǔn)率與查全率,改善檢索結(jié)果的組織,從而使檢索效率得到改善。
3.3Web數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
①客戶關(guān)系管理的核心
客戶關(guān)系管理(CustomerRelationshipManagement,簡(jiǎn)稱CRM)的核心是通過(guò)客戶和他們行為的有效數(shù)據(jù)收集,發(fā)現(xiàn)潛在的市場(chǎng)和客戶,從而獲得更高的商業(yè)利潤(rùn),通過(guò)完善的客戶服務(wù)和深入的客戶分析來(lái)滿足客戶的需求,保證實(shí)現(xiàn)客戶的終生價(jià)值。可以說(shuō)CRM能給傳統(tǒng)企業(yè)帶來(lái)在網(wǎng)絡(luò)經(jīng)濟(jì)時(shí)代謀取生存之道的管理制度和技術(shù)手段。它要求企業(yè)從“以產(chǎn)品為中心”的模式向“以客戶為中心”的模式轉(zhuǎn)移。
②Web數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
Web數(shù)據(jù)挖掘能夠幫助企業(yè)確定客戶的特點(diǎn),使企業(yè)能夠?yàn)榭蛻籼峁┯嗅槍?duì)性的服務(wù)。將Web數(shù)據(jù)挖掘用在電子商務(wù)CRM中主要體現(xiàn)在客戶的獲取和保持、價(jià)值客戶鑒別、客戶滿意度分析及改善站點(diǎn)結(jié)構(gòu)等幾方面。
通過(guò)Web數(shù)據(jù)挖掘,可以理解訪問(wèn)者的動(dòng)態(tài)行為,據(jù)此優(yōu)化電子商務(wù)網(wǎng)站的經(jīng)營(yíng)模式。通過(guò)把所掌握的大量客戶分成不同的類,對(duì)不同類的客戶提供個(gè)性化服務(wù)來(lái)提高客戶的滿意度,從而保持老客戶;通過(guò)對(duì)新訪問(wèn)者的網(wǎng)頁(yè)瀏覽記錄進(jìn)行分析,就可以判斷出該訪問(wèn)者是屬于哪一類客戶,是有利可圖的潛在客戶還是毫無(wú)價(jià)值的過(guò)客,達(dá)到區(qū)別對(duì)待、節(jié)省銷售成本、提高訪問(wèn)者到購(gòu)買者的轉(zhuǎn)化率的目的,從而挖掘潛在客戶;通過(guò)對(duì)具有相似瀏覽行為的客戶進(jìn)行分組,提取組中客戶的共同特征,從而實(shí)現(xiàn)客戶的聚類,這可以幫助電子商務(wù)企業(yè)更好地了解客戶的興趣、消費(fèi)習(xí)慣和消費(fèi)傾向,預(yù)測(cè)他們的需求,有針對(duì)性地向他們推薦特定的商品并實(shí)現(xiàn)交叉銷售,可以提高交易成功率和交易量,提高營(yíng)銷效果。
此外,站點(diǎn)的結(jié)構(gòu)和內(nèi)容是吸引客戶的關(guān)鍵。利用關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),針對(duì)不同客戶動(dòng)態(tài)調(diào)整站點(diǎn)結(jié)構(gòu)和頁(yè)面內(nèi)容,把具有一定支持度和信任度的相關(guān)聯(lián)的物品放在一起以有助于銷售;通過(guò)路徑分析等技術(shù)可以判定出一類用戶對(duì)Web站點(diǎn)頻繁訪問(wèn)的路徑,這些路徑反映這類用戶瀏覽站點(diǎn)頁(yè)面的順序和習(xí)慣,將客戶訪問(wèn)的有關(guān)聯(lián)的文件實(shí)現(xiàn)直接鏈接,讓客戶容易地訪問(wèn)到想要的頁(yè)面。這樣的網(wǎng)站會(huì)給客戶留下好印象,提高客戶忠誠(chéng)度,吸引客戶,延長(zhǎng)他們?cè)诰W(wǎng)站上的駐留時(shí)間以及提高再次訪問(wèn)的機(jī)率。
通過(guò)挖掘客戶的行為記錄和反饋情況,進(jìn)一步優(yōu)化網(wǎng)站組織結(jié)構(gòu)和服務(wù)方式以提高網(wǎng)站的效率。通過(guò)Web數(shù)據(jù)挖掘,可以得到可靠的市場(chǎng)反饋信息,評(píng)測(cè)廣告的投資回報(bào)率,從而評(píng)估網(wǎng)絡(luò)營(yíng)銷模式的成功與否;可以根據(jù)關(guān)心某產(chǎn)品的訪問(wèn)者的瀏覽模式來(lái)決定廣告的位置,增加廣告針對(duì)性,提高廣告的投資回報(bào)率,降低公司的運(yùn)營(yíng)成本。③維護(hù)客戶的隱私權(quán)
維護(hù)客戶的隱私權(quán)是商家在商業(yè)運(yùn)作過(guò)程中不能忽視的一個(gè)基本組成部分。因此,作為電子商務(wù)企業(yè),應(yīng)該盡量避免對(duì)單個(gè)客戶數(shù)據(jù)進(jìn)行挖掘。企業(yè)管理客戶隱私權(quán)的保護(hù)應(yīng)該從技術(shù)和管理兩個(gè)方面來(lái)實(shí)現(xiàn):技術(shù)上,通常是采用加密標(biāo)志符,并且盡量避免對(duì)單個(gè)客戶數(shù)據(jù)進(jìn)行挖掘;管理上,很多電子商務(wù)企業(yè)現(xiàn)在已經(jīng)增設(shè)了首席隱私官(CPO,ChiefPrivacyOfficer)職位,隱私官將能在個(gè)人對(duì)隱私的需求和公司以合理手段使用隱私材料的權(quán)利之間,建立適當(dāng)?shù)钠胶怅P(guān)系。這種平衡關(guān)系的大成,需要以長(zhǎng)期的實(shí)踐和經(jīng)驗(yàn)為基礎(chǔ)。除了電子商務(wù)企業(yè)以單獨(dú)的主體身份進(jìn)行客戶隱私權(quán)保護(hù)的管理之外,行業(yè)自律也是保護(hù)客戶隱私權(quán)的一個(gè)行之有效的手段。目前,電子商務(wù)網(wǎng)站越來(lái)越傾向于通過(guò)行業(yè)自律的方式來(lái)樹(shù)立其在客戶心目中的形象,讓客戶放心地提交數(shù)據(jù)。
3.4Web數(shù)據(jù)挖掘在個(gè)性化服務(wù)推薦系統(tǒng)中的應(yīng)用
電子商務(wù)個(gè)性化服務(wù)推薦系統(tǒng)是向站點(diǎn)企業(yè)提供在電子商務(wù)中更好地運(yùn)作CRM,建立良好客戶關(guān)系的一種解決方法,是“以客戶為中心”、“一對(duì)一”的行銷的堅(jiān)實(shí)執(zhí)行者。
該系統(tǒng)主要是將數(shù)據(jù)挖掘的思想和方法應(yīng)用到Web服務(wù)器日志及Web數(shù)據(jù)庫(kù)等資源上,挖掘出客戶的訪問(wèn)規(guī)律;然后將在線訪問(wèn)客戶歸結(jié)到某一類中去,根據(jù)該類用戶的訪問(wèn)規(guī)律進(jìn)行Web頁(yè)面的推薦;并且系統(tǒng)還可以通過(guò)不斷地跟蹤用戶的當(dāng)前訪問(wèn),實(shí)時(shí)調(diào)整推薦集,為用戶提供個(gè)性化的訪問(wèn)。該系統(tǒng)由五大模塊組成:數(shù)據(jù)收集模塊、數(shù)據(jù)預(yù)處理模塊、數(shù)據(jù)存儲(chǔ)模塊、離線挖掘模塊和在線推薦模塊。其系統(tǒng)結(jié)構(gòu)模型如圖1所示:
圖1基于Web數(shù)據(jù)挖掘的個(gè)性化服務(wù)推薦系統(tǒng)結(jié)構(gòu)模型
數(shù)據(jù)收集模塊主要用于收集Web數(shù)據(jù)庫(kù)、使用日志等數(shù)據(jù),形成數(shù)據(jù)采集庫(kù),為以后的挖掘做準(zhǔn)備;數(shù)據(jù)預(yù)處理模塊主要是對(duì)所收集的數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理的質(zhì)量與挖掘的效率和結(jié)果緊密相關(guān);數(shù)據(jù)存儲(chǔ)模塊將預(yù)處理后的數(shù)據(jù)存入用戶事務(wù)庫(kù);離線挖掘模塊中的挖掘引擎使用挖掘算法庫(kù)中的數(shù)據(jù)挖掘技術(shù)如統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、聚類分析、序列模式等,來(lái)發(fā)現(xiàn)用戶瀏覽模式,并通過(guò)模式分析對(duì)其進(jìn)行分析與解釋,根據(jù)實(shí)際應(yīng)用,通過(guò)觀察和選擇,把發(fā)現(xiàn)的統(tǒng)計(jì)結(jié)果、規(guī)則和模型轉(zhuǎn)換為知識(shí),經(jīng)過(guò)篩選后得到有用的模式用來(lái)指導(dǎo)實(shí)際的電子商務(wù)行為;在線推薦模塊在Web服務(wù)器前端設(shè)置了推薦引擎,它將用戶當(dāng)前的瀏覽活動(dòng)與瀏覽出的頁(yè)面推薦集結(jié)合起來(lái)考慮,生成相應(yīng)推薦集,然后在用戶最新請(qǐng)求的頁(yè)面上添加推薦集的頁(yè)面,再通過(guò)Web服務(wù)器傳遞到用戶端的瀏覽器,為用戶實(shí)現(xiàn)實(shí)時(shí)個(gè)性化服務(wù);同時(shí)將推薦結(jié)果送往網(wǎng)站管理中心,以便調(diào)整網(wǎng)站設(shè)計(jì),優(yōu)化網(wǎng)站結(jié)構(gòu),提高網(wǎng)站效率。
總的來(lái)說(shuō),在個(gè)性化服務(wù)推薦系統(tǒng)中運(yùn)用數(shù)據(jù)挖掘技術(shù)有兩個(gè)階段:第一個(gè)階段是學(xué)習(xí)階段,離線進(jìn)行。第二個(gè)階段是模式的使用階段,在線進(jìn)行。挖掘和在線推薦的特征獲取和規(guī)則生成是離線處理的,而當(dāng)用戶訪問(wèn)該網(wǎng)站時(shí)通過(guò)在線推薦引擎進(jìn)行在線服務(wù)。離線模塊和在線模塊相互聯(lián)系,在線模塊主要是利用離線模塊提供的規(guī)則模型對(duì)在線用戶推薦(推薦引擎);離線模塊主要是利用在線模塊積累的數(shù)據(jù)運(yùn)用系統(tǒng)推薦算法形成相應(yīng)的規(guī)則。挖掘算法和推薦策略可以根據(jù)不同類型站點(diǎn)的要求來(lái)具體選擇,挖掘結(jié)果和推薦集通過(guò)推薦引擎反饋給用戶。電子商務(wù)網(wǎng)站的客戶登錄網(wǎng)站以后,其訪問(wèn)信息將會(huì)被記錄到服務(wù)器端。這些數(shù)據(jù)將在經(jīng)過(guò)預(yù)處理后,在專用的數(shù)據(jù)挖掘模塊中,通過(guò)具體的挖掘算法和推薦策略來(lái)進(jìn)行模式識(shí)別和模式分析。用戶訪問(wèn)信息也會(huì)傳到推薦引擎,推薦引擎根據(jù)客戶的會(huì)員標(biāo)識(shí),向挖掘模塊抽取對(duì)應(yīng)客戶的挖掘結(jié)果和推薦集,將其可視化地反饋給用戶,達(dá)到個(gè)性化服務(wù)的目的。
3.5基于Web的數(shù)據(jù)挖掘在商業(yè)信用評(píng)估中的應(yīng)用
發(fā)達(dá)的社會(huì)信用水平是發(fā)展電子商務(wù)的重要基礎(chǔ),通過(guò)Web數(shù)據(jù)挖掘?qū)φ军c(diǎn)數(shù)據(jù)統(tǒng)計(jì)和歷史記錄之間的差別,結(jié)果與期望值的偏離以及反常實(shí)例進(jìn)行充分的分析,可以有效地防范投資和經(jīng)營(yíng)風(fēng)險(xiǎn)。另外,通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)企業(yè)經(jīng)營(yíng)進(jìn)行跟蹤,開(kāi)展企業(yè)的資產(chǎn)評(píng)估、利潤(rùn)收益分析和發(fā)展?jié)摿︻A(yù)測(cè),構(gòu)建完善的安全保障體系,實(shí)施網(wǎng)上全程監(jiān)控,監(jiān)督網(wǎng)上言論,維護(hù)企業(yè)信譽(yù),強(qiáng)化網(wǎng)上交易和在線支付的安全管理,利用數(shù)據(jù)挖掘的信用評(píng)估模型,對(duì)交易歷史數(shù)據(jù)進(jìn)行挖掘發(fā)現(xiàn)客戶的交易數(shù)據(jù)特征,建立客戶信譽(yù)度級(jí)別,有效地防范和化解信用風(fēng)險(xiǎn),提高企業(yè)信用甄別與風(fēng)險(xiǎn)管理的水平和能力。
4結(jié)論
本文對(duì)Web挖掘技術(shù)進(jìn)行了綜述,介紹了其在電子商務(wù)中的典型應(yīng)用。Web數(shù)據(jù)挖掘高度自動(dòng)化地對(duì)電子商務(wù)中的大量信息進(jìn)行分析和推理,從中挖掘出潛在的模式,預(yù)測(cè)客戶行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。Web數(shù)據(jù)挖掘是近幾年來(lái)數(shù)據(jù)挖掘領(lǐng)域的探討熱點(diǎn),利用它的技術(shù)知識(shí)將它運(yùn)用到電子商務(wù),將會(huì)解決許多實(shí)際問(wèn)題,具有豐富的學(xué)術(shù)價(jià)值。將Web數(shù)據(jù)挖掘技術(shù)和電子商務(wù)兩者有機(jī)結(jié)合,將會(huì)為企業(yè)更有效的確認(rèn)目標(biāo)市場(chǎng),改進(jìn)決策,獲得競(jìng)爭(zhēng)優(yōu)勢(shì)提供幫助,有著很廣闊的應(yīng)用前景,使電子商務(wù)網(wǎng)站更具有競(jìng)爭(zhēng)力,從而為企業(yè)帶來(lái)更多的效益。面向電子商務(wù)的Web數(shù)據(jù)挖掘能發(fā)現(xiàn)大量數(shù)據(jù)背后隱藏的知識(shí),指導(dǎo)商家提高銷售額,改善企業(yè)客戶關(guān)系,提高網(wǎng)站運(yùn)行效率,改進(jìn)系統(tǒng)性能,具有良好的發(fā)展和應(yīng)用前景,必將得到越來(lái)越多的關(guān)注。
參考文獻(xiàn):
[1]毛國(guó)君.數(shù)據(jù)挖掘原理與算法[M].清華大學(xué)出版社.2005(07).
[2]張冬青.數(shù)據(jù)挖掘在電子商務(wù)中應(yīng)用問(wèn)題研究[J].現(xiàn)代情報(bào).2005(09).
[3]李鳳慧.面向電子商務(wù)的Web數(shù)據(jù)挖據(jù)的研究[D].山東科技大學(xué)碩士學(xué)位論文.2004(06).
[4]楊風(fēng)召,白慧.異常檢測(cè)技術(shù)及其在電子商務(wù)中的應(yīng)用[J].情報(bào)雜志.2005(12).
[5]陸垂偉.電子商務(wù)中數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[J].商場(chǎng)現(xiàn)代化.2006(04).
[6]CHENYu-ru,HUNGMing-chuan,Don-linYANG.Usingdataminingtoconstructanintelligentwebsearchsystem[J].InternationalJournalofComputerProcessingofOrientalLanguages,2003,16(2).