個性化推薦范文
時間:2023-03-31 18:05:17
導(dǎo)語:如何才能寫好一篇個性化推薦,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:個性化推薦;推薦技術(shù);關(guān)聯(lián)規(guī)則;協(xié)同過濾
隨著信息技術(shù)和互聯(lián)網(wǎng)的迅速發(fā)展,人們逐漸從信息匱乏時代進入了信息過載時代。這個時代,對于信息生產(chǎn)者而言,如何讓自己生產(chǎn)的信息脫穎而出,收到廣大用戶的關(guān)注是一件很困難的事情。對于用戶而言,信息量的增大加重了找到感興趣信息的負擔(dān),從而降低了信息的使用效率。推薦系統(tǒng)正是在這一環(huán)境中誕生的,它是根據(jù)用戶的信息需求、興趣等,將用戶感興趣的信息、產(chǎn)品等推薦給用戶的個性化信息推薦系統(tǒng)。
1 推薦系統(tǒng)概念、組成要素
目前被廣泛接受的推薦系統(tǒng)的概念和定義是Resnick和Varian在1997年給出的:“它是利用電子商務(wù)網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應(yīng)該購買什么產(chǎn)品,模擬銷售人員幫助客戶完成購買過程”。個性化推薦系統(tǒng)主要由三個要素組成,分別是:候選對象、用戶、推薦算法。推薦系統(tǒng)把用戶模型中興趣需求信息和推薦對象模型中的特征信息匹配,同時使用相應(yīng)的推薦算法進行計算篩選,找到用戶可能感興趣的推薦對象,然后推薦給用戶。
2 推薦技術(shù)
推薦算法是整個推薦系統(tǒng)中核心的部分,在很大程度上決定了推薦系統(tǒng)的質(zhì)量。目前主要的推薦技術(shù)基本包括以下幾種:基于關(guān)聯(lián)規(guī)則的推薦技術(shù),基于內(nèi)容的推薦技術(shù),協(xié)同過濾推薦技術(shù)和混合推薦技術(shù)。
2.1 基于關(guān)聯(lián)規(guī)則的推薦技術(shù)
關(guān)聯(lián)規(guī)則是數(shù)據(jù)中所蘊含的一類重要規(guī)律,對關(guān)聯(lián)規(guī)則進行挖掘是數(shù)據(jù)挖掘中的一項根本任務(wù),關(guān)聯(lián)規(guī)則挖掘就是從數(shù)據(jù)項目中找出所有的并發(fā)關(guān)系,這種關(guān)系也稱為關(guān)聯(lián)。關(guān)聯(lián)規(guī)則挖掘的經(jīng)典應(yīng)用就是購物籃數(shù)據(jù)分析,目的是找出顧客在商場(或普通店鋪)所選購商品之間的關(guān)聯(lián)。
關(guān)聯(lián)規(guī)則可以這樣表述。設(shè)I={i1,i2,…,in}為所有項的集合,事務(wù)T表示事務(wù)集合。數(shù)據(jù)庫D為事務(wù)數(shù)據(jù)庫。關(guān)聯(lián)規(guī)則形如XY的蘊含式,其中X、Y均為項目集,并且X、Y沒有交集。關(guān)聯(lián)規(guī)則的強度可以用支持度和置信度表示。支持度為同時包含X、Y 項集的事務(wù)在數(shù)據(jù)庫D中的百分比。置信度為包含X的事務(wù)同時也包含Y在數(shù)據(jù)庫D中的百分比。目前已有大量文獻提出關(guān)聯(lián)規(guī)則挖掘算法,在眾多算法中,最著名的是Apriori 算法。
Apriori算法是由Agrawal等人在1994年提出來的,是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。該算法分兩步進行:第一步,生成所有繁瑣項目集,繁瑣項目集是支持度高于最小支持度的項目集;第二步,從繁瑣項目集中生成所有可信的關(guān)聯(lián)規(guī)則,可信關(guān)聯(lián)規(guī)則是置信度大于最小置信度的規(guī)則。
基于關(guān)聯(lián)規(guī)則的推薦技術(shù)其優(yōu)點是:簡單直接,領(lǐng)域通用性強,規(guī)則的挖掘可以離線進行,可以保證推薦算法的實時性要求。其缺點是:存在著嚴重的"冷啟動"問題,新加入的項目由于缺少相關(guān)的用戶數(shù)據(jù),難以被系統(tǒng)中的規(guī)則發(fā)現(xiàn),從而得不到推薦,并且隨著系統(tǒng)項目數(shù)量的不斷增加,規(guī)則也會呈出相應(yīng)的增長趨勢,使得規(guī)則的管理成本相應(yīng)升高,降低了系統(tǒng)的運行效率。
2.2 基于內(nèi)容的推薦技術(shù)
基于內(nèi)容的推薦算法重要的是建立項目特征屬性庫,系統(tǒng)通過用戶已關(guān)注項目的特征屬性值,來掌握目標用戶興趣點,依據(jù)用戶興趣點與待推薦項目屬性值的匹配程度進行推薦。用戶興趣點的產(chǎn)生依賴于系統(tǒng)所采用的機器學(xué)習(xí)算法,如基于向量的表示、文本挖掘、判別樹、神經(jīng)網(wǎng)絡(luò)等技術(shù)。基于內(nèi)容的推薦結(jié)果直觀易理解,不需要過多的領(lǐng)域知識,但是需要有足夠數(shù)據(jù)構(gòu)造分類器,一些例如稀疏問題、新用戶問題和復(fù)雜屬性等問題不易處理。
2.3 協(xié)同過濾推薦技術(shù)
基于協(xié)同過濾推薦技術(shù)是當(dāng)前主流的,應(yīng)用最為廣泛的一種推薦技術(shù)。該推薦技術(shù)可以分為兩種,一種是基于用戶的協(xié)同過濾推薦技術(shù);另一種是基于項目的協(xié)同過濾推薦技術(shù),這兩種協(xié)同過濾推薦技術(shù)的不同之處在于兩者針對的對象不同。基于用戶的協(xié)同過濾推薦技術(shù)是給用戶推薦和他有共同興趣的用戶喜歡的物品;基于項目的協(xié)同過濾推薦技術(shù)是給用戶推薦和他之前喜歡的物品相似的物品。
2.3.1 基于用戶的協(xié)同過濾推薦技術(shù)
基于用戶的協(xié)同過濾技術(shù)是推薦系統(tǒng)中最古老的算法。該算法在1992年被提出,并應(yīng)用于郵件過濾系統(tǒng),1994年被GroupLens應(yīng)用于新聞過濾。該算法主要包括兩個步驟:第一步,找到和目標用戶興趣相似的用戶集合;第二步,找到這個集合中用戶喜歡的,且目標用戶還沒有聽說過的物品,將該物品推薦給目標用戶。
2.3.2 基于項目的協(xié)同過濾推薦技術(shù)
基于項目的協(xié)同過濾技術(shù)是基于這樣一個假設(shè):用戶更傾向于選擇與用戶喜歡的項目相近的項目。該推薦過程分為兩個步驟,第一,計算物品之間的相似度;第二,根據(jù)物品的相似度和用戶的歷史行為為用戶生成推薦列表。
2.4 混合推薦技術(shù)
目前,推薦技術(shù)已經(jīng)發(fā)展出了很多種,但每種推薦技術(shù)都在不同程度上存在各自的缺點,每種推薦技術(shù)在針對特定的用戶或者項目時才能發(fā)揮出自己的優(yōu)勢。因此人們提出了混合推薦來互補推薦技術(shù)各自的不足,已達到一個理想的推薦效果。在大部分的混合推薦技術(shù)研究當(dāng)中,是將基于內(nèi)容的推薦技術(shù)和基于協(xié)同過濾技術(shù)相結(jié)合。相對于使用單一途徑算法的推薦技術(shù),基于混合推薦技術(shù)往往表現(xiàn)出更高的推薦精度和更好的推薦質(zhì)量。
3 推薦系統(tǒng)的應(yīng)用
自推薦系統(tǒng)誕生近20年的時間里,推薦系統(tǒng)的應(yīng)用領(lǐng)域迅速擴展。從電子商務(wù)、音樂視頻網(wǎng)站,到作為互聯(lián)網(wǎng)經(jīng)濟支柱的在線廣告和新穎的在線應(yīng)用推薦,到處都有推薦系統(tǒng)的身影。下面簡單介紹個性化推薦系統(tǒng)的應(yīng)用以及該領(lǐng)域較成功的網(wǎng)站。
3.1 電子商務(wù)
電子商務(wù)網(wǎng)站是個性化推薦系統(tǒng)的一大應(yīng)用領(lǐng)域。著名的電子商務(wù)網(wǎng)站亞馬遜是個性化推薦系統(tǒng)的積極應(yīng)用者和推廣者,被讀寫網(wǎng)稱為“推薦系統(tǒng)之王”。亞馬遜的推薦系統(tǒng)深入到了各類產(chǎn)品中,其中最主要的應(yīng)用有個性化商品推薦列表和相關(guān)商品的推薦列表。
3.2 電影和視頻網(wǎng)站
在電影和視頻網(wǎng)站中,個性化推薦系統(tǒng)能夠幫助用戶在大量視頻信息中找到令他們滿意的視頻。該領(lǐng)域較成功的一家公司就是Netflix。Netflix在2006年開始舉辦著名的Netflix Prize推薦系統(tǒng)比賽。該比賽對推薦系統(tǒng)的發(fā)展起到了重要的推動作用。
3.3 個性化音樂網(wǎng)絡(luò)電臺
個性化推薦的成功應(yīng)用需要具備兩個條件。第一是存在信息過載的問題,第二是用戶大部分時候沒有明確的需求。在這兩個條件下,個性化網(wǎng)絡(luò)電臺無疑是最合適的個性化推薦產(chǎn)品。目前國際上著名的有Pandora和Last.fm,國內(nèi)的代表則是豆瓣電臺。
3.4 個性化閱讀
閱讀文章是很多互聯(lián)網(wǎng)用戶每天都會做的事情。目前互聯(lián)網(wǎng)上的個性化閱讀工具很多,國際知名的有Google Reader,國內(nèi)有鮮果網(wǎng)等。同時,隨著移動設(shè)備的流行,移動設(shè)備上針對個性化閱讀的應(yīng)用也很多,其中具有代表性的有Zite和Flipboard。
[參考文獻]
[1]Resnick P.Varian HR Recommender systems[外文期刊].1997(03).
[2]許海玲.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報,2009.20(2):350.362.
[3]王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應(yīng)用,2012,48(7).
[4]劉興濤,石冰,解英文.挖掘關(guān)聯(lián)規(guī)則中Apriori算法的一種改進[J]. 山東大學(xué)學(xué)報,2008,43(11):67-71.
[5]胡斌.基于高階潛在語義分析的音樂推薦系統(tǒng)的研究,碩士論文.北京工業(yè)大學(xué)計算機學(xué)院,2009.
[6]Schafer JB,Konstan J,Riedl J.Recommender systems in e-commerce[M].On Electronic Commerce,1999.P367-461.
[7]Deshpande M,Karypis G.Item-based top-N recommendation algorithms[J].ACM TransInformation Systems,22(1):143-177,2004.
篇2
關(guān)鍵詞:綜合云模型;屬性評價;評分聚類;屬性聚類;協(xié)同過濾
0 引言
亞馬遜、當(dāng)當(dāng)網(wǎng)、數(shù)字圖書館等,幾乎都不同程度地使用個性化推薦系統(tǒng),向用戶推薦圖書、論文、商品等項目,實現(xiàn)個性化服務(wù)[1]。其中,協(xié)同過濾推薦算法是最成功的個性化推薦技術(shù)之一。但因用戶評分數(shù)據(jù)的稀疏性,導(dǎo)致傳統(tǒng)推薦質(zhì)量下降。
為解決數(shù)據(jù)稀疏性帶來的傳統(tǒng)基于向量相似度的問題,比較典型的方法之一是將利用云模型實現(xiàn)定性、定量知識轉(zhuǎn)換的優(yōu)勢應(yīng)用到推薦中:由云模型計算用戶評分特征相似度 [2]、項目評分特征相似度[3]的協(xié)同過濾算法;在云模型計算項目評分特征相似度的基礎(chǔ)上,預(yù)測未評分項目的評分,然后利用云模型計算用戶相似度,最終獲取用戶鄰居再進行推薦[4],但沒有利用有益于推薦的用戶、項目屬性;利用云模型填充評分矩陣,結(jié)合項目屬性加權(quán)推薦[5] 、結(jié)合云模型通過比較項目屬性相似度的推薦[6],在類內(nèi)利用云模型獲得項目鄰居,進行類內(nèi)評分填充,結(jié)合云模型的用戶相似度進行推薦[7],這三種方法也沒有充分利用用戶屬性信息;研究云模式在用戶行為相似度、用戶等級的模式,并通過聚類算法改進推薦算法[8]。以上改進算法都沒有考慮綜合云模型下的推薦。
本文在前面研究的基礎(chǔ)上,利用用戶對項目各個屬性的評價值和評價時間,計算綜合云模型的用戶項目屬性評價相似度,獲取基于屬性評價的用戶鄰居。利用改進的聚類算法Kmedoids,根據(jù)用戶評分對用戶聚類,獲得基于評分的用戶鄰居。對用戶原始屬性進行標準化,再進行Kmedoids聚類。結(jié)合綜合云模型的屬性評價、用戶評分聚類、用戶屬性聚類產(chǎn)生的鄰居的并集,向目標用戶推薦項目。實驗驗證,提出的方法有效地緩解推薦算法數(shù)據(jù)稀疏的問題。
1 云模型
云模型能夠?qū)崿F(xiàn)定性概念與其定量數(shù)值表示之間的不確定性轉(zhuǎn)換模型,反映自然、社會中的模糊性、隨機性,已經(jīng)應(yīng)用于電子商務(wù)、模糊評測等領(lǐng)域[9]。
定義1 一維云模型。設(shè)T={x}是用精確數(shù)值表示的定量論域,C是定量論域T的定性概念,若T中的元素x對C的隸屬度μ(x)∈[0,1]是一個具有穩(wěn)定傾向的隨機數(shù),μ:T[0,1],x∈T,xμ(x),則x在T中的分布C(X)稱為云(Cloud),每個x叫作一個云滴。云的數(shù)字特征用期望Ex、熵En和超熵He來表示。Ex為云滴的重心位置,反映云滴在論域中的分布期望;En是定性概念亦此亦彼的度量,反映定性概念在論域中被接受的范圍。超熵He是En的熵,用于度量熵的不確定性,由熵的隨機性、模糊性決定[9]。
定義2 綜合云模型。將兩朵及以上的同類型子云進行綜合,產(chǎn)生一朵高層概念的父云。計算所有子云的數(shù)字特征,得到作為父云的綜合云的數(shù)字特征[9]。例如:由論域中的b個同類型子云C1(Ex1,En1,He1),C2(Ex2,En2,He2),…,Cb(Exb,Enb,Heb),可產(chǎn)生作為父云的綜合云C(Ex,En,He),并且
篇3
【關(guān)鍵詞】個性化;智能化推薦系統(tǒng);推薦技術(shù)
不斷擴大規(guī)模的電子商務(wù)系統(tǒng),在為消費者提供越來越多購物選擇的同時,其自身商業(yè)結(jié)構(gòu)也變得更加復(fù)雜。消費者經(jīng)常會迷失在大量的商品信息空間中,無法順利找到自己需要的商品;另一方面,商家也失去了與消費者之間的聯(lián)系,不能準確獲知消費者的消費需求、消費建議。推薦系統(tǒng)就像商店導(dǎo)購人員,直接面對消費者,為其提供商品推薦。這種能準確獲取不同消費者消費需求的推薦系統(tǒng)就是我們要研究的個性化智能推薦系統(tǒng)。
一、電子商務(wù)個性化智能推薦系統(tǒng)
個性化智能推薦系統(tǒng)是指通過收集、統(tǒng)計和分析不同消費者消費特征,使用推薦算法研究消費者的興趣偏好和購買行為,并適時更新數(shù)據(jù),實現(xiàn)主動向消費者推薦其所需商品的工作過程。
智能推薦系統(tǒng)運作的中心是準確得出消費者的個體需求,建立以消費者本身消費特征為中心的個性化的營銷策略,滿足不同消費者的不同偏好。電子商務(wù)推薦系統(tǒng)通過個性化推薦技術(shù)對網(wǎng)站整體結(jié)構(gòu)進行調(diào)整,增加商品的曝光數(shù),提升用戶平均訪問步長和商品頁訪問量,從而提高網(wǎng)站整體營銷能力。
如何使電子商務(wù)個性推薦系統(tǒng)更好地根據(jù)消費者的需求推薦消費者感興趣的商品,答案就在其采用的推薦技術(shù)上。推薦技術(shù)是電子商務(wù)推薦系統(tǒng)中最核心,最關(guān)鍵的技術(shù),很大程度上決定了推薦系統(tǒng)性能的優(yōu)劣。
二、推薦技術(shù)
從電子商務(wù)個性化推薦系統(tǒng)的主動性上分類,可以將推薦技術(shù)分為主動式推薦和被動式推薦。
所謂主動式推薦,是指推薦系統(tǒng)通過對消費者信息和行為的分析,給出恰當(dāng)?shù)囊庖姾徒ㄗh主動引導(dǎo)消費;而被動式推薦是指消費者通過自己的努力獲得所需要的商品信息。
根據(jù)目前主流的推薦技術(shù)分類,制作下表。
(一)被動推薦
被動式推薦技術(shù)的優(yōu)點是技術(shù)比較成熟,用戶易于使用。主要有下面兩大類:
1、分類瀏覽式推薦
分類瀏覽是一種按照主題分類進行信息查詢的方法。它用樹形結(jié)構(gòu)將分類的商品和服務(wù)信息表現(xiàn)出來,易于實現(xiàn),同時操作方便。
幾乎所有的電子商務(wù)交易網(wǎng)站都提供這種方式的推薦。但是推薦效率低,且分類方法不統(tǒng)一,對新出現(xiàn)的商品和信息很難準確歸類。
2、關(guān)鍵詞查詢式推薦
關(guān)鍵詞查詢由用戶輸入查找目標的關(guān)鍵詞,系統(tǒng)尋找與關(guān)鍵詞匹配的內(nèi)容進行推薦。這種方法也是比較常見的推薦方法,技術(shù)較為成熟,且易于用戶接受查找結(jié)果,但是對關(guān)鍵詞的選擇要求較高,且不易發(fā)現(xiàn)用戶的潛在興趣點。
被動式推薦自動化程度低,無法發(fā)掘用戶潛在興趣與消費需求,因此目前研究比較多的是主動式推薦,即智能推薦技術(shù)
(二)智能推薦技術(shù)
篇4
隨著互聯(lián)網(wǎng)走進各家各戶,電子商務(wù)發(fā)展越來越快,服務(wù)和產(chǎn)品也越來越多,這就造成信息過于冗雜,客戶面對海量選擇,往往要浪費很多時間來挑選自己需要的商品。為了使消費者避免浪費時間,已更加從容的心態(tài)來購買商品,電子商務(wù)推薦系統(tǒng)可以精確識別消費者的喜好,模擬銷售人員幫助消費者完成購買,給消費者想要的推薦,讓挑選變得簡單。統(tǒng)計學(xué)、人工智能數(shù)據(jù)挖掘等技術(shù)都應(yīng)用于電子商務(wù)推薦系統(tǒng)(Recommendation Systems)中,想要引導(dǎo)消費者完成購買行為,就要先分析消費者的購買意愿,所謂知己知彼百戰(zhàn)不殆,分析消費者訪問網(wǎng)站的行為,并最后給出令客戶滿意的推薦結(jié)果,來產(chǎn)生豐厚的利潤。所以說,推薦系統(tǒng)的核心便是推薦結(jié)果是否準確,如果是客戶需要的,則會提高顧客的購買意愿;反之如果推薦結(jié)果不合顧客的意,那便是端起石頭砸自己的腳,客戶也會對推薦系統(tǒng)產(chǎn)生懷疑,購買興趣大大降低。
1 推薦系統(tǒng)介紹
對客戶行為信息進行收集的記錄模塊、對用戶喜好進行分析的模型分析模塊、推薦系統(tǒng)的核心推薦算法模塊以及處理售后服務(wù)的反饋處理模塊組成了一個完整的推薦系統(tǒng)。將對的商品推薦給對的人就是推薦系統(tǒng)的目標,常見的推薦機制算法有三種,分別是基于關(guān)聯(lián)規(guī)則的算法(Association Rule_based Recommendation)、基于內(nèi)容的推薦算法(Content-based Recommendation)、協(xié)同過濾推薦算法(Collaborative Filtering Recommendation)。算法數(shù)據(jù)的表示不是很復(fù)雜,一個二維表或者是一個MXN的矩陣足以。把日志或消費類的數(shù)據(jù)通過一定的預(yù)處理,所有的商品類目用列表示,所有用戶用行表示。
把用戶的購買需求轉(zhuǎn)化成購買結(jié)果,這是一個電子商務(wù)推薦系統(tǒng)的終極目標,也是衡量推薦機制好壞的標準。在實際生活中,消費者去實體店購買商品,會有“導(dǎo)購員”進行服務(wù),提高消費者的購買意愿,而在電子商務(wù)網(wǎng)站中,推薦系統(tǒng)就是這個“導(dǎo)購員”。一個好的推薦系統(tǒng)就像一個好的“導(dǎo)購員”一樣,讓消費者了解商品后更加愿意購買商品。主要實現(xiàn)一下功能:①完善用戶體驗,給出個性化推薦;②更好的向消費者展示商品,提高轉(zhuǎn)換率;③發(fā)現(xiàn)消費者潛在需求,挖掘更廣的市場。
網(wǎng)站的推薦形式多種多樣,經(jīng)常用到的有三種:①根據(jù)會員的歷史購買記錄,來進行推薦機制的營銷;②由購物車或物品收藏來做相似物品推薦;③針對消費者的歷史信息來做相關(guān)推薦。
個性化推薦系統(tǒng)能夠深度挖掘電商消費者的興趣,增強消費者持續(xù)購買的意愿,從而形成信任關(guān)系達到維系老客戶,減緩以及解決現(xiàn)在電商平臺存在消費者持續(xù)購買意愿不強的問題。我們假設(shè)一下,如果沒有了推薦系統(tǒng)的精準推薦,消費者可能將要花更多的時間來找自己中意的商品;如果失去了系統(tǒng)的熱門推薦,消費者將很難買到質(zhì)量好價格低的產(chǎn)品;如果失去了推薦系統(tǒng)的輔助政策,消費者做出的選擇往往不是最優(yōu)的,這樣也不會購買到自己感到滿意的產(chǎn)品,對網(wǎng)站也不會有好感度,二次購買也不會再有了。這對賣家和買家來說都是損失,因此電商平臺是一種雙贏的表現(xiàn)。
2 協(xié)同過濾推薦
假如兩個用戶過去有相似的喜好產(chǎn)品,那么他們現(xiàn)在依然有相似的喜好產(chǎn)品,這是基于用戶(user-based)的協(xié)同過濾;假如有用戶過去喜好某產(chǎn)品,那么他現(xiàn)在任然喜好與該產(chǎn)品類似的產(chǎn)品,這是基于項目(item-based)的協(xié)同過濾。傳統(tǒng)協(xié)同過濾算法一般就分為這兩種,協(xié)同過濾不需要獲得產(chǎn)品或用戶特征,而是憑借相似性度量方法和評分數(shù)據(jù)來進行預(yù)測,只要評分數(shù)據(jù)越多,預(yù)測也會變得更精準。
協(xié)同過濾作為目前最成功的推薦技術(shù)之一,已被廣泛應(yīng)用于各類電子商務(wù)推薦系統(tǒng)及互聯(lián)網(wǎng)的相關(guān)領(lǐng)域,譬如國外的Amazon, eBay, NetFlix以及國內(nèi)的淘寶網(wǎng)和當(dāng)當(dāng)網(wǎng)等等。伴隨電子商務(wù)的不斷發(fā)展,用戶數(shù)量也飛速增加,用戶―項目評分數(shù)據(jù)的維度急劇增高,可是用戶給予的評價卻不是很多,使得傳統(tǒng)的協(xié)同過濾推薦面臨嚴峻的用戶評分數(shù)據(jù)稀疏性問題。同時,用戶的需求也在隨著時間改變,而傳統(tǒng)協(xié)同過濾并不能很好的解決這個問題,存在著局限性。所以,如何捕捉移動的用戶感興趣的信息已經(jīng)變成電子商務(wù)亟待解決的問題。
3 典型應(yīng)用
亞馬遜作為電商平臺的領(lǐng)頭羊,推薦商品占銷售總量的百分之四十,同時也是較早使用推薦系統(tǒng)的電子商務(wù)平臺,當(dāng)然他們的推薦形式也是別出心裁。例如,一位顧客買了一個相機,系統(tǒng)就會自動的給他推薦能用到的電池產(chǎn)品。但是由于商品多樣化的趨勢,亞馬遜電商平臺不斷更新后數(shù)據(jù)分析能力的增強,推薦系統(tǒng)可以推薦購買過該產(chǎn)品的用戶還購買的其他產(chǎn)品。
由于使用真實的購買數(shù)據(jù),而不是假設(shè)消費者會購買什么商品,亞馬遜能夠提出非常精準的提?h。例如提示“購買此商品的用戶同時購買”,就是一種很機智的營銷手法,可以讓消費者橫向比較,開闊自己的眼界,更加容易找到自己的需要。
亞馬遜使用的是“協(xié)同過濾”算法,這種算法把消費者串聯(lián)起來,有相似興趣行為的劃為一組,參照消費者的購買歷史,經(jīng)常做到事半功倍。任何人的興趣都不是孤立的,這就是“協(xié)同過濾”算法的出發(fā)點,應(yīng)該處于一個群體所感興趣的產(chǎn)品中,就是如果一群消費者對一個商品的評分很相似,那么他們對另一個商品的評分也不會相差很多。該推薦算法的核心在于采用技術(shù)找到于目標消費者有相似興趣的消費者,然后根據(jù)相似消費者對目標商品的評分做出推薦,并且把測試評分最高的多項商品作為該消費者推薦列表。
亞馬遜的頁面分為非登錄用戶和登錄用戶。對于非登錄用戶,亞馬遜會推薦各個類目的暢銷品,換言之就是排行榜。查詢?yōu)g覽頁面和詳細的商品頁面則會有關(guān)聯(lián)推薦,比如“購買此物品還可購買”;通過人的相似興趣來推薦,像“購買此物品的顧客也購買了”,“看過此商品的顧客購買的其他商品”。
而對于登錄用戶,亞馬遜的推薦方式卻截然不同,首頁的頁面會有一個今日推薦的欄目,這個欄目是由用戶的歷史瀏覽記錄生成出來的,在下面是最近一次購買商品給的記錄以及類似商品的推薦,如“根據(jù)瀏覽推薦給我的產(chǎn)品”,“瀏覽XX商品的用戶會買XX的概率”,有意思的是,每個頁面的最下方都會根據(jù)消費者的瀏覽內(nèi)容給出對應(yīng)的推薦,沒有瀏覽記錄的會推薦系統(tǒng)暢銷。
4 結(jié)論
篇5
智能Web時代的到來意味著大數(shù)據(jù)分析在各個行業(yè)的運用成為必然趨勢,推薦系統(tǒng)作為典型的智能Web應(yīng)用,通過對用戶行為數(shù)據(jù)的積累和分析,將傳統(tǒng)用戶的搜索行為轉(zhuǎn)化為推送行為,從而實現(xiàn)原始電商到智能電商的轉(zhuǎn)變。本文以智能Web時代為引,就旅游電商推薦系統(tǒng)的基本實現(xiàn)方法和思路展開了討論和分析。
【關(guān)鍵詞】智能Web 個性化旅游電商
1 智能Web時代的到來
當(dāng)我們?nèi)ビ啿偷臅r候,飯店訂餐系統(tǒng)引用了我們公開的健康調(diào)查數(shù)據(jù),從而為我們搭配適宜的綠色飲食;當(dāng)我們與陌生人在線聊天時,對話內(nèi)容得到通訊軟件后臺的事實核查,保證交流內(nèi)容的真實和安全(如facebook);當(dāng)我們在線購書時,電商平臺能夠根據(jù)用戶購物行為的相似度判斷來給出最合理的推薦(如亞馬遜)。這一系列的發(fā)生與正在發(fā)生的案例為我們詮釋了一個時代的到來,智能Web時代。
所謂智能,是指能夠不斷通過大數(shù)據(jù)分析抽象出普遍規(guī)則,進而替代窮舉的一種高效機器學(xué)習(xí)方式。拓展開講,一款智能Web應(yīng)用要首先具備大數(shù)據(jù)能力,或者叫內(nèi)容聚合,這是機器學(xué)習(xí)的基礎(chǔ)條件;然后需要具備參考結(jié)構(gòu),參考結(jié)構(gòu)為原始大數(shù)據(jù)提供了科學(xué)的解釋和展示形式,它為原始數(shù)據(jù)的分析和展現(xiàn)提供了重要的助力;最后還要具備合理的算法,算法為從數(shù)據(jù)轉(zhuǎn)變?yōu)樾畔⑻峁┝丝尚械姆椒ǎ⑿畔⒊橄鬄橐龑?dǎo)用戶交互的規(guī)則,這三大要素構(gòu)成了智能Web應(yīng)用的充要條件。
2 旅游電商推薦系統(tǒng)研究與設(shè)計
作為一類典型的智能Web應(yīng)用,推薦系統(tǒng)因為谷歌的廣告和亞馬遜的商品推薦等形式為人們所熟知,它的出現(xiàn)為當(dāng)下信息過載的大環(huán)境帶來了良好的解決方案。通過對用戶行為數(shù)據(jù)的積累和分析,將傳統(tǒng)用戶的搜索行為轉(zhuǎn)化為推送行為,從而實現(xiàn)原始電商到智能電商的轉(zhuǎn)變。
旅游電商對推薦系統(tǒng)的認識度和重視度目前還處于比較初級的狀態(tài),遠不如消費品電商平臺,這也反映出了旅游電商企業(yè)對大數(shù)據(jù)的分析處理意識與主流消費品電商的差距。我們認為,實現(xiàn)高效用的旅游電商推薦系統(tǒng),需要在精準度和展現(xiàn)形式兩方面進行深入研究,第一是要對旅游產(chǎn)品進行精確建模,只有精確建模才能在推薦計算中獲得準確的結(jié)果。第二是推薦引擎的科學(xué)選擇,常見的推薦系統(tǒng)引擎分為兩類,協(xié)同過濾推薦和基于內(nèi)容分析的推薦。協(xié)同過濾推薦是基于用戶的行為數(shù)據(jù)積累做出推薦,例如基于相似用戶的推薦和基于相似條目的推薦。基于內(nèi)容分析的推薦則需要考量用戶之間、條目之間和用戶與條目內(nèi)容之間的相似度。其中,相似度算法是不同推薦引擎的核心,我們通過如下常用代碼片段來說明相似度的計算方法。
由代碼1可知,事實上相似度計算的方法是多樣化的,需要根據(jù)實際的問題進行相似度算法的選擇,目前大量的實驗表明,基于歐氏距離的相似度算法效果相對較好。
在大數(shù)據(jù)的精確分析基礎(chǔ)上,再將推薦結(jié)果以服務(wù)而非廣告的展示形式推送到旅游電商的各個營銷環(huán)節(jié),必將會極大的推動產(chǎn)品購買的轉(zhuǎn)化率。
3 旅游電商推薦系統(tǒng)展望
在智能Web時代,隨著人們對信息和服務(wù)的智能化要求,推薦系統(tǒng)必定會在旅游電商營銷環(huán)節(jié)占據(jù)愈加重要的地位,同時,單一的旅游產(chǎn)品推薦將會無法滿足用戶的需求,旅游推薦系統(tǒng)的衍生形態(tài)將會慢慢發(fā)展起來,推薦系統(tǒng)的內(nèi)容和展示方式也都將會呈現(xiàn)出多元化和個性化的趨勢。作為旅游電商的從業(yè)者,必須清楚的認識到推薦系統(tǒng)、大數(shù)據(jù)分析、智能Web等要素對旅游電商發(fā)展的推動作用,并隨勢而動,才能在互聯(lián)網(wǎng)+的時代獲得市場和用戶的青睞。
參考文獻
[1]吳婷,熊前興,賀曦春.基于用戶特征和用戶興趣變化的協(xié)同過濾推薦[J].電腦知識與技術(shù),2008,4(7).
[2]王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應(yīng)用,2012,48(7).
[3]張娜.電子商務(wù)環(huán)境下的個性化信息推薦服務(wù)及應(yīng)用研究[D].合肥工業(yè)大學(xué),2007.
[4]許海玲.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J].軟件學(xué)報,2009,20(2).
[5]王巧榮,趙海燕,曹健.個性化服務(wù)中的用戶建模技術(shù)[J].小型微型計算機系統(tǒng),2011,32(1).
作者簡介
嚴杰(1981-),男,浙江省衢州市人。碩士學(xué)位。現(xiàn)為浙江旅游職業(yè)學(xué)院講師。研究方向為Web開發(fā)和電子商務(wù)。
篇6
[關(guān)鍵詞]個性化推薦聚類分析協(xié)同過濾平均絕度誤差
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)1120074-01
一、研究現(xiàn)狀
1.傳統(tǒng)算法中在線執(zhí)行效率低的問題。所謂的執(zhí)行效率低即在海量用戶數(shù)據(jù)中在線尋找目標用戶鄰居的過程非常浪費時間,針對該問題新的算法將采用用戶聚類的方法建立離線模型,從而縮小鄰居用戶查找時的搜索空間,節(jié)省在線處理數(shù)據(jù)的時間,然后可對數(shù)據(jù)進行定期的更新,提高算法的執(zhí)行效率。2.數(shù)據(jù)稀疏性問題。通過分析Web日志信息,將一些隱性信息轉(zhuǎn)化為顯性信息,可以解決此類問題的產(chǎn)生。
二、算法的整體框架
該算法首先采用web日志和數(shù)據(jù)庫記錄的方法,將用戶的行為記錄下來,并將這些隱性的用戶行為轉(zhuǎn)化為顯性的用戶對項目評價;然后采用改進后的相似度計算方法計算用戶之間的相似度;接著對用戶進行聚類,將用戶按照他們的行為自動地劃分為若干個用戶聚類簇;最后根據(jù)用戶對最近鄰居的評分來預(yù)測其對目標項目的評分,進而產(chǎn)生推薦。
三、數(shù)據(jù)的預(yù)處理
本文采取了隱性提取用戶信息的方法,通過分析電子商務(wù)網(wǎng)站服務(wù)器日志的方法去尋找用戶的興趣所在。一個用戶對商品(或項目)的興趣度可以體現(xiàn)在以下幾個方面:用戶是否對對商品和項目進行顯性的評分;用戶是否購買或收藏過某商品或項目,購買的數(shù)目;用戶是否將一個商品或項目從自己的收藏列表中移除;用戶對某商品或項目的點擊次數(shù);用戶在某商品或項目的頁面上停留的時間。
以上提到的各個因素都可以以web日志或數(shù)據(jù)庫的形式保存。用戶對商品的評分值就可以根據(jù)上面的幾個因素來設(shè)定。如公式1.1所示,i表示用戶編號;j表示商品或項目編號;表示用戶i對商品j的隱性評分值;
表示用戶i對商品j的顯性評分值;表示用戶i購買商品j的數(shù)目;表示用戶i是否將商品j添加到收藏,添加為1,否則為0;表示用戶i對商品j的點擊次數(shù);表示用戶i在商品j的頁面上停留的時間。隱性評分的計算公式如下:
其中,公式1.1中的是線性權(quán)重系數(shù),它的大小可以通過經(jīng)驗來人為地確定。比如說用戶顯性評分的重要性一定要高于其他的權(quán)重值,而相比之下的值應(yīng)該是最小的。第二種確定權(quán)重系數(shù)的方法就是通過統(tǒng)計的方法,利用線性回歸來計算出 的具體的值。
通過上面的數(shù)據(jù)的預(yù)處理方法,我們就可以將隱性的用戶行為轉(zhuǎn)化為顯性的用戶對商品的評價。這樣我們就可以得到用戶-項目評價矩陣,該矩陣就是聚類分析算法的輸入。
四、離線聚類過程
聚類過程的輸入就是上一節(jié)得到的用戶-項目評價矩陣,通過這一矩陣,使用相似度計算方法,既可以計算出用戶之間的相似度,將這些計算結(jié)果用矩陣表示,即得到了用戶相似度矩陣。接著我們采用4基于K-Means的用戶行為聚類算法將用戶進行聚類。
算法大致描述如下:使用改進后的相似度計算方法計算兩兩用戶之間的相似度,得到相似度矩陣;采用聚類初始中心選取算法選取K個用戶樣本點形成K個聚類,每個聚類中只有一個用戶樣本點,其評分向量作為初始的聚類中心;計算其他每個用戶樣本點與各個聚類中心的相似性,將加入到與其最相似的聚類 中,并調(diào)整 的聚類中心,以 中與其他所有樣本點距離和最近的點作為新的中心量;聚類終止條件:經(jīng)過第C步的調(diào)整后,比較各個聚類中心是否與上一次聚類一致;或者調(diào)整前后,兩個聚類中心的誤差不超過一定的閾值。如果滿足聚類終止條件,則聚類結(jié)束,否則回到C繼續(xù)。最后得到聚類簇 。
五、最近鄰居用戶的查找
由聚類的性質(zhì)可知,目標用戶的最近鄰居大部分都在與它同屬于一個聚類簇中,因此不需要在整個用戶空間上查找目標用戶的最近鄰居。所以,基于項目聚類的方法可以大大提高在線的最近鄰居查找速度,滿足推薦系統(tǒng)的實時性要求。
當(dāng)用戶U登陸以后,個性化推薦系統(tǒng)就會啟動一個后臺進程,來查找當(dāng)前用戶U的N個鄰居用戶,查找算法的大致描述如下:在數(shù)據(jù)庫中查找用戶U的所屬的聚類簇這一字段,如果這一字段為空,則運行步驟B;如果對應(yīng)的字段為i,及用戶U屬于聚類簇,運行步驟C;計算用戶U與每一個聚類中心的相似度,找到相似度最小時對應(yīng)的聚類簇,記做,運行步驟C;計算中每一個用戶樣本點與用戶U的相似度,取相似度值最大的前N個用戶作為用戶U的最近鄰居用戶。
六、預(yù)測和推薦的產(chǎn)生
通過第五部分提到的方法得到用戶 的最近鄰居后,根據(jù)鄰居用戶集合中用戶對各個項目的實際評分,我們就可以預(yù)測用戶 對各個項目的評分。假設(shè),用戶 的鄰居用戶集合是,則用戶 對項目的預(yù)測評分的計算公式如下:
其中 表示用戶 與用戶之間的相似度,表示用戶對項目 的實際評分, 表示用戶對所有項目的平均評分, 。表示用戶
對所有項目的平均評分。
最后,根據(jù)上述方法預(yù)測的用戶 對所有目標項目的評分,選取預(yù)測評分最高的前N個項目(top-N)作為推薦結(jié)果返回給用戶。
七、小結(jié)
本文我們提出并實現(xiàn)了基于用戶行為聚類的個性化推薦算法,對用戶進行聚類,利用得到的用戶聚類尋找目標項目的最近鄰居,只需要在與目標項目最相似的若干個聚類簇中搜索鄰居,最后根據(jù)用戶對鄰居的評分來預(yù)測他對目標項目的評分。
參考文獻:
[1]Pang-Ning Tan,Michael Steinbach,Vipin Kumar.Introduction to Data Mining[M].人民郵電出版社,2006,5:305-402.
[2]魯為,協(xié)同過濾算法及其在個性化推薦系統(tǒng)中的應(yīng)用[D].北京郵電大學(xué)信息工程學(xué)院,2007.
篇7
目標群體:追求主流性能
點評:
宅男,顧名思義,指的是“足不出戶 ”或是“喜歡坐在電視或電腦前呆一整天”的人群,因此這類用戶對電腦的要求并不低,而且在使用舒適性上也比較講究。
具體配置方面,考慮到Intel平臺的傳統(tǒng)強項在娛樂視頻方面,尤其在最新的45nm處理器E7200中還加入了對SEE4指令集的支持,更是如虎添翼,使得其在高清解碼、播放、圖形渲染等多方面性能有了大幅度的提升。而超頻的能力上,E7200也更有優(yōu)勢,上400MHz外頻并非天方夜譚,這點也滿足了部分宅男超頻的需要。
CPU Intel Core 2 Duo E7200(盒) 960元
內(nèi)存 金士頓 2GB DDR2 800 280元
主板 微星 P45 Neo 785元
硬盤 日立 250GB 8MB/SATA 330元
顯卡 七彩虹 逸彩9600GT-GD3 5F/512MB 1165元
顯示器 明基 G2400W 2810元
光驅(qū) 三星 TS-H353B 135元
鍵鼠 明基BV110無雙游俠鍵鼠套裝 89元
機箱 金河田 SOHO7606B 375元
音箱 現(xiàn)代 HY-203 99元
總計 7028元
作為“私房”配置,鍵盤鼠標也要對得起自己的手。明基BV110無雙游俠鍵鼠套裝采用特殊排水孔及防水薄膜設(shè)計鍵盤,高彈按鍵技術(shù),7鍵同擊不沖突,鼠標采用“逆向工程”設(shè)計,對稱式凹槽設(shè)計,有效防止“鼠標手”,這點正合宅男之意。
如果你是DIY一族,請看……
目標群體:追求玩家品味
CPU Intel Pentium E 2180(盒) 430元
內(nèi)存 金士頓 1GB DDR2 800 150元
硬盤 西部數(shù)據(jù) 160GB 8MB/SATA 315元
主板 昂達P35魔劍 620元
顯卡 迪蘭恒進HD3650冰鉆 399元
顯示器 三星 T190 1380元
光驅(qū) 先鋒 DVD-129D 129元
鍵鼠 多彩 DLK8021P+M320BP 80元
機箱 航嘉 e盾 H101 340元
音箱 三諾N-15G 125元
共計 3968元
可選升級方案:
處理器Intel Core 2 Duo E4500(盒)
可別小看Pentium E 2180的主頻才2GHz,搭配上P35的主板,超頻能力可不容小看,上個3.0GHz也不是什么難事。另外,后的Pentium E對多任務(wù)的處理并不十分理想。可以升級為E4500,性能有一定的提升。+420元
內(nèi)存金士頓 2GB DDR2 800
玩家的使用經(jīng)驗表明,相同配置下增大內(nèi)存容量可以明顯地改善系統(tǒng)運行的環(huán)境。但是也不能盲目地增加內(nèi)存,要看內(nèi)存的行情,目前再增加一條內(nèi)存并不比2GB的便宜很多,這樣一來對速度提升有限的雙通道,在性價比方面就失去了優(yōu)勢,而且單條2GB傳輸數(shù)據(jù)較雙通道要穩(wěn)定。+145元
顯卡昂達 HD3850/512MB/DDR3
對于入門級別的用戶,HD 3690的功力還是蠻不錯的,但是對于追求游戲畫質(zhì), HD3690就應(yīng)付不了了。如果用戶升級選擇主流的HD3850,建議購買顯存容量512MB的,雖然價格比顯存為256MB貴100元左右,但是對游戲的提升效果要明顯許多。+300元
如果你是高清發(fā)燒友,請看……
目標群體:追求視覺震撼
CPU AMD Athlon64 X2 5400+(黑盒版) 570元
內(nèi)存 金泰克 DDR2 800 1GB×2 290元
主板 華碩 M3A78-EMH HDMI 490元
硬盤 希捷 160GB 8MB/SATA 320元
顯卡 集成 ------
顯示器 優(yōu)派 VX2255wmb 2100元
光驅(qū) 先鋒 DVR-215CH 260元
鍵鼠 明基雙塔奇兵 155元
機箱 多彩 DLC-K023 270元
音箱 漫步者S2.1M 540元
總計 4995元
點評:
為了能實現(xiàn)看高清這個最終目的,別無他求,因而主板選用了780G芯片組,其集成的HD3200顯示核心(性能接近X1300),不但是首款支持DX10的集成產(chǎn)品,而且最重要的是,顯示核心內(nèi)建UVD解碼單元,可以對VC-1和H.264兩種壓縮格式提供較完美的全面解碼,不再需要軟解方式播放,播放主流高清視頻會變得更順暢。
既然顯卡承擔(dān)了高清解碼的任務(wù),對處理器的要求也就可以降低了,三核、四核大可不必要,雙核5400+黑盒版就足已。另外,黑盒版不鎖倍頻,僅需調(diào)整一下倍頻,采用普通風(fēng)冷措施,便可輕松上3.2GHz。硬盤沒有選大容量的,因為對于下載的高清影片,一部就是好幾個GB,哪怕是500GB的硬盤也存不了多少,還不如刻盤來得實惠。
如果你是時髦一族,請看……
目標群體:追求時尚品味
CPU Intel 奔騰雙核 E2200(盒) 510元
內(nèi)存 威剛DDR2 800 2GB 220元
主板 技嘉 GA-EG31M-S2 530元
硬盤 西部數(shù)據(jù)250GB/SATA 350元
顯卡 集成 -------
顯示器 明基Bling-Bling E900WN限量版 1799元
光驅(qū) 索尼 DDU1632 130元
鍵鼠 新貴無線鍵鼠套裝 199元
機箱 天使之戀SG-5020+鑫谷勁翔370 489元
音箱 奮達C-20 298元
總計 4525元
可選升級方案:
鍵鼠雷柏8800
如果想進一步提升整套配置的時尚外觀和舒適體驗,那么可以考慮更換成雷柏全新推出的超薄無線鍵鼠套裝,特別是它那靚麗水晶風(fēng)格,定會引起不少時尚一族的共鳴。+189元
音箱創(chuàng)艦 CJC-680(竹簡)
初見CJC-680,它給人的第一感覺,并不是音箱,而是一本展開的大書簡。古典味極濃,同時,風(fēng)雅的感覺撲面而來,另外,產(chǎn)品的倒相孔側(cè)置,音量、高、低音旋鈕均獨立可調(diào)。調(diào)時量感適當(dāng),彰顯品質(zhì)內(nèi)涵。特別是產(chǎn)品的主色調(diào)以香檳金為主,高貴奢華,體現(xiàn)了潮流的元素。+20元
篇8
關(guān)鍵詞:個性化搜索;個性化推薦系統(tǒng);隱私保護;信息安全;網(wǎng)絡(luò)安全
中圖分類號:TP315 文獻標識碼:A DOI:10.3969/j.issn.1003-6970.2015.04.014
0.引言
篇9
關(guān)鍵詞:圖書推薦;借閱特征;協(xié)同過濾;特征提取
中圖分類號:G250.71 文獻標識碼:A 文章編號:1007-9416(2017)03-0156-03
1 引言
目前高校圖書館的館藏資源通常成千上萬,而且種類繁多,因此讀者會花費大量的時間用于尋找自己感興趣的圖書。而隨著圖書行業(yè)的繁榮,書目與種類日益增多。傳統(tǒng)的搜索引擎已經(jīng)不能完全的滿足讀者對圖書的辨識。因此,針對這種信息獲取的困難,出現(xiàn)了許多針對于個性化圖書推薦系統(tǒng)的相關(guān)研究。
目前高校圖書館的推薦系統(tǒng)存在以下一些問題。第一,推薦系統(tǒng)不夠個性化,一些高校的圖書推薦模塊僅僅是依靠于借閱量以及根據(jù)借閱記錄基于圖書本身的內(nèi)容進行推薦。第二,許多個性化圖書推薦系統(tǒng)雖然采用協(xié)同過濾的技術(shù),實現(xiàn)了個性化,但是協(xié)同過濾算法本身依賴于用戶對項目的評分,而大部分高校圖書館的借閱記錄中都沒有讀者對圖書的評分這一項。第三,由于數(shù)據(jù)稀疏性的原因,導(dǎo)致一些沒有借閱過的或被借閱次數(shù)很少的圖書無法被有效的推薦給其他人。
如之前所說,協(xié)同過濾依賴于用戶對物品的評分,而對于高校圖書館,如何根據(jù)讀者的借閱記錄將其特征轉(zhuǎn)化為對圖書的評分,從而提高推薦的準確性。是本文研究的重點。同時,本文也將根據(jù)借閱記錄提取與時間相關(guān)的特征,考慮時間因素,例如圖書借閱的先后順序,或者在某些大型綜合考試如英語四、六級考試前為讀者推薦相關(guān)的圖書。
本文的核心步驟主要分為兩大類:
(1)利用基于用戶的協(xié)同過濾算法對推薦結(jié)果進行粗召回。
(2)利用特征提取算法對用戶及借閱記錄進行特征提取,構(gòu)建讀者偏好模型。
本文第2節(jié)介紹了個性化推薦方法的研究工作,第3節(jié)詳細闡述本文提出方案的具體原理;第4節(jié)是關(guān)于本文提出的推薦方案在真實數(shù)據(jù)集上的實驗分析與討論;最后第5節(jié)給出結(jié)論和未來的工作。
2 方案原理
該方案主要分為兩個部分,第一部分利用基于協(xié)同過濾算法對借閱記錄進行推薦,得出一個粗召回的結(jié)果集。第二部分利用特征提取算法對借閱記錄進行特征提取,將提取的特征以向量的形式作為讀者偏好模型的維度,訓(xùn)練讀者的偏好模型。
2.1 推薦算法比較
推薦算法比較,當(dāng)前,個性化推薦方法通常采用三類核心推薦算法[1]:(1)基于關(guān)聯(lián)規(guī)則的推薦算法(Association Rule-based Rcommendation);(2)基于內(nèi)容的推薦算法(Content-based Rcommendation);(3)基于協(xié)同過濾的推薦算法(Collaborative Filtering Rcommendation)下面U述三類推薦算法的原理以及優(yōu)缺點。
基于關(guān)聯(lián)規(guī)則的推薦算法是以關(guān)聯(lián)規(guī)則為基礎(chǔ),研究的核心問題即項目集A與其他項目集的關(guān)聯(lián)關(guān)系。直觀的意義就是對圖書A偏好的讀者又借閱了圖書B和C,那么可以說B與C和A存在關(guān)聯(lián)關(guān)系。比如借閱了大數(shù)據(jù)相關(guān)圖書的讀者一般還會借閱hadoop相關(guān)的圖書。基于關(guān)聯(lián)規(guī)則的推薦算法優(yōu)點在于算法的復(fù)雜程度,因此可以深度挖掘讀者的興趣偏好,提高推薦精準度。缺點在于算法實現(xiàn)較為復(fù)雜,如何在成百上千萬的項目中計算每個項目之間的關(guān)聯(lián)規(guī)則是算法的核心和難點,因此生成個性化推薦結(jié)果較為耗時。
基于內(nèi)容的推薦算法,是以產(chǎn)生關(guān)系的項目為中心,提取項目的特征,尋找與該項目相似的其他項目推薦給用戶,例如讀者借閱了朱自清的散文集,可能也會對冰心的散文感興趣。基于內(nèi)容的推薦算法在圖書推薦方面優(yōu)點在于,不存在冷啟動問題,即對新書以及新讀者都比較容易產(chǎn)生推薦,缺點在于不夠個性化,不能挖掘出讀者深度的興趣偏好。
基于協(xié)同過濾的推薦算法是當(dāng)前個性化推薦領(lǐng)域中最流行的推薦算法。它包括兩大類,一是基于用戶的協(xié)同過濾,二是基于項目的協(xié)同過濾[2]。以基于用戶的協(xié)同過濾為例,它的原理就是利用用戶與項目之間的評分計算目標用戶與每個用戶的相似度,根據(jù)相似度的排序選定最近鄰用戶[3],將近鄰用戶中所產(chǎn)生關(guān)系的項目中選取目標用戶沒有產(chǎn)生關(guān)系的項目作為推薦項目推薦給目標用戶。同理,基于項目的協(xié)同過濾是計算項目間[4]的相似度從而產(chǎn)生項目間的近鄰,生成推薦。基于協(xié)同過濾的推薦算法優(yōu)點很明顯,就是與內(nèi)容無關(guān),通過計算用戶的相似度,來深度挖掘用戶的潛在興趣,真正的可以實現(xiàn)個性化推薦。由于算法的基礎(chǔ)是依賴于用戶與項目之間的作用關(guān)系,因此基于協(xié)同過濾的推薦算法缺點在于冷啟動問題,即對新用戶或新項目的推薦不夠好。
2.2 基于用戶的協(xié)同過濾算法
綜合上一小節(jié),由于基于協(xié)同過濾的推薦算法是目前推薦領(lǐng)域的主流,而且它可以實現(xiàn)真正的個性化推薦,因此本文中提出的推薦方案第一部分選取基于協(xié)同過濾的推薦算法。基于用戶的協(xié)同過濾算法第一步是生成用戶-項目的評分矩陣,如圖1所示是一個m x n的二維矩陣。其中m表示用戶數(shù),n表示項目數(shù),Rm,n表示用戶m對項目n的評分。由于本文的研究背景是高校圖書館的借閱記錄,沒有讀者對圖書的評分項,因此只記錄其作用關(guān)系,即借閱過的記為1,未借閱的記為0。
基于用戶的協(xié)同過濾第二步是生成根據(jù)用戶-項目矩陣生成最近鄰用戶,這個過程的本質(zhì)相當(dāng)于為目標用戶在矩陣R中計算一個相似性的排序集合。計算用戶相似度的方法主要有2種:
(1)余弦相似性(Cosine):設(shè)用戶i 和用戶j 在m維對象空間上的評分表示為向量i,j,則sim(i,j)的相似性計算方法如下:
(2)相關(guān)相似性(Correlation):設(shè)用戶i 和用戶j 共同評分的對象集合用Iij 表示[5],則用戶i 和用戶j 之間的相似性通過Pearson 相關(guān)系數(shù)度量,方法如下:
基于用戶的協(xié)同過濾第三步是生成推薦結(jié)果,由第二步計算得出目標用戶的最近鄰集合,設(shè)用戶u的最近鄰用戶集合為Su,則用戶u對項目i的預(yù)測評分Pu,i可以通過用戶u對最近鄰用戶集合Su中的項目評分得到[6]。計算公式如下:
其中sim(u,n)表示用戶u與用戶n之間的相似性,Rn,i表示用戶n對項目i的評分,Rn分別表示用戶u和用戶n對項目的平均評分。
2.3 利用特征提取算法對借閱記錄進行特征提取
上一小節(jié)闡述了本文中推薦方案的第一部分,即利用協(xié)同過濾算法對推薦結(jié)果集進行粗召回,可以對閾值進行設(shè)置,產(chǎn)生大量的可能的推薦對象。而研究背景的借閱數(shù)據(jù)中,存在很多的可以描述用戶興趣偏好的特征,因此,本節(jié)闡述的是推薦方案中的第二部分,即利用特征提取算法對借閱記錄進行特征提取,建立用戶偏好模型。通過實際數(shù)據(jù)對模型進行訓(xùn)練,最終產(chǎn)生更精確的推薦結(jié)果。
本文的研究背景是基于高校圖書館的借閱記錄,而借閱記錄是表示讀者興趣偏好的直接來源。因此,如何對讀者的借閱記錄進行特征提取,建立興趣偏好模型,是提高推薦精確度的關(guān)鍵。也是本文中推薦方案的第二部分的核心。以我校圖書館的借閱數(shù)據(jù)分析,其中包括三類特征信息,第一類是用戶的基本信息,第二類是圖書的特征信息,第三類是關(guān)于借閱行為的特征信息。包括的特征可以整理為:
通過上述整理的特征構(gòu)建讀者-特征矩陣,如圖2。
y值表示user(i)最終是否借閱了圖書,利用讀者每一年的數(shù)據(jù)中第一學(xué)期的和第二學(xué)期的一部分作為訓(xùn)練集,余下的部分作為測試集。建立讀者偏好模型。利用偏好模型,對該推薦方案中第一部分粗召回結(jié)果集進行評分擬合。按照擬合評分的排序結(jié)果,產(chǎn)生最終優(yōu)化的推薦結(jié)果。
目前,利用機器學(xué)習(xí)技術(shù)領(lǐng)域中相關(guān)的有監(jiān)督學(xué)習(xí)算法,可以對數(shù)據(jù)進行建模,并訓(xùn)練模型。最終根據(jù)興趣偏好模型擬合推薦結(jié)果集。
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),GBDT模型是一種解決回歸問題的樹模型,本質(zhì)是一種迭代的決策樹算法。該算法由多棵決策樹組成,所有樹的結(jié)論累加起來做最終結(jié)果。它在被提出之初就和SVM一起被認為是泛化能力較強的算法。GBDT主要有三個部分組成:
(1)DT:回歸樹 Regression Decision Tree。GBDT的核心在于累加所有樹的結(jié)果作為最終結(jié)果,而分類樹的結(jié)果顯然是沒辦法累加的,所以GBDT中的樹都是回歸樹,不是分類樹。
(2)Boosting,迭代,即通過迭代多棵樹來共同決策。GBDT的核心就在于,每一棵樹學(xué)的是之前所有樹結(jié)論和的殘差,這個殘差就是一個加預(yù)測值后能得真實值的累加量。
(3)Shrinkage即縮減。Shrinkage的思想認為,每次走一小步逐漸逼近結(jié)果的效果,要比每次邁一大步很快逼近結(jié)果的方式更容易避免過擬合。即它不完全信任每一個棵殘差樹,它認為每棵樹只學(xué)到了真理的一小部分,累加的時候只累加一小部分,通過多學(xué)幾棵樹彌補不足。
目前來說,GBDT幾乎可用于所有回歸問題(線性/非線性),相對logistic regression僅能用于線性回歸,GBDT的適用面非常廣。亦可用于二分類問題(設(shè)定閾值,大于閾值為正例,反之為負例)。
3 實驗
3.1 實驗數(shù)據(jù)
本文的研究背景是高校圖書館,因此本文實驗數(shù)據(jù)采用北京市某高校的圖書館借閱記錄作為本文所提出方案的實驗數(shù)據(jù)。數(shù)據(jù)涵蓋了近10年200萬條借閱記錄,20萬條圖書信息以及17000的讀者信息。
3.2 實驗評價
對于推薦領(lǐng)域而言,對于推薦結(jié)果的評價標準一般從如下幾個方面考慮:推薦準確度、推薦結(jié)果的多樣性以及推薦結(jié)果的覆蓋性等。由于本文的研究背景是面向高校讀者的圖書個性化推薦,因此選取當(dāng)前推薦領(lǐng)域普遍采取的評價標準,即準確度指標。
準確度是當(dāng)前推薦領(lǐng)域?qū)ν扑]算法結(jié)果評價中最常用、最基礎(chǔ)也是最普遍的指標。大部分的推薦算法都采用準確度指標來衡量一個推薦算法的好壞。準確度指標的原理是通過描述預(yù)測打分與用戶實際打分的相似程度來評估結(jié)果。目前,對于準確度指標的衡量方法最常用的是平均絕對誤差(Mean Absolute Error , MAE)。MAE通過計算預(yù)測用戶評分和實際用戶評分之間的偏差來度量預(yù)測的準確性[5]。MAE越小,推薦質(zhì)量越高。平均絕對誤差(MAE)的計算公式如下:
其中,c為用戶i所產(chǎn)生關(guān)系的項目數(shù)量,ria為用戶的實際評分,via為推薦算法的預(yù)測評分。
3.3 實驗結(jié)果
為了檢驗本文所提出方案中的推薦算法,我們將以傳統(tǒng)的僅僅依靠于協(xié)同過濾算法作為對照,在傳統(tǒng)的協(xié)同過濾算法中,分別以余弦相似性和相關(guān)相似性作為相似性的度量標準,分別計算其MAE。并設(shè)置近鄰個數(shù)從20增加到40,間隔為5。然后與本文提出的推薦算法作比較,由數(shù)據(jù)可以看出,本文提出的推薦方案,即在基礎(chǔ)的協(xié)同過濾算法之上對借閱記錄進行特征提取,根據(jù)實際情況提取更能代讀者興趣偏好的特征,構(gòu)建讀者偏好模型,最終得到的推薦結(jié)果,相比僅僅依靠于協(xié)同過濾算法得到的推薦結(jié)果。具有較小的MAE。因此,本文提出的推薦算法可以針對于高校圖書館的研究背景得出更精準的推薦結(jié)果。
4 結(jié)語
隨著圖書行業(yè)的繁榮,讀者需要在浩瀚的圖書海洋中選擇自己感興趣的圖書。因此一個好的推薦系統(tǒng)起著至關(guān)總要的作用。本文所闡述的推薦方案能夠根據(jù)現(xiàn)有的數(shù)據(jù)進行有效的推薦,但是仍存在著一些其他問題,例如冷啟動、數(shù)據(jù)稀疏等問題。這些問題也是整個推薦領(lǐng)域需要進一步研究的問題。
參考文獻
[1]Hofmann,T.Latent Semantic Models for Collabora―tive Filtering[J].ACM Transactions on Information Systems,2004,22(1).
篇10
關(guān)鍵詞:協(xié)同過濾;推薦系統(tǒng);聚類
中圖分類號: TP391
文獻標識碼:A
0引言
個性化推薦系統(tǒng)被用來幫助用戶在大量的信息中尋找感興趣的內(nèi)容,它體現(xiàn)的“個性化”服務(wù)目前越來越為大型網(wǎng)站、電子圖書館等眾多領(lǐng)域所接受,成為它們的一個重要的功能[1]。在個性化推薦系統(tǒng)中,最近鄰協(xié)同過濾技術(shù)是當(dāng)前應(yīng)用最成功的技術(shù)。其基本思想是基于評分相似的最近鄰居的評分數(shù)據(jù)向目標用戶產(chǎn)生推薦。由于最近鄰居對項目的評分與目標用戶對該項目的評分非常相似,因此目標用戶對未評分項目的評分可以通過最近鄰居對該項目評分的加權(quán)平均值逼近[2]。
最近鄰協(xié)同過濾推薦需要在整個用戶空間上搜索目標用戶的最近鄰居,隨著系統(tǒng)規(guī)模的擴大,用戶和項目數(shù)量急劇增加,在整個用戶空間上搜索目標用戶的最近鄰居比較耗時,難以滿足推薦系統(tǒng)的實時性要求。針對上述問題,本文提出了基于用戶聚類的協(xié)同過濾推薦算法,通過用戶對項目評分的相似性對用戶進行聚類,將具有相似興趣的用戶放入同一個聚類中。當(dāng)目標用戶到達時,判斷用戶所屬聚類,再在對應(yīng)聚類中搜索目標用戶的最近鄰居,從而在盡量小的用戶空間上搜索目標用戶的最近鄰居,最后根據(jù)最近鄰居對項目的評分預(yù)測目標用戶對項目的評分并產(chǎn)生推薦列表。對項目進行聚類比較耗時,但可以離線進行。協(xié)同過濾推薦需要對一個聚類內(nèi)的所有用戶進行相似系數(shù)的計算,在研究中發(fā)現(xiàn),其所需計算量隨用戶數(shù)目的增長急劇增加,嚴重影響了在線推薦的效率,為此,本文提出將協(xié)同過濾分為類內(nèi)相似系數(shù)計算和產(chǎn)生推薦兩個階段。把相似系數(shù)的計算放在離線數(shù)據(jù)處理部分,減少了在線推薦的計算量,從而提高了在線推薦的實時響應(yīng)速度。
1協(xié)同過濾技術(shù)
協(xié)同過濾技術(shù)通過分析歷史數(shù)據(jù),生成與當(dāng)前用戶行為興趣最相近的用戶集,將他們感興趣的項作為當(dāng)前用戶的推薦結(jié)果,即topN推薦。基于協(xié)同過濾技術(shù)的推薦過程可分為3個階段:數(shù)據(jù)表述;發(fā)現(xiàn)最近鄰居;產(chǎn)生推薦數(shù)據(jù)集。
在一個典型的基于協(xié)同過濾技術(shù)的推薦系統(tǒng)中,輸入數(shù)據(jù)通常可以表述為一個m×n的用戶蠶釔攔讕卣R, m是用戶數(shù),n是項數(shù),rij是第i個用戶對第j項的評估數(shù)值。本文中,rij表示用戶對頁面的興趣度。
基于協(xié)同過濾技術(shù)的推薦系統(tǒng)的核心是為一個需要推薦服務(wù)的用戶尋找其最相似的“最近鄰居”集合,即:對一個用戶u,要產(chǎn)生一個依相似度的大小排列的“鄰居”集合N={N1,N2,…,Nt},u不屬于N,從N1,到Nt,sim(u,Nt)從大到小排列。
度量用戶相似性的方法主要包括如下兩種:余弦相似性和相關(guān)相似性。
余弦相似性:設(shè)用戶u1和用戶u2在n維項目空間上的評分分別表示為向量u1,u2,則用戶u1和用戶u2之間的相似性sim(u1,u2)為:
相關(guān)相似性(correlation):設(shè)經(jīng)用戶i和用戶j共同評分的項目集合用Iij表示,則用戶i和用戶j之間的相似性sim(i,j)通過Pearson相關(guān)系數(shù)度量:
協(xié)同過濾技術(shù)在個性化推薦系統(tǒng)中獲得了極大的成功,但隨著系統(tǒng)規(guī)模的擴大,逐漸暴露出來一些缺點:評估矩陣數(shù)據(jù)稀疏、可擴展性差、推薦的可信度低等。
為了解決協(xié)同過濾技術(shù)存在的問題,學(xué)者提出了基于評分預(yù)測的協(xié)作過濾方法[3,5]、維數(shù)簡化算法[2]等技術(shù)。但是這些算法都增加了在線處理的計算復(fù)雜度,不能很好的對用戶做出響應(yīng)。本文提出基于用戶聚類的方法,通過用戶對項目評分的相似性對用戶進行聚類,將具有相似興趣的用戶放入同一類中,當(dāng)目標用戶到達時,首先判斷用戶所屬聚類,再在這個聚類中搜索目標用戶的最近鄰居,從而在盡量少的用戶空間上搜索目標用戶的最近鄰居。
2基于用戶聚類的協(xié)同過濾推薦系統(tǒng)
2.1基于用戶聚類的協(xié)同過濾推薦算法
KMeans聚類算法,也被稱為K簿值算法,是一種得到廣泛使用的算法。
設(shè)k是kMeans算法的輸入?yún)?shù),代表該算法在數(shù)據(jù)集上分割并計算后輸出的數(shù)量。數(shù)據(jù)集是由n個數(shù)據(jù)點組成的,在初始化時,根據(jù)輸入?yún)?shù)從n個數(shù)據(jù)點中找出k個聚類中心。通過KMeans聚類算法對用戶進行聚類的具體算法如下[6]:
輸入:聚類數(shù)目k和用戶評分數(shù)據(jù)表
輸出:k個聚類
方法:
1) 從用戶評分數(shù)據(jù)表中檢索所有n個項目,記為集合I={i1,i2,…,in};
2) 從用戶評分數(shù)據(jù)表中檢索所有m個用戶,記為集合U={u1,u2,…,um};
3) 從m個用戶中選擇訪問量最高的k個用戶作為初始的聚類中心,記為{W1,W2,…,Wk},其中Wj*=il,j∈{1,2,…,k},l∈{1,2,…,n},使每一個聚類cj與聚類中心相對應(yīng);
4) Repeat
For 每一個輸入向量il,其中l(wèi)∈{1,2,…,n} do
將il分配給最近的聚類中心Wj*所屬的聚類cj*
For 每一個聚類cj,其中j∈{1,2,…,k} do
將聚類中心更新為當(dāng)前的cj中所有樣本的質(zhì)心點,
即 wj=∑i∈cjil/|cj|
計算誤差函數(shù):E=∑kj=1∑i∈cjil-wj2
程序后
5) Until E 不再明顯的改變或者聚類的成員不再變化。
傳統(tǒng)的KMeans聚類算法的初始聚類中心是隨機選取的,在實驗過程中發(fā)現(xiàn),聚類后會出現(xiàn)較多孤立點。因為協(xié)同過濾算法是在搜索最近鄰居的基礎(chǔ)上進行推薦的,無法對孤立點進行個性化推薦。研究發(fā)現(xiàn),訪問量高的用戶可以代表一部分用戶,這些用戶作為聚類中心具有很好的代表性。因此,本文選擇訪問量高的k個用戶作為初始聚類中心,經(jīng)實驗驗證能較好的減少孤立點。
2.2基于用戶聚類的最近鄰居查詢和產(chǎn)生推薦
2.2.1基于用戶聚類的最近鄰居查詢
研究中發(fā)現(xiàn),用戶相似系數(shù)的計算所需計算量很大,嚴重影響實時推薦的速度,由此會延長用戶的等待時間,導(dǎo)致用戶對網(wǎng)站的忠誠度降低,甚至導(dǎo)致客戶流失。
為了減少實時推薦的計算量,本文提出將用戶相似度的計算離線進行,并將其保存在數(shù)據(jù)庫中。具體實現(xiàn)如下:建立相似度計算表 SimiCoefficient,該表包括四個字段:SimilarCoefficient, User1Id, User2Id,CenterId,分別表示相似度值、用戶1標識、用戶2標識和所屬聚類標識,該表用來保存用戶之間的相似度數(shù)據(jù)。表結(jié)構(gòu)如下:
程序前
當(dāng)目標用戶到達時,首先判斷出他所屬的聚類,然后在該聚類中查詢與目標用戶的相似系數(shù)最大的若干個用戶。
2.2.2產(chǎn)生推薦
“最近鄰居”產(chǎn)生后,就可以計算用戶對任意項的興趣度和topN推薦集。設(shè)用戶u和相應(yīng)的已選項集Iu,則其對任意項t(tIu)的興趣度如式(3)所示:
prediction=+∑ni=1(corri)×(ratingi)-∑ni=1(corri)(3)
式(3)中是用戶u對項的平均評估值,i是“最近鄰居”集的用戶,corri是用戶u和用戶i之間的Pearson系數(shù),ratingi是用戶i對項t的評估值,是用戶i對項的平均評估值。通過上述方法預(yù)測用戶對未瀏覽資源的興趣度,然后選擇預(yù)測興趣度最高的若干項推薦給用戶。
2.3推薦系統(tǒng)體系結(jié)構(gòu)
在本文提出的推薦系統(tǒng)中,采用基于用戶聚類的協(xié)同過濾推薦技術(shù)向用戶推薦可能感興趣的資源,在網(wǎng)站上以鏈接的形式發(fā)送給用戶,該推薦系統(tǒng)的結(jié)構(gòu)如圖1所示,分為兩個部分:第一個是離線處理部分,主要完成Web日志的預(yù)處理以及對用戶進行聚類和相似系數(shù)的計算;第二部分為在線推薦部分,利用離線階段的處理結(jié)果,通過公式(3)預(yù)測目標用戶對未訪問項的興趣度,把興趣度高的前N項作為推薦結(jié)果推薦給用戶。
3實驗結(jié)果及其分析
3.1數(shù)據(jù)集
本文采用河南科技大學(xué)校園文化網(wǎng)的日志數(shù)據(jù),對數(shù)據(jù)進行預(yù)處理后從中選擇16653條評分數(shù)據(jù)作為試驗數(shù)據(jù)集,該數(shù)據(jù)集中包括1055個用戶和1839個項目。
3.2度量標準
本文采用統(tǒng)計精度度量方法中被廣泛采用的平均絕對偏差MAE(Mean Absolute Error)作為推薦精度度量標準。平均絕對偏差MAE通過計算預(yù)測的用戶評分與實際的用戶評分之間的偏差度量預(yù)測的準確性,MAE越小,推薦質(zhì)量越高。設(shè)預(yù)測的用戶評分集合表示為{p1,p2,…,pn},對應(yīng)的實際用戶評分集合為{q1,q2,…,qn},則平均絕對偏差
3.3推薦精度試驗
試驗過程中,分別指定用戶聚類的數(shù)目為30,40,目標用戶的最近鄰居個數(shù)從10增加到40,間隔為10,分別計算本文提出的算法與傳統(tǒng)的協(xié)同過濾推薦算法的MAE,試驗結(jié)果如圖2和圖3所示。
由圖2和圖3可以看出,在聚類數(shù)目分別為30和40時,本文提出的基于用戶聚類的協(xié)同過濾推薦算法均具有最小的MAE。由聚類的性質(zhì)可知,目標用戶的最近鄰居大部分分布在與目標用戶相似性最高的聚類中,因此不需要在整個用戶空間上查詢目標用戶的最近鄰居,而只需要在與目標用戶相似性最高的聚類中就能查詢到目標用戶的大部分最近鄰居。由于傳統(tǒng)的協(xié)同過濾算法是在所有的用戶空間上進行最近鄰居的搜索,而本文提出的算法是在聚類后的用戶空間上進行搜索,因此推薦的精度大大提高。由此可知,與傳統(tǒng)的最近鄰協(xié)同過濾推薦算法比較,本文提出的算法可以顯著提高推薦系統(tǒng)的推薦質(zhì)量。
3.4實時性效果檢驗
為了檢驗算法的實時性效果,將傳統(tǒng)的在線計算相似系數(shù)與本文提出的離線計算相似系數(shù)作比較,分別進行在線推薦,實驗結(jié)果如圖4所示。
圖4中用橫軸表示聚類的數(shù)目k,用縱軸表示進行實時推薦所需耗費的時間t。可以看出,采用離線計算相似系數(shù)后,實時推薦所需時間明顯少于在線計算相似系數(shù)所需時間。特別是當(dāng)聚類的數(shù)目比較小的時候,兩者的效率幾乎相差一倍。這是因為聚類中的數(shù)目小的時候,聚類中的項目數(shù)相對較大,計算相似系數(shù)所需時間長,采用離線計算相似系數(shù)就可以大大提高推薦的效率。而隨著聚類數(shù)目的增大,聚類中項目的平均數(shù)目會變小,此時需要在線計算相似系數(shù)的項目相對較少,離線和在線計算所需時間相差不大,但本文提出的算法效率仍優(yōu)于改進前的算法執(zhí)行效率。
熱門標簽
個性化教學(xué)論文 個性發(fā)展 個性化服務(wù) 個性化教學(xué) 個性特征 個性化閱讀 個性主義 個性化傳播 個性化教育 個性要素 心理培訓(xùn) 人文科學(xué)概論