電商平臺用戶評論數(shù)據(jù)情感分析

時間:2022-10-28 08:54:48

導(dǎo)語:電商平臺用戶評論數(shù)據(jù)情感分析一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

電商平臺用戶評論數(shù)據(jù)情感分析

摘要:以生鮮農(nóng)產(chǎn)品蘋果為研究對象,通過Python網(wǎng)絡(luò)爬蟲采集電商平臺上的文本評論數(shù)據(jù),對數(shù)據(jù)進行去重、清洗等基本的預(yù)處理操作后,進行用戶情緒分類,并通過分詞處理、詞頻統(tǒng)計、詞云數(shù)據(jù)展示等方法對用戶評論文本數(shù)據(jù)進行分析。通過LDA主題分析模型對評論數(shù)據(jù)進行主題分析,從而通過多方面的分析獲取文本評論數(shù)據(jù)中有價值的內(nèi)容,對產(chǎn)品的改進提出建議。

關(guān)鍵詞:文本數(shù)據(jù)挖掘;LDA主題模型;用戶評論;情感分析

1概述

隨著科技的發(fā)展和人們綜合素質(zhì)的提高,越來越多的人選擇網(wǎng)上購物,尤其是年輕人,大到汽車、家電,小到大米、蔬菜等農(nóng)副產(chǎn)品。最近幾年,生鮮類農(nóng)產(chǎn)品成了電商發(fā)展的新方向,生鮮電商巨大的市場前景吸引了眾多生鮮電商的積極入市,當(dāng)前,蘇寧、順豐、京東、阿里巴巴等電商企業(yè)紛紛向這方面進軍。這種網(wǎng)上生鮮電商的服務(wù)模式,得到了社會大眾的青睞和認可。當(dāng)前好多電商平臺取消了對用戶評論的分類,或者分類過于粗糙,缺乏指導(dǎo)價值,不利于商戶和用戶從大量的數(shù)據(jù)中提取有用信息。作為商品的經(jīng)營者,面對激烈的市場競爭,除了提高產(chǎn)品質(zhì)量、降低商品的價格、營銷方式的變革之外,了解更多消費者的心聲變得越來越重要,其中常用的方式就是對評論者的文本數(shù)據(jù)進行內(nèi)在信息的數(shù)據(jù)挖掘分析,幫助企業(yè)和商家推出受市場歡迎的產(chǎn)品。同時對消費者而言,可以幫助消費者了解產(chǎn)品的優(yōu)劣,幫助用戶進行購買決策。本文從電商平臺用戶評論數(shù)據(jù)的獲取、采集和分析3個方面分析了基于電商平臺評論數(shù)據(jù)的用戶情感分析的一般流程如圖1所示。

2數(shù)據(jù)來源

經(jīng)前期的市場調(diào)查,蘋果在各種生鮮農(nóng)產(chǎn)品中有著廣泛的受眾群體,營養(yǎng)價值高,老少皆宜,易于儲存和運輸,非常適合在網(wǎng)絡(luò)上銷售,無論自用還是送禮都有著巨大的消費量。因此本文選擇京東商城生鮮農(nóng)產(chǎn)品,以新鮮水果蘋果為研究對象,對用戶的評價進行情感分析。本文以當(dāng)前銷量排名第一的某品牌蘋果阿克蘇蘋果為例,京東商城自營店將蘋果產(chǎn)品的規(guī)格按果徑大小分為75~80mm15粒,80~85mm15粒,85~90mm14粒,90~95mm12粒,95~100mm10粒,約100mm8粒6個級別,截至目前已經(jīng)有累計69萬+評論,其中好評28萬+,中評3100+,差評2100+,數(shù)據(jù)量比較大,適合作電商用戶情感分析。

3基于網(wǎng)絡(luò)評價的農(nóng)產(chǎn)品情感分析

3.1評論數(shù)據(jù)的采集

本文使用Python編寫爬蟲程序,從京東商城網(wǎng)站上采集某品牌蘋果客戶的評論數(shù)據(jù)。采集了用戶編號、用戶評分、評論內(nèi)容、評論時間4個字段,并將采集到的數(shù)據(jù)保存MySQL數(shù)據(jù)庫中,如圖2所示。

3.2網(wǎng)絡(luò)評論數(shù)據(jù)詞云分析

對評論數(shù)據(jù)進行重復(fù)值處理、過濾短句等操作之后,將數(shù)據(jù)分別按好評、中評、差評存放在相應(yīng)的文本文件中。其中評分大于3分的為好評,等于3分的為中評,小于3分的為差評。然后去除文本中的無用符號、過濾停用詞,對文本進行jieba分詞和詞頻統(tǒng)計。分別取好評和差評的前30個高頻詞用詞云展示,如圖3所示。實驗結(jié)果顯示,正面評價客戶的評論主要是對產(chǎn)品質(zhì)量和京東平臺服務(wù)的肯定,評論點主要集中在口感、包裝和物流;負面評價用戶的評論主要集中在是否為真正的阿克蘇蘋果、有無冰糖心、口感、產(chǎn)品質(zhì)量的穩(wěn)定性,以及對京東平臺客服的評價上。

3.3基于LDA模型的主題分析

3.3.1LDA模型介紹主題模型在機器學(xué)習(xí)和自然語言處理領(lǐng)域是用來在一系列文檔中發(fā)現(xiàn)抽象主題的一種統(tǒng)計模型。潛在狄利克雷分配(LatentDirichletAllocation,LDA)是由Blei等人在2003年提出的生成式主題模型。生成模型,即認為每一篇文檔的每一個詞都是通過“一定的概率選擇了某個主題,并從這個主題中以一定的概率選擇了某個詞語”。LDA模型也被稱為3層貝葉斯概率模型,包含文檔(d)、主題(z)和詞(w)3層結(jié)構(gòu),能夠有效地對文本進行建模,和傳統(tǒng)的空間向量模型(VSM)相比,增加了概率的信息。通過LDA主題模型,能夠挖掘數(shù)據(jù)集中的潛在主題,進而分析數(shù)據(jù)集的集中關(guān)注點及相關(guān)特征詞。LDA模型假設(shè)每篇評論由各個主題按一定比例隨機混合而成,混合比例服從多項分布,記為:Z|θ=Multionomial(θ)而每個主題由詞匯表中的各個詞語按一定比例混合而成,混合比例也服從多項分布,記為:W|Z,φ=Mulinomial(φ)在評論dj條件下生產(chǎn)詞wi的概率表示為:P(wj|dj)=∑Ks=1P(wi|z=s)×P(z=s|dj)其中,P(wj|z=s)表示詞wi表示屬于第s個主題的概率,P(z=s|dj)表示第s個主題在評論dj中的概率。3.3.2LDA主題模型估計LDA模型對參數(shù)θ、φ的近似估計通常使用馬爾科夫鏈蒙特卡洛(MarkovChainMonteCarlo,MCMC)算法中的一個特例Gibbs抽樣。利用Gibbs抽樣對LDA模型進行參數(shù)估計,依據(jù)下式:P(zi=s|Z-i,W)∝ns,-i(+β)i/∑Vi=1ns,-i(+β)i×ns,-j(+α)s其中,zi=s|標(biāo)注詞wi屬于第s|個主題的概率,Z-i表示其他所有詞的概率,ns,-i表示不包含當(dāng)前詞wi的被分配到當(dāng)前主題zs下的個數(shù),ns,-j表示不包含當(dāng)前文檔dj的被分配到當(dāng)前主題zs下的個數(shù)。通過對上式的推導(dǎo),可以推導(dǎo)得到詞wi在主題zs中的分布參數(shù)估計φs,i,主題zs在評論dj中的多項分布的參數(shù)估計θj,s,如下:φs,i=ns,i(+β)/∑Vi=1ns,i(+β)iθj,s=nj,s(+α)s/∑Ks=1nj,s(+α)s其中,ns,i表示詞wi在主題zs中出現(xiàn)的次數(shù),nj,s表示文檔dj中包含主題zs的個數(shù)。3.3.3運用LDA模型實現(xiàn)主題分析雖然LDA可以直接對文本作主題分析,但是為了避免正面評價和負面評價混淆在一起,并且由于分詞粒度的影響(否定詞或者程度詞等),從而可能在一個主題下產(chǎn)生一些令人迷惑的詞語。因此本文將文本分為正面評價和負面評價2個文本,再分別進行LDA主題分析。根據(jù)采集數(shù)據(jù)時用戶的評分,將評論分為正面情感結(jié)果和負面情感結(jié)果。如果評分大于3分為正面情感結(jié)果,小于3分則為負面情感結(jié)果。然后再分別對正面評價和負面評價文本進行jieba分詞和過濾停用詞,使用Python的Gensim庫完成LDA主題分析。經(jīng)LDA主題分析后,將評論文本聚類成3個主題,每個主題下生成10個最有可能出現(xiàn)的詞語及其相應(yīng)的概率。表1顯示了某品牌蘋果的正面評價文本中的潛在主題,表2顯示了負面評價文本中的潛在主題。根據(jù)對某品牌阿克蘇蘋果好評的3個潛在主題的特征詞提取,主題1的中高頻詞即某品牌、好吃、不錯等,主要反映某品牌的蘋果好吃,值得購買;主題2中的高頻詞京東、包裝、好吃等,主要反映京東的運輸和產(chǎn)品的質(zhì)量;主題3中的高頻詞京東、好、不錯、好吃等,主要反映了京東的服務(wù)和產(chǎn)品的質(zhì)量。從對某品牌阿克蘇蘋果差評的3個潛在主題的特征詞提取,主題1的中高頻詞即阿克蘇、京東、冰糖心、失望等,主要反映的是對京東平臺提供的這批產(chǎn)品的不滿;主題2中的高頻詞阿克蘇、糖心、京東、這次等,主要反映的是這一次購物的失望,跟以前的差距大;主題3中的高頻詞冰糖心、吃、口感、差等,主要反映了該阿克蘇蘋果口感差,與描述不符。綜合以上主題及其中高頻詞的特征可以看出,某品牌阿克蘇蘋果的優(yōu)勢有以下幾個方面:口感好吃、包裝好、京東的服務(wù)好、值得購買。相對而言用戶的抱怨主要是:品質(zhì)不穩(wěn)定,沒有之前購買的好,在口感和大小上與描述的有差距。因此,用戶的購買原因可以總結(jié)為以下幾個方面:對某品牌和京東服務(wù)的信賴,對阿克蘇蘋果的口感和包裝認可。根據(jù)對京東平臺上某品牌阿克蘇蘋果用戶評價情況進行LDA主題模型分析,筆者對某品牌提出如下建議。在保持產(chǎn)品良好的包裝和性價比的基礎(chǔ)上,穩(wěn)定產(chǎn)品的質(zhì)量,在農(nóng)產(chǎn)品的分揀過程中嚴格把關(guān),不能以小充大,以次充好,影響品牌在消費者心目中的形象。同時作為京東的自營商品,京東平臺也要對銷售商品負責(zé),提供完善的售后服務(wù),不能辜負了消費者的信任。

4結(jié)論與展望

本文完整地展示了電商平臺下用戶評論數(shù)據(jù)的采集和分析流程,經(jīng)過對數(shù)據(jù)的清洗處理,采用詞頻統(tǒng)計和LDA主題分析模型,對用戶的評論數(shù)據(jù)進行用戶情感分析,以京東電商平臺的生鮮農(nóng)產(chǎn)品蘋果為例,分析了客戶對該產(chǎn)品的評價,并給出銷售建議。由于條件限制,本次實驗數(shù)據(jù)采集量有限,文本主題聚類效果不是很理想,今后可以通過加大采集數(shù)據(jù)量,對模型進一步優(yōu)化,提升實驗效果,并應(yīng)用于其他產(chǎn)品和服務(wù)的分析。

參考文獻:

[1]杜慧,陳云芳,張偉.主題模型中的參數(shù)估計方法綜述[J].計算機科學(xué),2017,44(S1):29-32+47.

[2]BleiDM,NgAY,JordanMI.LatentDirichletallocation[J].JournalofMachineLearningResearch,2003(3):2003.

[3]GaoJuan,XiaTian,LiJinTao,Adensitymethodforadap-tiveLDAmodelselection[J].Neurocomputing2009(72):1775-1781.

[4]郭立秀,基于文本挖掘的生鮮電商顧客滿意度研究[D].西安:西安交通大學(xué),2020.

[5]陳俊宇,基于文本挖掘的在線評論應(yīng)用研究[D].武漢:湖北工業(yè)大學(xué),2020.

[6]程翔,基于商品評論的情感分析的研究與應(yīng)用[D].北京:北京工業(yè)大學(xué),2020.

作者:蔣麗華 沈金羽 任怡 單位:蘇州農(nóng)業(yè)職業(yè)技術(shù)學(xué)院