數據挖掘技術對手機應用市場的運用
時間:2022-01-30 09:22:25
導語:數據挖掘技術對手機應用市場的運用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
【摘要】在信息時代,移動設備是人們生活必不可少的工具,而各類應用則是移動設備的功能所在。隨著數據挖掘技術的發展,我們能夠看到手機應用市場中不同應用所起到的不同作用。本文將據此為背景,通過數據挖掘技術對手機應用市場進行淺析,為今后的應用開發提出一些建議。同時根據對各類應用的綜合分析設計手機應用推薦系統,為用戶提供質量高且符合需求的應用。
【關鍵詞】數據挖掘;機器學習;手機應用;推薦系統
1前言
隨著移動設備的普及與更新,人們對移動設備功能的需求也日益增長。無論是購物、出行、社交還是娛樂,都離不開各式各樣的應用。交流時打開微信、qq,不僅提高了交流效率,還能了解朋友的生活近況;無聊時打開一個游戲,馬上就能在其中獲得刺激與成就感;購物時打開手機支付寶掃一下二維碼,就能省去使用現金的麻煩,并且提高了貨幣流通的速度。手機應用豐富了我們的精神生活,提高了物質生活的品質。但是隨著手機應用的開發逐漸增多,手機應用市場出現應用質量參差不齊的現象。同時在開發者和用戶之間還存在信息交換不對等的情況,即應用開發者不能及時獲得準確的市場信息從而無法設計出符合市場需求的應用。并且在下載應用時,如果用戶僅憑人力逐個篩選質量高、符合需求的應用,是一件非常費時的事情。本文基于數據挖掘技術,使用了kaggle網站GooglePlayStoreApps的數據對手機應用市場進行簡單的剖析。我們希望通過對比評分、安裝數量等用戶反饋與應用本身的信息,獲得手機應用市場大致的需求情況,為手機應用開發提供一定的參考,提出一些建議。并據此設計手機應用推薦系統,用戶為系統提供已下載應用的名稱或者希望獲得應用的種類,系統將據此為用戶推薦符合要求的應用。
2數據概況
本文所使用的數據集主要包括應用名稱(App)、種類(Cat-egory)、次種類(Genres)、應用評分(Rating)、評論數量(Re-views)、評論情緒(Sentiment)、應用大小(Size)、安裝數量(In-stalls)、是否付費與價格(TypeandPrice)、受眾群體(ContentRating)等字段,共計10841個應用數據。
3手機應用市場情況淺析
3.1應用屬性的相關度對比。這份數據集分別列出了10841個應用的多個屬性,我們希望通過分析這些屬性之間的關聯程度,大致找到手機應用市場中的普遍規律與著重分析的切入點。通過利用EXCEL中的CORREL函數,將應用評分、評論數量、應用大小以及安裝數量四個數值屬性的相關度進行對比,形成一個5×5的CORREL表格。通過表格我們可以發現,評論數量與安裝數量關聯程度最大,說明大部分用戶在使用該應用后有及時的反饋,這有利于我們客觀地分析各應用的綜合質量。而應用評分與其他三個屬性的相關度都相對較小,這說明安裝數量與評論數量多也即熱度高的應用中用戶反饋并非都很好。由此得知,手機應用市場中的目前供給還不能較好地符合市場需求,且用戶在選擇應用時存在盲目選擇安裝的情況。下面我們對其中的三組屬性進行更加詳細的對比與分析。3.2應用評分和安裝數量。我們的數據集將所有的應用分為33個類別,分別有活動(EVENTS)、教育(EDUCATION)、藝術與設計(ART_AND_DE-SIGN)、圖書(BOOKS_AND_REFERENCE)、個性化(PERSON-ALIZATION)、育兒(PARENTING)、游戲(GAME)、美妝(BEAUTY)、健康與鍛煉(HEALTH_AND_FITNESS)等。在手機應用市場中,不同種類的應用受歡迎程度不一樣。我們希望通過統計分析,找到安裝人數較多,但是平均評分較低的應用類別。我們認為高安裝數、低評分值的應用有更大的質量提升價值和市場潛力。通過使用Excel的分類統計功能,我們在對應用種類排序之后,使用應用種類作為分類項,統計不同種類應用的平均評分(review_rating)和平均安裝數量(install_num),然后根據統計結果,獲得柱形圖和折線圖如圖1所示。通過分析可知,安裝數量最高的應用為聊天(COMMUNICATION)類應用,但是該類應用的平均得分低于所有應用的平均得分。因此聊天類的手機應用在質量上仍然具有較大的提升空間。同時由于其具備較高的商業價值,因此也具備更高的開發潛力。與之類似的應用種類還有旅行類(TRAVEL_AND_LOCAL)和視頻類(VIDEO_PLAYERS)的應用。相反,游戲(GAME)和社交類(SOCIAL)的手機應用,安裝數量極大,同時評分也很高。這說明這部分市場是比較飽和的,所以我們不建議軟件開發初創者選擇這兩個種類的應用進行開發。3.3應用評分和版本更新情況。手機應用需要隨著需求的變化而不斷更新其功能和外觀。它體現了開發者對于市場需求變化做出的反應,因此版本較新的應用往往比低版本的應用更能滿足用戶需求,也更能最后更新時間較早、版本較低的應用種類。此種應用種類存在較大發展空間,已有應用的開發者也可據此適當進行更新,提高應用綜合水平。使用EXCEL,以種類為分類字段進行分類匯總,將單一種類下所有應用的總安裝次數進行求和。同時對同一種類的應用個數進行計數,得到N(總數)。之后,我們使用過濾功能,只保留年份(Year)小于等于2017年的應用樣本,再次進行分類匯總,計算各個種類的應用最后更新年份在2017年及以前的個數總和,得到N(舊),計算其占此種類應用總數的百分比:P(舊)=N(舊)/N(總數)該值越大,說明本種類應用版本較低的占比較多,總體更新不到位。獲得33種應用的P(舊)后,將其分別與安裝數量進行對比。分析可知,聊天(COMMUNICATION)類應用和游戲(GAME)安裝數量極大,但對于龐大的用戶群來說總體版本更新得并不快,說明這些應用被開發出來后可以保持較長時間的熱度。經過幾次更新后它們幾乎達到了最佳狀態,所以應用開發者可以著眼于開發全新的應用而非繼續更新原有版本。飲食(FOOD_AND_DRINK)類和娛樂(ENTERTAINMENT)類應用安裝數量較少,但更新得非常及時,這體現了這些應用的實時性。這類應用需隨著時事更新而不斷變化,所以我們不建議大量投入開發,而是注重每次更新時的優化。
4手機應用推薦系統
在同一種類(Category)的應用中,用戶一般會根據應用市場所給出的評分來選擇應用。但是有些應用雖然評分較高,但是安裝、評價數量較少,所以并不能客觀地體現這個應用的綜合水平。而隨著時代的發展,應用的版本新舊程度也逐漸成為是否能滿足當代用戶需求的重要因素。據此,本文在設計手機應用推薦系統的過程中,主要考慮應用的所屬次種類(Gen-res)、應用大小(Size)、是否付費(PayorFree)、受眾人群(Groups)以及與評價相關的多種因素。推薦過程分為兩個子過程:①計算相似度篩選應用:根據用戶所給應用所屬的一個或多個次種類(Genres)、應用大小(Size)、是否付費(Payor-Free)、受眾人群(Groups),計算應用間的相似度,確定20個最相似的應用;②計算綜合質量對應用排序:根據應用評分(Rat-ing)、安裝數量(Installs)以及評價情緒(Sentiment)、評價客觀程度(Subjectivity)得出各應用的綜合質量,選擇綜合質量排名前3的應用推薦給用戶。4.1相似度。用戶為系統提供一個自己喜歡的應用x,計算x所屬的種類(Category)中的每一個應用,如y,和x之間的相似度———即計算所推薦應用x與應用y之間的歐幾里得距離,距離越小表示相似度越高,取距離最小的前20個應用,作為和x最相似的應用,作為推薦的候選項。其中,次種類(Genres)的值可能包含一個或多個,預處理數據時,應將其拆分成多個種類。舉例說明,如果x的次種類為“Art&Design;Action&Adventure”,y的次種類為“Education;Action&Adventure”則Genres1=Art,Genres2=Design,Genres3=Action,Genres4=Adventure。x所屬的那一行,Genres1到Gen-res4的值均為1,y的Genres1,Genres2值為1,Genres3,Gen-res4的值為0。對于受眾人群(Groups),一共有“Adultsonly(18+)”,“Mature17+”“Teens(12-16)”“Ten+(10+)”“Everyone(0~100)”5種值。根據這些原先的值,我們將Group劃分為Group1:0~10歲,Group2:10~12歲,Group3:12~16歲,Group4:16~18歲,Group5:18歲以上。當x的原先的值為“Ten+(10+)”,那Group1到Group5的值分別為0,1,1,1,1;當x的原先的值為“Adultsonly(18+)”,那Group1到Group5的值分別為0,0,0,0,1;當x的原先的值為“Mature17+”,那Group1到Group5的值分別為0,0,0,0,1;當x的原先的值為“Everyone(0~100)”,那Group1到Group5的值分別為1,1,1,1,1;當x的原先的值為“Teens(12~16)”,那Group1到Group5的值分別為0,0,1,1,1。針對是否付費(PayorFree),使用1表示免費(FREE),使用0表示付費(NOT-FREE)。在計算相似度的時候,我們使用的是歐幾里得距離,公式如下:dx,y=∑ni=1(axi-ayi)22姨距離越近,表示x和y越相似。我們選擇dx,y最小的前20個y作為我們的候選應用。4.2綜合評價。針對選擇出來的20個候選應用,我們通過應用評分(Rat-ing)、安裝數量(Installs)以及評價情緒(Sentiment)、評價客觀程度(Subjectivity)來進一步對其質量得分(grade)后篩選出最好的3個應用。公式如下:Grade=avg(∑sentimenti×Subjectivityi)×Installys×Rating2,其中i表示某一個應用的第i個評論。評價情緒(Sentiment)如果是積極的,那么得分為0~1之間,分數越高越積極;評價情緒(Sentiment)如果是消極的,那么得分在-1~0之間,分數越低越消極。評價客觀程度(Sub-jectivity)是指評論者的打分時的客觀程度。我們求出每一個應用的平均評價情緒和其安裝數量、評分的平方相乘,得到應用的質量得分。得分越高,表示質量越高,我們選擇質量最高的3個應用作為最終的推薦項。
5結論
本文利用大數據技術,分析了手機應用市場的潛在問題,并提出了建議和解決方案。并利用一萬多條應用的信息,設計和建立了手機應用推薦系統,根據用戶的使用記錄,能夠為用戶推薦內容相近且質量高的應用。
參考文獻
[1]郭靖,郭晨峰.中國移動互聯網應用市場分析.移動通信,2010(7):57~62.
[2]李迎辰.基于社交網絡的移動應用推薦系統研究及應用[D].(Doctoraldissertation,重慶大學),2014.
[3]廖建新.大數據技術的應用現狀與展望.電信科學,2015(7):1~12.
作者:李可玥 單位:浙江省杭州學軍中學
- 上一篇:數據挖掘疾病預測研究
- 下一篇:數據挖掘分析及決策