大數據背景服裝品牌知識挖掘研究

時間:2022-04-21 15:08:47

導語:大數據背景服裝品牌知識挖掘研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

大數據背景服裝品牌知識挖掘研究

摘要:針對網絡數據價值密度低、行業信息造價昂貴的現狀,從服裝品牌出發構建語料庫,基于語料庫分析法運用數據挖掘工具KHcoder進行知識挖掘。在此過程中發現了服裝品牌的數據特征并獲得了與服裝品牌相關的知識集群,證明了用大數據技術挖掘服裝品牌知識的可行性。

關鍵詞:大數據;服裝品牌;KHcoder;數據挖掘

大數據時代產生了海量的數據,但是數據類型多元異構、網頁發布不規范等因素導致數據價值密度低,信息造價昂貴。大數據分析和數據挖掘是基于統計分析學的從數據中獲取知識的一種研究方法,在互聯網、金融、醫療等多個行業都有很好的發展與應用。語料庫分析法在國外已有三十年以上的研究歷史,目前服裝領域內多使用學術文獻作為研究語料庫進行行業信息發現和預測,缺乏對其他行業數據的探索與使用;為了提高服裝行業對開源數據的利用率,構建行業語料庫、通過合理的數據分析工具對行業數據進行知識挖掘,對行業知識工程的建設具有重要的實踐意義。

1服裝品牌研究語料庫構建

1.1數據渠道選擇

為保證語料庫中服裝品牌數據的多樣性和全面性需對采集渠道進行評估篩選,最終確定的數據源類型如下:(1)服裝專業平臺和品牌網站:如WGSN、POP流行趨勢平臺,中國時尚網、中國報告大廳等網站。(2)學術資源平臺:CNKI數據庫。(3)通用知識網站:如百度百科知識庫。

1.2研究樣本選擇

進行品牌調研,圍繞“服裝品牌排行”檢索知名度較高、數據信息分布較多的服裝品牌。共選擇了60個服裝品牌,主要可分為以下幾種類型。(1)國際奢侈品牌。如阿瑪尼、巴寶莉等共32個。(2)國內具有一定創建歷史與知名度的服裝品牌。如勁霸、七匹狼等共10個中國品牌。(3)潮牌與戶外品牌。如LARGE、SUPREME、戶外品牌始祖鳥、哥倫比亞等共18個。

1.3數據采集與整理

網絡爬蟲是進行大數據收集的主要技術手段。采集過程以爬蟲(后裔采集器)采集為主,人工采集為輔。通用類數據平臺結構簡單,先用采集器進行數據爬取,再對結果進行人工篩選降重,以減少數據噪音;專業類平臺,如WGSN、POP,CNKI有權限限制,平臺結構復雜,采集過程主要依賴人工。采集過程中總結出如下數據分布特點:通用網絡平臺如百度百科、品牌、服裝網,數據重復率高類networkco-occurrence1型單一;學術平臺的數據語料,類型豐富但噪音大。通用網絡上國際服裝品牌的數據量和信息價值多于國內的服裝品牌,學術平臺數據則呈現相反趨勢。奢侈等級越高,其受眾群體小,數據缺乏,如定制類品牌Brioni。

2服裝品牌數據挖掘

2.1數據預處理

數據研究過程使用的是定量內容分析和數據挖掘軟件KHCoder,該軟件有特征抽取、語義共現、文本聚類、主題分析等功能,適用于大量型非結構化文本的分析。為提高數據挖掘的效率和質量,數據預處理步驟如下:(1)數據集成與格式規范:數據格式整理為單個CSV/Excel表格或批量TXT文本。以品牌為例,每一個品牌數據合并在一個TXT文檔里,以品牌名稱和定義的序號命名,匯總在文件夾下。CSV文件中,第一列為分析數據,第二列第三列可設置外部變量。(2)詞類篩選與定義:選擇跟分析目的相關的詞性,排除無意義詞匯對數據結果的影響。一般主要選擇名詞、專業用詞、形容詞、標簽。(3)編碼規則編寫:KH編碼器可以自定義編碼規則,執行編碼。如“*博柏利Burberry|博寶利/巴寶莉”表示只要出現這些詞匯則認為該文檔與品牌“博柏利”有關,借助編碼可協助品牌語料識別。

2.2關鍵詞共現網絡分析

語義網絡是全局性的數據結構觀察方法。在KHcoder設置不同的分析系數與變量因素,執行共現網絡分析可發現隱形關聯,從不同的角度進行數據特征挖掘,發現語料庫的數據特征和隱藏的知識結構。共現分析是按照關鍵詞在每篇文章中的共同出現的情況生成的語義網絡。設置參數時將共現網絡設置為無向網,共現結果(圖1~圖3)中圈的大小代表頻次,顏色代表聚類情況。語義網絡呈現的共現關系可以是詞匯與外部變量之間的。以圖1為例,該圖是以品牌語料作為分析文本,以“品牌名稱”作為外部變量,基于語義相似度計算的語義網絡。品牌間由特征詞關聯起來形成不同的遠近關系,其關聯與人工劃分的品牌類型相符;由品牌的共現相似性可對競爭關系展開知識推理。語義網絡呈現的共現關系也可以是詞匯與詞匯之間的。圖2是沒有設置外部變量,由服裝綜合性語料分析后展開的語義網絡,可借此知道文本中存在較多的信息類型。由圖可知,分析文本中包含較多的“市場”“色彩”“元素”“造型”“圖案”等信息類型。圖3是以“雅格獅丹”的品牌語料為分析文本導出的語義網絡。雅格獅丹是英國倫敦的御用皇家品牌,戰爭期間為軍隊設計的防水大衣是品牌的經典設計。在共現結果中,與雅格獅丹品牌相關的關鍵詞和信息點在語義網絡中都有明顯表現。通過語義網絡,可觀察到每個品牌的數據特征詞;得到基于大數據文本的“品牌數據畫像”。語義網絡中的共現詞匯在一定程度上體現了數據的主題,可挖掘語料庫的行業信息,實現行業的知識發現。

2.3集群聚類與KWIC檢索

通過聚類分析和KWIC檢索可在詞匯語境下進行數據的分析觀察。集群就是把相似的個體(樣本語料)歸于一群。通過集群聚類,可以得到不同場景的文本集群,并可得到不同集群下的特征詞匯表(表2,表3)。Jaccard數值越高證明該詞在這一集群中的權重越大。如表2所示,由特征詞可知該集群的文本語料與“顏色”密切相關;如表3所示,該集群的語料與戶外運動密切相關。以此為依據可進行語料分類和行業術語抽取。KWIC檢索也是基于語義相似度計算的統計分析,可輸入關鍵詞(研究對象)直接查詢該詞的上下文語境。分數越高意味著在分析樣本中該詞與風格搭配越頻繁。由上述結果可知,在KHcoder中執行集群聚類可對文本語料進行分類;借助集群聚類和KWIC檢索還可獲取特征詞匯,“品牌”“顏色”“單品”“圖案”、“面料”“風格”“功能”“場景”等服裝行業的知識信息都可借此進行聚類、提煉。

3結論

文章借助爬蟲技術和文本挖掘工具,對60個服裝品牌進行了數據采集與語料庫構建,發現了不同服裝品牌的數據分布特征。在語料庫基礎上進行數據挖掘,從不同角度繪制了語料文本的語義網絡,并獲取了基于語料庫的服裝品牌知識集群。結果表明,運用大數據技術在服裝品牌開源數據上進行知識抽取具備科學性和可行性。實驗結果對知識工程建設者或數據分析人員具有一定的借鑒或參考價值。

參考文獻:

[1]鄭曉川.大數據智能分析及數據挖掘探討[J].中國科技信息,2021(21):35-36.

[2]胡炎非.數據挖掘技術在金融風險監測領域的應用[J].上海商業,2021(09):36-37.

[3]方麗,崔雷.需求驅動的醫療健康大數據挖掘模型構建[J].中華醫學圖書情報雜志,2021,30(07):17-23.

[4]何儒漢,唐嬌,劉軍平,等.基于CiteSpace的全球紡織服裝研究熱點及其趨勢文獻計量分析[J].毛紡科技,2020,48(04):1-6.

[5]王麗麗.大數據背景下數據挖掘技術的應用[J].計算機與網絡,2021,47(20):45-47.

[6]張鵬.大數據時代的數據挖掘技術與實踐[J].中國新通信,2021,23(22):68-70.

[7]喻國明,李慧娟.大數據時代傳播研究中語料庫分析方法的價值[J].傳媒,2014(02):64-66.

作者:楊麗麗 劉靜偉 單位:西安工程大學 服裝與藝術設計學院