數據挖掘預測企業老客戶流失探討論文

時間:2022-04-07 09:14:00

導語:數據挖掘預測企業老客戶流失探討論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

數據挖掘預測企業老客戶流失探討論文

編者按:本文從前言、客戶流失簡介、數據挖掘產生的背景及主要分析方法、結束語四個方面進行主要論述。其中,包括:如何保持老客戶,控制高價值客戶的流失必將成為企業提高競爭力,在激烈競爭中致勝的關鍵;客戶流失是指客戶停止使用原有的產品或服務,或轉而使用競爭對手的產品或服務;研究哪些客戶即將流失,實質上是一個分類問題,即將現有客戶分為流失和不流失兩類;數據挖掘的主要方法有:概念/類描述,關聯分析,分類和預測,聚類分析,孤立點分析和演變分析等,具體材料請詳見:

[論文摘要]本文分析了客戶流失問題產生的原因及幾種主要的表現形式,闡述了運用數據挖掘技術建立客戶流失預測模型的必要性,介紹了幾種主要的數據挖掘分類方法,最后簡單論述了數據挖掘流程中的數據準備步驟。

關鍵詞:數據挖掘客戶流失預測模型應用

一、前言

以前,人們往往很長時間內(甚至是一生)都選用同一家公司的產品,但現在情況已經改變了。隨著經濟的全球化、多樣化,公司之間的競爭日趨激烈,客戶選擇產品及產家的余地越來越大,同時越來越注重服務等附加值,客戶流失正日益成為全球企業面臨的一個普遍性問題。據統計,贏得一個新客戶所花費的成本是保留住一個老客戶的5~6倍,如何保持老客戶,控制高價值客戶的流失必將成為企業提高競爭力,在激烈競爭中致勝的關鍵。企業必須將戰略重心從優化內部流程、提高運營效率轉移到滿足客戶需求、穩定和擴大客戶群上,實踐以客戶為中心、以市場為導向的經營理念。

二、客戶流失簡介

客戶流失是指客戶停止使用原有的產品或服務,或轉而使用競爭對手的產品或服務。企業客戶流失有三種表現形式:公司內客戶轉移,客戶被動流失,客戶主動流失。以電信業為例,(1)公司內客戶轉移表現為客戶轉移至本電信公司的不同網絡或不同業務。例如,電信企業增加新業務,或者資費調整引發的業務轉移,或者從普通的固定電話轉至IP電話等。在這種情況下,雖然就某個業務單獨統計來看存在客戶流失,但對公司整體而言客戶沒有流失,當然公司內客戶轉移也會影響公司的收入。(2)客戶被動流失表現為電信運營商由于客戶欺詐或惡意欠費等行為而主動終止客戶使用網絡和業務。這是由于電信運營商在客戶開發的過程中忽視了客戶質量造成的。(3)客戶主動流失分為兩種情況,一種是客戶不再使用任何一家電信運營商的電信業務,另一種是客戶選擇了另一家運營商,即所謂的“客戶跳網”。后者的原因主要是客戶認為公司不能提供他所期待的價值,即公司為客戶提供的客戶讓利價值低于另一家電信運營商。這可能是客戶對電信公司的業務或服務不滿意,也可能是客戶僅僅想嘗試一下別家公司提供而本公司未提供的新業務。這種客戶流失形式往往是研究的主要內容。公務員之家

三、數據挖掘產生的背景及主要分析方法

研究哪些客戶即將流失,實質上是一個分類問題,即將現有客戶分為流失和不流失兩類。傳統的分類方法一般是基于經驗的分類方法或基于統計的簡單劃分方法。前者一般由決策者根據以往的經驗對客戶進行類別劃分,因此具有較強的主觀性;后者一般是根據對客戶屬性特征的簡單統計來劃分客戶類別。雖然這些劃分對企業的客戶管理也是很有意義的,但卻無法滿足一些復雜的分析需求,例如:客戶流失的概率如何;哪些因素造成了客戶流失;不同類別之間客戶的流失情況有什么差別;如果某個客戶將要流失,他會在多長時間內流失等。另一方面,數據庫技術的成熟應用已使企業積累了大量的數據,管理層希望擺脫經驗,從這些數據礦藏里提煉出有價值的“知識”,利用這些“知識”建立起有效的客戶流失預測模型。但是傳統的數據庫管理系統是面向應用的,只處理日常的經營業務,不具備智能數據處理的功能,如何獲得這些“知識”就促成了數據挖掘技術的產生。概括地講,數據挖掘是指從數據倉庫中提取人們感興趣的,事先未知的,有用的或潛在有用的信息。

數據挖掘的主要方法有:概念/類描述,關聯分析,分類和預測,聚類分析,孤立點分析和演變分析。在客戶流失預測模型中主要用到的是分類算法。分類是一種有監督的學習方法,它通過在一個包含了已知流失和未流失的客戶樣本集上進行模型訓練,得到一個能夠預測客戶是否會流失的分類器,然后去預測客戶未來的流失傾向。目前運用最廣泛的是基于決策樹的分類算法,如ID3、C4.5、C5.0、CART等。決策樹算法建模簡單,分類準確率高,而且能導出簡明易懂的諸如If-Then形式的分類規則,十分適合客戶流失預測問題。但是,決策樹算法很難確定分類概率,即難以計算出客戶流失的概率。Logistic回歸、人工神經網絡雖然能得出流失概率,但是這兩種模型的內在表示是隱含的,不能像決策樹那樣可以得到一個If-Then形式的分類規則,而且神經網絡容易出現局部最小化和“過擬和”問題,預測性能不佳。

以上的數據挖掘方法都要求有較多的訓練樣本,對于小樣本集,訓練結果最好的模型不一定是預測能力做好的模型。因此,如何從小樣本集出發,得到預測能力最好的模型,就成為數據挖掘研究領域內的一個難題。即所謂“小樣本難題”。支持向量機(SVM)是數據挖掘中的一項新技術,最初于20世紀90年代有Vapnik提出,它從嚴格的數學理論出發,論證和實現了在小樣本情況下能最大限度地提高預測可靠性的方法。近年來,SVM在解決分類問題方面得到了廣泛的應用。

四、結束語

在整個數據挖掘流程中最關鍵,工作量最大,也最容易被忽視的一個步驟是數據準備,即通過數據清理、數據集成和變換、數據規約建立起訓練樣本集和測試樣本集。無論算法多先進,如果數據不準確或不完整,結果都是錯誤的,正所謂“垃圾進,垃圾出”。如何提供干凈、正確、完整的數據,這有待于進一步的研究。

參考文獻:

[1]JiaweiHan:數據挖掘概念與技術.機械工業出版社,2002.9出版

[2]夏國恩陳云金煒東:電信企業客戶流失預測模型.統計與決策,2006.10

[3]AlexBerson:構建面向CRM的數據挖掘應用.人民郵電出版社,2001.8出版