大數據分析對保險行業的應用

時間:2022-07-19 11:21:06

導語:大數據分析對保險行業的應用一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

大數據分析對保險行業的應用

摘要:在大數據的時代背景下,采用SPSS、Excel數據處理分析工具,以四川人壽保險退保數據為研究對象,由于其目前的投保與退保比例逐年攀升,面臨著確立目標用戶特征分析與選擇發展用戶的忠誠度發展問題。因此針對人壽保險公司用戶投保退保等方面的相關數據進行主題式分析,為其未來發展用戶指明方向。對該數據下的險種、用戶信息建立其險種特征以及退保用戶基本畫像,推測出主要的退保原因為經濟原因以及高退保風險人群年齡段在36歲~54歲。對不同的研究主題進行分類處理,數據分布進行頻率條形圖的繪制,從圖像直觀地看出退保險種的險種,機構、保額、總保費和退保金額都是右偏分布,以及尖端分布的數據趨勢,有利于保險公司對用戶的研究以及對保險險種業務的完善升級。

關鍵詞:大數據;保險退保;用戶基本畫像研究;退保險種特征研究

一、引言

大數據技術的飛速發展引發了金融界的全面改革,其中保險行業也面臨巨大的競爭壓力,這種壓力不僅是來源于外界信息的交互傳播方面更是來源于行業內部的管理競爭、業務升級方面,因此保險公司將大數據分析運用在企業中的措施刻不容緩。從國內大數據技術與保險業結合發展的角度來看,在壽險及健康險領域,在逐漸普及基于大數據技術的用戶管理及保險業務的應用。大數據應用的逐漸推廣帶來了較大的正面效應,實踐也證明,大數據技術在保險業務中的應用對于促進保險公司效率提高、成本降低起到了積極作用。保險公司除了投保數據值得研究分析外,退保數據實則更能反映業務與客戶的問題。基于以上背景,針對保險退保數據對其用戶管理、險種業務等方面進行探索性研究。

二、研究思路

以四川人壽保險公司的退保數據進行分析,采用Excel、SPSS數據分析工具,針對退保金額、保額、保費三者間的相關性建立回歸方程,并將險種分類進行特征分析,包括退保機構、保額保費等。并圍繞退保原因展開分析,比較用戶性別、年齡段不同下是否會造成退保原因的選擇差異,退保原因與退保金額的顯著性關系。依次使用了頻率分析、獨立樣本T檢驗、線性回歸分析等方法。

三、數據說明

1.數據來源數據來源于四川人壽保險公司,覆蓋了2008全年的退保數據,時間跨度在1999年至2008年的投保保單,退保數據表中包含了保險機構、險種、總保費、保額、退保金額、退保原因、客戶號、性別、年齡等9個字段共167721條數據,15.9M。2.數據清洗首先,進行數據預處理,篩選刪除了對于研究退保險種特征以及退保用戶基本畫像無價值的數據、保留所需數據。其中使用了險種、退保金額、退保原因等字段的數據進行分析探索。通過觀察家庭人口和教育程度字段發現其都進行了脫敏處理,字段值為空或值一樣,對分析幫助和影響不大,因此刪除此類數據。其次,修改格式設置,由于原數據的投保時間和退保時間整列的值沒有正確顯示,因此將這兩列設置成日期格式。數據分類則通過統計匯總發現經濟原因在退保原因當中占比最大超過了50%,而其余退保原因的占比很少,統一歸為非經濟原因,將退保原因分為經濟原因和非經濟原因。年齡段的分類中,由于用戶信息中的年齡分布較散并且研究單個年齡的用戶畫像意義不大,因此分段設置。我國規定,18歲以下的未成年人只享有保險受益者的權利無法自行進行投保,因此以18歲為分界點,分為小于18歲、18歲~35歲、36歲~54歲、55歲~72歲以及72歲以上5個年齡段。險種分類中,按照險種的首字母進行了分類,直接分為S、L、B、Y、4、6六大類險種。

四、險種特征以及用戶基本畫像

1.研究退保金額、總保費、與保額之間的線性關系(1)各參數的相關性分析由表1可知:總保費、過去三年平均年收入、保額與退保金額之間的Sig值都是小于0.01。退保金額的皮爾遜相關性一行的數據顯示退保金額與總保費的數據是0.912**,與過去三年年收入的數據是0.083**,與保額的數據是0.375**。**代表相關性顯著,相關性大于0.3表示有較強相關性,因此選取總保費、保額與退保金額之間建立線性回歸模型。選取總保費、保額與退保金額之間建立線性回歸模型。利用步進方法分別得出2個模型。模型一:退保金額與總保費的模型;模型二:退保金額與總保費以及保額的模型;在表格中模型的R2的數值都為0.832,R2接近于1說明模型擬合度較好,因此2個模型的變量與因變量的總體存在著較強相關性。由表3可知:ANOVA^a對模型進行了方差分析,從模型的顯著性可以看出數據都是小于0.01的,進而模型的顯著性較強,由此說明模型是有效的,可以借此去判斷和計算相關數值,總保費、保額與退保金額的線性回歸模型可通過第2個模型去探究具體線性關系。從上述的系數^a表中得出總保費、保額的系數分別是0.949、0.003,則相關線性回歸方程是:退保金額=0.949×總保費+0.003×保額+257.7732.不同險種下的退保特征畫像(1)險種分類觀察數據的險種信息可知,按險種的首字母作為分類依據,共分為六大類險種。因為在SPSS分析工具中,以險種作為分類字段需為數值性的數據,因此將B、L、S、Y字母分別替換為7、8、9、0四個數字。研究每一個具體險種的退保特征不具有現實意義且適用范圍不廣,因此逐類分析研究,使用頻率分析功能研究每類險種退保率最高的機構、退保險種的特征包含保額與保費、退保金額和總體退保數據的分布趨勢。(2)主要險種的退保特征數據可視化展示S類險種有252615條退保個案,占比90.9%;Y類險種有8976條退保個案,占比5.3%。在Excel中使用篩選統計功能,統計出其余險種占比依次為1.4%、1.6%、0.5%、<0.1%。主要選取S、Y兩種險種展開退保特征畫像分析。Y類險種中,易被退保的機構513804,容易退保的保險有保額為10000總保費為1000的特征,此類保險的用戶黏性較差。Y類險種,機構、保額、總保費和退保金額都是右偏分布,位于均值右側。除機構為扁平分布,離均值較稀疏外,其余參數尖峰分布,集中于均值附近。S類險種中,易被退保的機構是513803,容易退保的保險有保額為10000總保費為590的特征,說明此類保險用戶滿意度不高。S類險種,機構、保額、總保費和退保金額都是右偏分布,分布與均值右側。除了機構為扁平分布,離均值較稀疏外,其余參數尖峰分布,聚集與均值兩側。因此在保險險種中513803、513804為主要的被退保機構,其中S、Y險種退保率最高。被退保的險種中特征為保額10000總保費1000,客戶的忠誠度最低。3.探究退保原因與退保金額是否造成顯著影響、性別和年齡段與退保原因的分布退保數據中除了關注具體的退保金額,還需關注客戶退保的根本原因。圍繞退保原因展開分析,分別分析與退保金額、客戶性別、年齡之間是否有關聯產生影響,目的在于推測高退保風險的客戶人群畫像以及退保原因。為保險險種業務的不斷完善和改進提供思路。通過對退保原因的初步觀察發現,退保原因中經濟原因的占比為77%,是主要的退保原因而其余退保原因的占比共占23%,因此在退保原因的分類中,以經濟原因作為分類依據,并利用Excel中的替換功能把退保原因分為經濟原因和非經濟原因后替換成數字1、2,導入SPSS當中完成獨立樣本t檢驗,把退保金額方法檢驗變量,把分組變量變成退保原因,并且定義組1,組2,組1是經濟效益,組2是其他余下的退保原因。選取簇形圖構建圖形,類別為性別、聚類定義為退保原因。將客戶的年齡分為18歲以下、18歲~35歲、36歲~54歲、55歲~72歲、大于72歲及以上。對數據進行整理、歸類,最后根據數據歸納總結出高退保風險的客戶基本畫像。如表4所示,分析退保金額之間是否因退保原因而產生差異性得出結果,從方差的齊次性檢驗得出:因為其顯著性差異的數據值小于0.05拒絕原假設,方差不具有齊次性。通過方差的齊次性看到Sig.值<0.05,說明退保金額之間有一定差異性,不同的退保原因導致的退保金額的均值是不一樣的。均值差異為551,置信區間的下限值是443上限值是669,所以均值的范圍95%是在這個范圍之內的,可信度高。男性在退保原因上選擇經濟原因的占多數,其后依次為正常退保、險種不理想、失效退保,而其余的幾項退保原因的占比更小,而在女性的數據分布同男性相似,因此在退保原因的選擇上男女的差異不大。經濟原因仍是最主要的退保原因,在年齡階段中占多數的退保原因的年齡段有18歲~35歲,36歲~54歲,55歲~72歲,其余年齡段比例幾乎忽略不計。人數占比最多的是36歲~54歲年齡段,因此其為高退保年齡段的區間。

五、結論及建議

1.結論總保費、保額與退保金額之間存在顯著相關關系,線性關系方程是退保金額=0.949×總保費+0.003×保額+257.773。513803、513804為主要的被退保機構,其中S與Y的險種被退保率最高,被退保的險種具體特征為保額10000總保費1000。退保原因的差異導致用戶在退保金額上的均值有差異,性別上差異不大。36歲~54歲為高退保風險人群,經濟原因是占主要的退保原因。2.建議對于較高保額、保費的業務應給予更多的關注,此類保險業務的退保金額通常較高,會引起較大數據波動。513803、513804的保險機構需要改進S和Y險種,保額為10000和總保費為1000的險種需要注意其保險比例設置,比例存在不妥當就會造成客戶忠誠度低,退保人數多的現象。經濟原因是最主要的退保原因,36歲~54歲是最高退保風險的用戶年齡區域。因此保險公司向用戶推薦業務時要結合用戶年齡和經濟情況來進行推薦,在平日的用戶管理時,重點關注這個年齡段的用戶,預防并做好其退保措施。

參考文獻:

[1]劉偉.大數據技術在保險業務中的應用風險分析與對策[J].上海保險,2020(9):54-55.

[2]王瑋康,楊杉.大數據分析技術在保險行業的運用研究[J].電子世界,2020(13):116-117.

[3]田楚蕓,楊杉.大數據背景下數據挖掘技術在保險行業的應用研究[J].電子世界,2020(7):15-16.

[4]郭慧馨,葛健,張妍.大數據時代保險公司營銷策略分析[J].當代經濟,2019(11):50-54.

[5]程錦,程文煒,劉曉芳,等.層次結構數據的分析方法及SPSS實現[J].中華老年醫學雜志,2020(10):1236-1240.

[6]陳祺琦.大數據分析在保險行業中的應用[J].電子世界,2020(10):36-38.

[7]姚慧蘭.大數據在互聯網保險中的精準營銷研究——以泰康在線為例[D].蚌埠:安徽財經大學,2019.

[8]白惠玲.基于大數據的財產保險精準營銷研究[D].西安:長安大學,2019.

[9]姒曉婕.全額退保現象的檢視與反思[J].上海保險,2020(10):14-19.

[10]顏佩佩.基于大數據的互聯網保險個性化服務問題及解決策略[J].現代經濟信息,2019(7):372,374.

作者:李欣然 楊杉 單位:四川大學錦城學院計算機與軟件學院