隨機森林個人信用風險評估研究
時間:2022-12-18 03:32:20
導語:隨機森林個人信用風險評估研究一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
一、文獻綜述
近年來,隨著消費金融市場的迅速發展,越來越多的消費金融機構涌入,以螞蟻花唄、借唄、京東白條為代表的消費金融服務盛行。從受眾群體來看,消費貸款的發放對象是個人,還款來源主要為工資、獎金、投資收益、生產經營性收入等。這些來源易受多種外部因素影響,包括宏觀經濟變化、所在企業經營狀況、個人健康及意外等。與此同時,與企業相比個人的流動性和不確定性更高,借款人還款行為易受個體思想觀念、態度、行為習慣等主觀因素的影響。因此,個人信用風險成為風控的核心,如何把各借款人紛繁復雜的信息數據映射成其自身詳細的信用水平成為這一行業亟待解決的問題。在個人信用風險評估領域,國內外的研究主要集中在個人信用風險的指標選取和個人信用風險評估方法及模型構建兩個方面,后者居多。信用風險指標的選取,主要基于傳統信貸的指標選擇和基于消費場景多樣性對指標體系的補充優化。BillFair和Earllsaac(2015)提出的FICO信用分模型是個人信用評估領域最早且在銀行使用最廣泛的。FICO模型根據違約風險來計算客戶的信譽,它所選用的指標主要有五類:信用償還歷史、信用賬戶數、使用信用的年限、正在使用的信用類型以及新開立的信用賬戶[1]。MariolaChrzanowska(2008)以一家在波蘭經營的外資銀行中的個人客戶貸款為例,通過單一和集成的方法,發現“已償還貸款的份額”是體現個人信用等級最重要的指標[2]。龍新庭、王曉華(2013)指出德國國際項目咨詢IPC公司通過客戶的信用歷史、貸款申請書信息、個人聲譽等方面綜合評估其還款意愿[3]。消費場景的多樣性使得實踐中基于互聯網的個人信用風險指標在構成上與傳統的金融機構有所不同,在其基礎上更多地獲取關于個人生活消費的指標。國內首個個人信用評分——阿里巴巴芝麻信用分的評分標準主要由五部分組成:信用歷史(35%)、行為偏好(25%)、履約能力(20%)、身份特征(15%)和人脈關系(5%)[4]。不同于阿里巴巴的是,京東與騰訊達成深度合作,將自身的電商數據和騰訊的社交數據結合,所以京東白條能更精確地把握用戶的信用信息[5]。信用風險評估方法的實質是將一個數據樣本總體按不同特征分為若干組的方法,個人信用評估模型構建主要包括統計和非統計方法。統計方法主要包括判別分析法、Logistic回歸、K近鄰判別分析法等。何曉群等(2015)認為信用風險評估模型是金融機構開展信貸工作的核心,模型結果則是信用評級的依據來源[6]。李萌(2005)將不良貸款率、T檢驗、主成分分析相結合,基于Logistic回歸建立判斷信用風險的評估模型[7]。姚路(2017)在對個人基本信息、信貸擔保交易信息等認知的基礎上建立多元線性回歸模型,間接地對信息主體進行信用評價[8]。姜明輝等(2004)通過確定相應的評估指標體系,建立了基于K近鄰判別分析法的個人信用評估模型,并對模型應用中需要注意的問題進行了分析[9]。基于統計方法的信用風險評估模型需要對樣本數據進行嚴格的假設,如線性關系、正態分布等,這些都在一定程度上影響模型的適用性及使用效果[10]。非統計方法主要包括依托計算機技術的人工智能方法,以人工神經網絡(ANN)、支持向量機(SVM)、決策樹(DT)和隨機森林(RF)著名。HussainAliBekhet(2014)設計了兩種信用評分模型,并采用人工神經網絡方法為約旦商業銀行貸款決策提供技術支持,證實人工神經網絡的應用將改善信貸決策效率,幫助金融機構節省分析時間和成本[11]。TonyBellottti和JonathanCrook(2008)運用大型信用卡數據庫的信息,將支持向量機與Logistic回歸等傳統方法進行對比研究,表明支持向量機更具競爭力,還可用作特征選擇方法來分辨出決定違約風險大小最重要的特征[12]。姚瀟和余樂安(2012)將模糊隸屬度引入支持向量機進行實證研究,結論表明模糊近似支持向量機能夠顯著地提高信用風險分類精度[13]。龐素琳和鞏吉璋(2009)以德國銀行個人信貸數據為樣本,采用C5.0算法(DT模型的一種)構建信用評估模型,并使用了Boosting算法技術提升模型對樣本數據的擬合度,最后通過參數調節進一步提高分類精確率[14]。GasparCano等(2017)對不同的數據集用RF算法進行特征選擇并用其對數據集分類,結果表明由RF選出相關變量并據此進行分類的性能效果比SVM和ANN更具優勢[15]。戴昕琦(2018)把更加適合處理不平衡數據的SMOTE算法改進,再與RF模型結合運用于供應鏈金融信用風險管理研究中,發現C-SMOTE-RF模型在很大程度上減少了銀行的“取偽”概率,從而能幫助銀行更好地對風險企業進行識別[16]。隨機森林(RF)的提出者BreimanLeo(2001)指出RF明顯優于單個分類決策樹模型[17]。方匡南等(2010)將RF算法用于零售信貸領域的信用卡違約風險識別,并發現RF算法無須對數據樣本標準化預處理,且比SVM、單一決策樹以及Logistic回歸有更高的準確率[18]。綜上所述,RF算法是基于決策樹的集成式算法,一般無須對數據標準化預處理,且分類性能優于傳統統計方法和SVM等智能算法。大數據技術使得用于個人信用風險評估的數據指標的可獲得性變強,數據維度變大,導致風險預測時間變長,成本變高。而RF算法是采用多棵決策樹分類產生結果并以加法投票的方式得出最終結果。RF算法中單棵決策樹每個節點的選擇與分裂都是基于該節點隨機選取的特征確定的,因此信用指標之間的自相關性會使決策樹之間的選擇與分裂規則相似;各決策樹選擇的相似性會使得以加法投票方式確定的最終分類結果呈現“一邊倒”,這樣會極大地降低分類準確度。因此,考慮到個人信用風險評估時數據維度及數據的預測能力,在傳統隨機森林模型的基礎上加入XGBoost算法來對指標進行降維,剔除關系密切和對預測信用風險影響小的指標,并采用實際的數據集驗證了模型的合理性和有效性,為個人信用風險評估提供更好的決策支持。
二、改進的隨機森林模型建立
構建的改進的隨機森林模型(即XGBoost-RF模型)如圖1所示。第一階段運用XGBoost算法進行特征選擇,輸出數據樣本中的特征重要性柱狀圖,這樣不僅能最直觀地看到每個指標的特征重要性得分,而且能提升模型的解釋性;此外,從中篩選出的影響較大的特征指標,也能為個人信用評估指標選擇提供參考。第二階段運用隨機森林(RF)算法對第一階段篩選出的指標進行分類。XGBoost算法是基于梯度提升樹(GBDT)模型原理改進后的算法。與RF算法在特征選擇時運用Gini指數計算節點不純度不同的是,XGBoost是通過該特征每棵樹中分裂次數的和計算的。與神經網絡的“黑箱操作”相反,XGBoost所用決策樹內在的可解釋性降低了算法計算的復雜度,提升了整個模型的可解釋性。可解釋性也是信用評估的一個重要組成部分,因此將其用于對各個特征指標的重要性進行估計十分合適,一般重要性分數越高則該特征指標越重要,該特征指標在數據集中的貢獻越大。RF算法是由LeoBreiman和AdeleCutler[17]提出的一種集成分類器,但它摒棄了單棵決策樹容易產生過擬合現象的缺點,RF算法最終的分類決策fRF(x)由式(1)得出:fRF(x)=argmaxΣnk=1I(hk(x,θk)=Y)Y(1)其中,hk(x,θk)是單棵決策樹分類器,是用CART算法構建的未剪枝的分類樹,其中θk是服從獨立同分布的隨機變量,決定單棵樹的生長過程;Y為目標變量,表示是否違約,在本文中用1(違約)和0(未違約)分別表示;I(•)表示滿足括號中表達式的樣本個數。式(1)為使用多數投票法來確定最終分類結果的表達式。對于隨機森林算法中的單棵決策樹,首先在每一節點隨機選擇m個特征,再從這m個特征中根據Gini指數最優分割選擇最優特征進行該節點的分裂。Gini指數由式(2)得出:Gini(Q)=Σjj=1Pj(1-Pj)=1-Σjj=1Pj2(2)其中,Q為S個數據樣本的集合;Pj為隨機數據樣本屬于j類別的概率,近似值可用SjJS表示;J為數據集的類別總數,本文中J包括違約與未違約兩類。通過求Gini(Q,F)的最小值得到Gini指數最優分割,Gini(Q,F)表達式如式(3)所示:Gini(Q,F)=SSjGini(Qj)+SSjGini(Q-j)(3)因此,使得Gini(Q,F)值最小的特征即為該節點應選擇的最優特征。其中,Sj為屬于j類別的樣本個數,S-j為不屬于j類別的樣本個數,F為分裂特征。
三、數據選擇與處理
本文采用著名的德國信用數據集(數據集網址為http://archive.ics.uci.edu/)來驗證模型的可行性和有效性。因為德國信用數據集的指標比較全面,對個人信用風險評估指標的構建具有借鑒意義;基于互聯網的信貸也大多以此信用指標體系為根基,在其基礎上進行細分補充。德國信用數據集是德國一銀行記錄使用信用卡的個人特征及違約與否的數據集,一共有1000個客戶的基本信息,包含了700個好客戶(客戶信用良好,沒有信用違約記錄)和300個壞客戶(客戶信用較差,有違約記錄)。每個客戶的信息都包含24個屬性指標,由7個離散型指標、13個連續型指標構成,其他4個指標未知,以及每個客戶的類別,取“1”代表“好”客戶,“0”代表“壞”客戶。該數據集指標可分為個人指標、信用指標和經濟指標三大類。個人指標主要是描述個人自然信息,包括婚姻狀況、性別、年齡等信息,透過這些信息商業銀行能夠間接獲悉申請人的還款意愿和還款能力;信用指標包括貸款信息、信用卡信息、歷史信用信息等,從中可了解貸款申請人的信用風險、債務壓力及其歷史信用;經濟指標包括貸款申請人的職位、工齡、收入等信息,是衡量貸款申請人還款能力的重要指標。而4個未知指標對信用分類預測能力非常小,因此將其作為無關指標剔除。
四、結果分析
經濟金融領域中的指標錯綜復雜,個人信用指標更是如此,指標變量間的相關性等降低了模型預測及信用風險評估的有效性。因此,對數據樣本的原始指標進行篩選來建立風險評估指標體系,有助于個人信用的審核以及風險的重點監控。(一)基于XGBoost的信用指標篩選。首先采用XGBoost算法用Python軟件進行編程計算,得到所有指標的特征重要性分數。圖2是德國數據集指標的特征重要性分數柱狀圖。再根據XGBoost特征重要性得分進行指標篩選。從圖2可以看出,f3(信貸用途)、f1(信貸期限)、f9(擔保人)、f5(儲蓄賬戶情況)、f2(信用歷史)、f0(經常性賬戶情況)這幾個指標的特征重要性得分較高,可見這些指標對借款人違約風險影響較大;而f19(是否為外籍工作者)、f12(年齡)和f13(其他分期付款方式)重要性得分較低,影響較小,這與實際經驗基本吻合。同時,考慮到德國數據集樣本量較多,進入分類步驟的指標不能過少,同時從排名第15位的特征指標開始,其重要性得分大幅度下降,因此根據特征重要性柱狀圖選取特征重要性,得分前14位的指標進入第二階段的RF算法對數據樣本進行分類,所選指標包括f0、f1、f2、f3、f4、f5、f6、f7、f8、f9、f10、f15、f16、f17。由圖2可以發現,除f3(信貸用途)、f1(信貸期限)等顯性指標對個人信用風險影響重大外,f9(擔保人)對個人信用風險的影響不容忽視。擔保人的資金實力、信用水平對貸款申請者個人信用風險影響重大,而擔保人的選擇體現了貸款申請者的“人脈關系”。但國內現有的個人信用評分機制,鮮少選擇諸如“擔保人”等“人脈關系”相關指標。因此,評估個人信用風險時,在不違背保護隱私的前提下,應完善對“人脈關系”的調查與審核,以降低貸款申請者個人信用風險。(二)基于RF算法的個人信用分類分析。依據得到的14個屬性指標,運用隨機森林(RF)算法對1000條數據樣本進行分類測試,并將結果與傳統RF算法對比,得到以下結果及結論。(1)利用未經XGBoost篩選的原始數據集建立100棵決策樹分類可以發現:在5倍交叉驗證下,節點分裂時隨機選取的指標個數m為15時,平均分類準確率為68.6%;當m取10時,平均分類準確率為70.6%;當m取5時,平均分類準確率為64.2%。結論1:在交叉驗證倍數不變的情況下使用德國信用數據集進行分類,當把每一節點分裂時隨機選取的指標個數設置較大時,那么在一定范圍內減小指標個數,分類效果會變好,而如果指標選取的個數過少,分類效果會減弱。結論1的得出表明德國信用數據集中存在對預測個人信用風險影響較小的冗余指標或者某些指標間存在自相關性。(2)利用原始數據集和經XGBoost篩選后的數據集建立100棵決策樹分類可以發現:在5倍交叉驗證下,每一節點分裂時隨機選取的指標個數均為10時,篩選后數據集的分類準確率分別為0.73、0.735、0.63、0.72、0.69,與之對應的原始數據集的分類準確率分別為0.73、0.715、0.67、0.69、0.72;而且,在大部分子樣本中,經XGBoost篩選過的數據集得出的分類準確率比原始數據集得出的準確率高;當選取的指標個數m取5時,原始數據集的平均分類準確率為64.2%,而新數據集的平均分類準確率為69.7%。
2:利用XGBoost特征選擇后建立的新數據集在同樣的倍數交叉驗證下,不論是單次的分類準確率還是平均分類準確率都不亞于原始數據集的分類結果,甚至更高。(三)基于ROC曲線的模型性能比較ROC曲線是用于展示試驗中效果是否優良的一種圖形,一般通過ROC曲線下的面積AUC來衡量模型效果,曲線下面積AUC的值越大,可認為效果越好。對改進前后兩種方案的性能進行ROC曲線分析,其ROC曲線及其比較結果如圖3所示。將(a)和(b)放于同一坐標軸進行比較如(c)圖所示,發現除左上角兩曲線有所偏差之外其余基本重疊;從(d)圖可以看出明顯的差別:新數據集ROC曲線位于原數據集ROC曲線的上方,即利用新數據集的分類性能比原始數據集要好,更具有準確性。基于上述分析,可以得出改進后的XGBoost-RF模型通過優化數據指標而使模型性能比改進前更好,分類準確度更高。五、啟示與展望通過分析研究,可以發現以德國信用數據集為樣本,改進后的隨機森林模型通過優化特征選擇從而降低指標維數,最終提高了分類準確率,因此本文所構建的XGBoost-RF模型具有一定的合理性和有效性。進一步,研究得出的結論對互聯網金融下個人信用風險評估的啟示如下:(1)在對德國信用數據集進行特征選擇時發現“擔保人”對個人信用有較大影響,但國內現有的個人信用評分機制對于貸款申請者的諸如“擔保人”等“人脈關系”指標缺乏重視,因此相關企業在保護個人隱私的前提下可以完善“人脈關系”相關指標的信息采集。(2)在個人信用風險評估領域,大數據帶來了豐富的數據信息,更完整地勾勒出個人信用狀況。利用所有的數據進行評估成本高且效率低,因此應該探索更有效的方法進行個人信用指標的篩選,文中提出的XGBoost-RF模型是一個很好的嘗試。(3)近年的研究集中在分類算法的改進上,而算法的推陳出新花費時間成本很高。本文指出選擇好度量指標會達到事半功倍的效果,因此改善現有的個人信用評估指標體系具有根本性的作用。企業需要審視現有指標體系,積極探索挖掘對個人信用具有重大影響的其他因素。本文將XGBoost算法引入傳統的隨機森林算法(RF)來優化信用指標的選擇,突破了以往研究中數據維數大、關聯性強所帶來的局限性,不足之處在于有些因素卻未能充分考慮。鑒于國內相關個人信用數據的保密性,本文利用了公開的德國信用數據集。考慮到互聯網的個人信用數據指標在構成上有所差異,并且在現實中個人信用水平往往被分為多個等級,不僅限于“好”客戶和“壞”客戶,因此研究效果有所減弱,但構建的個人信用風險評估模型以及研究成果對現階段工作仍有借鑒作用。未來的研究可以考慮在信用等級細分情況下多元分類的問題,以及大數據背景下對個人信用風險影響重大的其余指標。
作者:周永圣 崔佳麗 周琳云 孫紅霞 劉淑芹 單位:北京工商大學
- 上一篇:消化內鏡護理風險評估效果分析
- 下一篇:國際工程人力資源發展路徑