機器學習方法及信用風險評估
時間:2022-09-02 10:31:03
導語:機器學習方法及信用風險評估一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:基于信用風險評估的文獻隨著時間的推移以及技術創新的不斷更新,相關機器學習方法運用近年來也與時俱進。基于此,主要從傳統的機器學習方法、近現代機器學習方法以及近三年來最新研究三個方面進行信用風險評估領域文獻梳理與評述,歸納現有機器學習方法存在的問題和不足,并對未來機器學習方法在金融風控領域研究方向做出展望,提出發展趨勢。
關鍵詞:機器學習方法;信用風險;評估
隨著人工智能的發展和大數據時代的到來,眾多學者利用機器學習方法對信用風險評估展開廣泛研究。信用風險管理在國內外金融機構的穩健運行中扮演重要角色,傳統的判斷用戶是否違約的方法已經不能滿足當今數據類型多、用戶量大、風險預測準確率高的要求,大量學者運用機器學習方法深入展開相關討論并做出一系列研究成果,證明該方法具有較好的預測和泛化能力。整體來看,我國的個人信用風險評估較國外起步較晚,起初的文獻大部分都是進行傳統單一模型的風險評估,近年來才開始利用集成機器學習方法進行風險預測。信用風險對于我國金融風控領域尤為重要,因此,對此進行相關文獻梳理以及發展趨勢研究具有重要意義。
一、基于統計學習方法的信用風險評估綜述
回歸分析等方法最早用于開展信用風險評估領域。在國外,Durand(1941)利用線性判別分析法應用信貸評估系統,提出使用基于數理統計的模型對信用風險評估問題進行了研究,是已知文獻中最早被用來進行信用風險評估的方法,自此信用評估由單純的定性分析轉向了定量分析。同時,這一方法存在一定的局限性,它對于數據分布要求的假設性太強,并且樣本分類依據不是均值而是方差,因此導致最終的分類效果不是特別強。Orgler(1970)在1970年最早使用線性回歸方法針對貸款者的信用狀況結合實際情況進行分數評級,預測銀行客戶信用風險。在國內,姚路(2017)結合個人信用數據對用戶進行信用評價,運用多元線性回歸方法進行模型構建。線性回歸方法從本質上來說是用現有用戶信用數據對未知信用狀況的用戶進行回歸預測,最終得出用戶是否違約的概率。但是線性回歸也有一定的弊端,它所得出的值域介于正負無窮大之間,而邏輯回歸方法的出現正好解決了這一問題。Wiginton等(1980)最先提出Logistic回歸模型用于進行信用評估。邏輯回歸將線性回歸后得出的值進行Sigmoid函數轉換成概率值,在0—1之間設定經驗閾值從而實現二分類問題。Grablowsky(1981)在Logistic基礎上進一步提出Probit回歸模型進行風險評估。該模型主要是將Logistic回歸模型中的似然比對數函數調整為正態分布函數的反函數。Steenackers等(1989)對Logistic回歸模型進行優化,將用戶信息的各種變量關系通過該模型進行反映,增強了該模型的可解釋性。Ziari(1997)進行信用風險評估時將線性分析模型與統計分析模型相結合,對比單一的線性分析和統計分析模型發現效果更好。在國內,胡濱(2011)利用logistic回歸模型對銀行信貸狀況進行分析,以減少信用經濟帶來的損失和風險。李淑錦(2018)運用logistic回歸實證得出傳統金融借貸機構風險低于網貸平臺,同時考慮閾值的設定對規避模型判斷失誤而導致的資金損失有重要意義。
二、基于現代機器學習方法的信用風險評估綜述
基于機器學習的個人信用風險評估模型在近年來逐漸興起,展現了相比傳統風險評估方法較強的優越性。常見的現代機器學習方法有BP神經網絡、K近鄰、SVM支持向量機等。此外,基于樹模型的機器學習方法也廣泛應用于個人信用風險評估,如基礎的決策樹模型、相關集成模型如隨機森林、GBDT、XGBoost、light-GBM等。在國外,Makowski(1985)是最先開啟現代機器學習方法在個人信用風險評估領域應用的學者,他利用用戶信用數據在分類樹上構建模型,對好壞客戶進行分類并取得了一定效果。Cover和Hart(1986)提出K近鄰方法,對于二分類的問題處理比較高效且被廣泛應用于信用風險評估中。Odam(1990)最先將人工神經網絡模型應用于個人信用評分模型,根據用戶信用數據構建評分體系,指出人工神經網絡在信用評分過程中有較好的解釋性與應用性。Li(2000)對XGBoost進行信用風險建模研究。Baesensl等(2003)針對2003年之前的個人信用風險評估模型進行對比研究驗證發現,線性判別分析法和Logistic回歸模型在進行信用風險評估表現出較好的效果。StefanLessmann等(2015)在41種分類器對不同數據集進行分析,實驗結果表明,集成模型如隨機森林在信用風險評估效果上表現最佳。Brown(2012)指出,機器學習方法主要是通過監督學習對用戶的信用數據進行模型構建,經過數據處理、特征提取等一系列操作對構建的模型進行用戶行為和特征的預測,以此來判斷用戶下一次交易違約的可能性。在國內,姜明輝等(2004)利用K近鄰方法研究了信用風險評估,對小數據集的分類風險問題進行實驗分析。劉昕(2007)將人工神經網絡運用于銀行信用風險管理,得出神經網絡比傳統的打分法和統計模型判別正確率更高,并且在第二類錯誤率這一關鍵指標上優勢較好。王潤華(2010)改進支持向量機進行風險評估,得出多項式核進行分類在高斯核和線性核三種方法中表現效果最好。方匡南等(2014)引入Lasso-Logistic模型,運用Lasso方法對重要的變量特征進行選擇,這一組合進行個人信用評估可以明顯加快計算速度。付永貴(2016)改進線性回歸模型,并在大數據的基礎上對網絡供應商信用數據進行了研究。羅雅晨(2018)研究了數據不平衡問題,基于改進的隨機森林方法提出比例平衡的隨機森林模型用來建立個人信用評分模型。
三、信用風險評估文獻最新研究進展
近年來,針對數據不平衡、特征選擇、數據維度高等問題,新的改進機器學習集成模型不斷被提出,各種模型的組合器模型將幾種算法相結合。最新研究表明,隨著人工智能和大數據的發展,信用風控領域不斷增強信用風險評估模型的預測效果和性能,基于深度學習的神經網絡方法和組合模型運用的興起成為了當今時代研究個人信用風險評估的重點領域。深層神經網絡相較于傳統的機器學習方法性能更高,風險控制能力更強,顯著提高了金融行業風險測度水平,提供一個更安全的金融交易環境。JianLuo(2020)改進支持向量機非線性核函數的敏感和對非線性核函數的敏感隨機初始化,計算代價高、不適合非平衡數據集等問題,提出無核二次曲面支持向量機(QSSVM)模型。MirkoMoscatelli(2020)通過實證分析對比統計學方法,如線性判斷分析和邏輯回歸以及機器學習方法,如隨機森林和梯度提升,比較得出在數據量較大的情況下機器學習方法在信用風險評估上精確度和表現性能明顯優于統計學方法。NishaArora(2020)利用隨機森林改進特征選擇過程,提出Boot-strap-Lasso這一新方法,對比多個基礎機器學習方法效果得出Bolasso使能隨機森林算法(BS-RF)提供信用風險評估的最佳結果。DiegoPaganotiFonsecaa(2020)結合模糊分級和神經網絡兩階段方法對現有數據進行簡單分析,采用模糊邏輯將專家和從業者的意見結合在一起證明該方法可行性,解釋了比商業廣告提供的信用評分更便宜的解決方案評級機構。YuelinWanga(2020)比較分析了不同機器學習方法在信用風險評估中的應用,隨機森林在五種基本分類器中表現性能最好,因此也有很多學者將隨機森林作為預測模型的基分類器。GuanlinLi(2019)結合XGBoost,隨機森林,SVM三種模型的高精度、魯棒性和泛化能力的特點進行信貸違約風險的預測,結果證明組合器模型比單個模型預測效果更好,更有利于降低平臺的壞賬率,對金融風控起到較好作用。吳金旺,顧洲(2018)結合隨機森林和邏輯回歸兩種方法對商業銀行客戶信用進行信用風險評估。王春才(2018)將主動學習和徑向基網絡進行融合,提出基于機器學習技術的風控模型用來進行異常用戶檢測和信用評分。王超(2019)利用一個神經網絡模型、一個K均值聚類模型以及三個貝葉斯網絡模型將多個算法進行相互驗證,建立數據驅動的自適應優化學習機制進行貸款詐騙風險預測。楊德杰等(2019)運用深度學習方法提出基于堆棧降噪自編碼網絡風險評估模型,充分考慮數據特征之間的相關性進行分析。劉瀟雅等(2019)針對支持向量機在訓練高維數據不能主動進行特征選擇導致準確率下降的缺點,構建C4.5決策樹優化支持向量機的信用評估模型。莫贊(2019)針對在個人信用評估問題和風險日益劇增問題和數據集的不平衡問題,從梯度提升樹組合特征和集成算法的角度出發提出一種基于Bagging集成學習算法的個人信用風險評估模型。關于集成學習模型的應用,王思宇(2019)運用lightGBM模型評估個人信用風險,結果表明對普通的決策樹模型來說,該模型魯棒性更好且預測更加精準。王心逸(2020)將GBDT模型進行風險控制,引入一系列評估系數作為模型評估指標對個人貸款數據集進行實證研究。李欣(2020)利用XGBoost改進傳統的網格搜索法,解決參數尋優時耗費時間長的問題,由此建立風險評估模型。為處理高維特征,張雷(2020)針對特征選擇和數據不平衡問題提出了RF-SMOTE-XG-Boost模型,訓練階段采用粒子群優化算法對XGBoost模型做分類精度提高。劉偉江等(2020)將反映客戶信息四個方面的特征變量相互連接綜合成灰度圖,建立基于卷積神經網絡的客戶信用評估模型,實證了基于深度學習的神經網絡模型在信用風險評估上的可解釋性。王重仁等(2020)提出的一種基于長短期記憶神經網絡和卷積神經網絡融合的深度神經網絡個人信用評分方法,融合了基于注意力機制的LSTM模型和CNN模型兩個子模型,顯著提高了評估精度。
四、研究評述
統計學習方法在信用風險評估中因結構簡單、解釋力度較強而被廣泛應用,但以變量之間存在線性關系為假設,預測效果缺乏準確性,在很多情況下并不能完全反映客戶的信用狀況,特別是對具有真實分析價值的信息難以提取。現代機器學習方法構建的風險評估模型通過數據訓練精度較高,比較支持向量機、隨機森林、決策樹、集成學習等現代的機器學習方法,可以看出隨機森林精度較高且具有良好的泛化能力,SVM預測風險準確度較低但穩健性較好,XGBoost和light-GBM作為比較新的方法,預測風險準確率更高。由于多種組合模型相較單一模型預測精度更高,最新研究將不同的機器學習方法進行結合,或者采用集成學習方法進行數據的特征處理,這種方法能夠更好探索信用數據內部的相關結構,形成預測精度更高的分類組合模型。但這些機器學習方法也存在一些問題,如在計算用戶風險指標權重時沒有考慮到指標之間的相互作用,對于計算指標權重的風險評估模型較少,同時,由于其計算過程復雜、穩定性較低,還由于其解釋能力不足而容易被認為是“黑箱”。隨著大數據時代到來,人工智能不斷深入金融風控領域,未來可以從以下三方面進行深入研究。第一,現有的機器學習方法主要針對特定的數據集進行靜態風險預測,由于數據隱私問題,很多信息無法獲取。運用機器學習方法結合人物畫像對用戶信息進行更加深度的動態提取也是一大方向,目前在此領域進行相關探索主要應用在銀行風控等領域,未來可以對此進行深入挖掘,在對渠道多平臺進行大數據累計并進行動態預測。第二,在風險評估模型建立上,現有一般模型屬于常權綜合模型,各指標值由于相互替代導致評估結果高估,以及各指標權重計算方法與標準不統一,并且對指標間存在相互影響的缺失值問題缺乏深度研究,對此也值得進一步分析和討論。此外,人工智能時代本質上促進了深度學習的發展,智能人臉識別、智能渠道管控、智能數據監測等應用也加深了風險控制與管理,卷積神經網絡、循環神經網絡等復雜網絡對人工智能做出更大貢獻。目前國家大力提倡金融與科技創新性復合人才培養力度,打造深度學習性人才促進金融風控的發展。深度神經網絡在信用風險評估方面的應用顯示了金融風控強大的優勢,未來結合大數據與深度學習進行風險評估,在保護用戶隱私前提下進行更加精確地預測將是開展信用風險評估的一大趨勢。
參考文獻:
[1]JianLuoa,XinYanb,YeTian.Unsupervisedquadraticsurfacesupportvectormachinewithapplicationtocreditriskassessment[J].EuropeanJournalofOperationalResearch,2020:1008-1017.
[2]MirkoMoscatellia,FabioParlapianoa,SimoneNarizzanob,GianlucaViggiano.Corporatedefaultforecastingwithmachinelearning[J].Ex-pertSystemswithApplications.,2020:1-12.
[3]NishaArora,PankajDeepKaur.ABolassobasedconsistentfeatureselectionenabledrandomforestclassificationalgorithm:Anapplica-tiontocreditriskassessment[J].AppliedSoftComputingJournal,2020:1-15.
[4]DiegoPaganotiFonsecaa,PeterFernandesWankea,HenriqueLuizCorrea.Atwo-stagefuzzyneuralapproachforcreditriskassessmentinaBraziliancreditcardcompany[J].AppliedSoftComputingJournal,2020:1-13.
[5]YuelinWanga,YihanZhanga,YanLua,XinranYua.AComparativeAssessmentofCreditRiskModelBasedonMachineLearning—acasestudyofbankloandata[J].ProcediaComputerScience,2020:141-149.
[6]王思宇.基于LightGBM算法的信用風險評估模型研究[J].軟件導刊,2019,18(10):19-22.
[7]楊德杰.基于堆棧降噪自編碼網絡的個人信用風險評估方法[J].計算機科學,2019,46(10):7-10.
[8]劉偉江.基于卷積神經網絡的客戶信用評估模型研究[J].數據分析與知識發現,2020,(6):80-90.
[9]張雷.基于RF?SMOTE?XGboost下的銀行用戶個人信用風險評估模型[J].現代電子技術,2020,43(16):76-81.
[10]劉瀟雅,等.基于C4.5算法優化SVM的個人信用評估模型[J].計算機系統應用,2019,28(7):133-138.
作者:毛子林 劉姜 單位:上海理工大學管理學院
- 上一篇:創新思維培養與醫學生物化學教學探討
- 下一篇:高等數學混合式教學模式及建議