銀行大數據風控體系創新價值

時間:2022-07-14 10:38:29

導語:銀行大數據風控體系創新價值一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。

銀行大數據風控體系創新價值

摘要:本文主要研究了關聯圖譜在銀行信貸業務風控中的應用,并設計系統落地實施方案。具體使用了包含實體抽取、關系抽取、圖譜構建和數據存儲等關鍵技術,發現信貸業務中的欺詐團體,其模型結果和可行的實施方案構筑了大數據風控體系,彌補了個體反欺詐的局限性,解決識別個體正常但屬于欺詐團伙的反欺詐防范痛點,大幅提升反欺詐調查的效率。自系統上線以來,穩健運行,識別欺詐團伙逾期率約為正常客戶的5倍。

關鍵詞:關聯圖譜;大數據風控;反欺詐

大數據風控模型近幾年在信貸業務中被廣泛應用。傳統的風控模型基本是對借款人個人情況的評估,而較少去評價不同申請人之間的關聯關系。而信貸業務中的欺詐團伙經常體現出較強的關聯關系,并伴隨著較強的偽裝手段,使得無法通過簡單的一度關系識別不同客戶是否來自同一群體。關聯圖譜是一種非常適合信貸業務反欺詐領域的方法,其識別欺詐客戶的效果較優,同時又具有技術上的可行性。

1研究內容

本文基于關聯圖譜的理論和技術,根據信貸業務的數據特征和業務要求,研究其在信貸業務大數據風控領域中的實際落地應用方案,包括關聯圖譜的實體與關系抽取、圖譜構建、數據存儲等技術,以及基于關聯圖譜構建大數據風控提示的具體實踐。

2關聯圖譜的理論基礎及關鍵技術

2.1關聯圖譜理論

關聯圖譜的本質是語義網絡的一種,是一種基于圖的數據結構。關聯圖譜一般由實體-關系-實體的三元組構成,這種三元組可以將互相獨立的貸款申請之間關聯起來,形成復雜而連通的網絡。圖1即是關聯圖譜的一個示例,申請人1、申請人2、申請人4與公司1是工作關系,申請人1和申請人3是配偶關系。雖然申請人2和申請人3并無直接的關聯關系,但是通過關聯圖譜可以將兩人聯系起來。后續可以通過機器學習的算法識別兩人是否屬于同一群體。

2.2關鍵技術

2.2.1實體抽取技術關聯圖譜中的實體可以被定義為任何事物。在信貸業務中,一般可以認為實體是人、設備、IP地址、公司、地址等,而關系包括從屬關系、聯系人關系。由于信貸業務中的實體都較為明確,例如身份號、手機號均可以唯一地識別實體,故信貸業務中實體抽取較為簡單,可以采用常用的結構化數據來提取和標識實體。在實際應用中,選擇身份證號、手機號、地址、公司名來構建關聯圖譜。值得注意的是在實際應用中,諸如地址、公司名這樣的實體存在數據標準化的問題。數據標準化問題主要來源于客戶填寫時的方式千奇百怪,如新疆和新疆維吾爾自治區實際是同一省份。數據標準化的問題主要采用基于N-gram和基于HMM的分詞方法對原始數據進行分詞后與已有的行政地址劃分庫和公司庫進行比對,可將非標準化的地址和公司映射至標準化的地址和公司名。對于已知的詞匯,假設隨機變量S是一個文字序列,隨機變量W是S可能的切分路徑。分詞實際上就是求解使條件概率P(W|S)最大的切分路徑W*,即由于對W來說S為已知序列,故P(S|W)為1,P(S)為常數,因此只需要求解P(W)。P(W)使用N-gram語言模型建模,假設一個詞出現的概率,只與其前n-1個詞相關。常用的Bi-gram取n=2,即一個詞出現的概率只與其前一個詞相關:可以用全切分有向無環圖(DAG)來畫出簡單句子的所有區分,并尋找出一條概率最大的路徑。對于未知的詞匯,使用HMM(隱馬爾克夫模型)模型,用Viterbi算法找出最可能出現的隱狀態序列。2.2.2關系抽取技術信貸業務中實體之間的關系也較為明確,如聯系人之間的關系可以是配偶、朋友、親戚等,對于此類關系,可以直接進行提取。實際應用中,對于地址、公司的關系提取存在一定的集中性問題。如較多客戶填寫同一個工作單位,就不能簡單地把其處理為同事關系,一是因為客戶之間的關系較弱,他們本身認識或者成為同一群體的概率較小;二是圖譜中如有少數實體有較多關系相連,則群體發現算法會在這樣的大實體上集中,而忽視小實體之間關聯關系。信貸反欺詐中實際更關注小實體之間的關聯關系。故抽取關系的時候必須對集中性關系進行處理。針對集中性問題,可以結合實際情況采用刪除和降低權重處理。2.2.3圖譜構建技術在抽取完實體與關系后,可以將所有信息放入連通圖。此時需要使用機器學習模型去將實體切割成不同的子群體,觀察群體內部有無明顯的欺詐行為。切分群體的方法主要包括標簽傳播算法、Louvain算法。標簽傳播算法為基于圖的半監督學習算法,基本思路是從已標記的節點的標簽信息來預測未標記節點標簽的信息,經過多次迭代使整張圖達到穩定,建立完全圖模型。Louvain算法是基于模塊度來衡量一個社群的劃分是不是相對比較好的結果,最終以最大化模塊度為目標,得出最優的群體劃分方法。2.2.4數據存儲技術關聯圖譜可以使用傳統的結構化數據庫來存儲數據,也可以選擇圖數據庫。傳統的結構化數據可以采用實體-關系-實體的結構來存儲數據,可以將其拼接后進行指標計算,最后對每一個實體進行標注。結構化數據的優勢是邏輯清晰,編碼簡單,劣勢是計算速度較慢。為了實現社群發現算法,解決計算量大、計算復雜的問題,采用了Spark技術。Spark技術是基于內存計算的大數據并行計算框架,其速度顯著快于需要大量I/O和CPU計算的Hadoop的Mapreduce。本項目采用了Spark的GraphX組件進行圖數據處理和圖運算;采用了SparkMlib庫可以加速機器學習模型的運算速度。同時,為了在建立網絡后分析所發現群體關聯情況和欺詐情況,采用了Neo4j圖數據庫做可視化,使用聲明式圖形查詢語言Cypher,它允許用戶不必編寫圖形結構的遍歷代碼,就可以對圖形數據進行高效的查詢。

3基于關聯圖譜構建大數據風控體系

3.1大數據風控應用體系搭建

3.1.1風控平臺搭建大數據風控平臺是一個應用數據挖掘、機器學習等算法實現信貸審批、風險管控的集成式系統工具,它由多系統模塊聯合交互構成,核心組成包括信貸審批系統、決策引擎、模型平臺、實驗平臺以及監控平臺。信貸審批系統:主要實現三大功能,業務調度、流程引擎及審批工作臺。業務調度功能實現前端業務的接入,執行不同業務對應的風控流程,并且對執行過程匯總的異常進行監控和處理;流程引擎則可實現具體信貸流程的配置管理,例如全自動審批還是人工審批與機器審批相結合;審批工作臺則是提供給信貸審批人員的操作界面,提供信息展示與審批結果記錄的功能。決策引擎:自動化審批測略的部署平臺,承載的是風控業務的專家知識,基于客戶特征和模型的輸出,對客戶進行分層、風險判斷以及風險定價等操作。模型平臺:模型實時部署運行平臺,關聯圖譜的應用均在模型平臺中完成,它可以在實時審批中整合信貸申請信息,提取關鍵特征,完成關聯圖譜與機器學習模型的結果預測,是整個在線風控平臺的一大核心。實驗平臺:可實現離線策略仿真測算、模型搭建的功能。基于Hbase數據庫的大量離線數據及算法服務器,進行風控模型挖掘、驗證、策略測算。監控平臺:分為實時運營監控及離線定時監控兩部分。實時運營監控可計算當日實時業務審批情況,包括進件量、審批結果、異常申請件情況等,可進行實時的異常情況預警;離線監控可按設計,定時生成按日、按周、按月的監控報表,監控報表基于Tableau的報表平臺服務框架,底層數據管理采用Hive數據倉庫工具。3.1.2關聯圖譜模型挖掘構建關聯圖譜時,首先需要確定關系有哪些,關系的選取主要根據專家經驗,確定哪些關系可以表現出申請人在行為上的趨同性,同時這些行為上的趨同性對于信貸風險有一定影響,選擇的關系主要包括公司、地址、聯系人、手機號歸屬地等。確定關系后,將申請人與申請人之間通過不同的關系相連接形成網絡,若采用相同特征構建關聯網絡則稱為同構網絡,若采用不同的關聯特征構建網絡則稱為異構網絡。構建完網絡后,選擇可以將其中的節點劃分為社群的算法,社群發現的相關算法各有優劣,需根據建模需求、樣本情況、開發時限等因素綜合判斷后選擇。通過社群發現算法可將具有關聯關系的不同申請人標記為同一個群體,隨后需從百萬級的群體中挖掘出欺詐群體。欺詐是一個較為主觀的定義,業務較為廣泛的定義包括首逾客戶、從未還款客戶、通過人工欺詐調查得出的欺詐客戶等,定義完欺詐客戶后,需借由欺詐客戶挖掘出欺詐群體,欺詐群體的定義也沒有唯一標準,一般會要求群體中欺詐客戶的樣本點不低于N人(N>=2)且群體的欺詐率為整體均值的M倍以上(M>=2)。至此,就完成了基于關聯圖譜的欺詐團伙發現模型,后續可進一步應用圖數據庫,可視化欺詐團伙,進一步進行分析及模型優化。3.1.3關聯圖譜應用場景實踐根據3.1.2的關聯圖譜模型的挖掘方法,項目組采用異構網絡構建關聯圖譜,應用標簽傳播的社群發現算法進行群體識別,成功發現1,179個3人及以上的高風險欺詐團伙,欺詐率為均值的4-5倍。

3.2落地實施方案

3.2.1系統架構審批系統作為線上實時審批的流程管控系統,串聯起決策引擎、模型平臺及人工審批平臺;離線實驗平臺則是模型挖掘、規則分析的主要平臺,復雜的算法模型策略在實驗平臺開發、驗證,隨后部署至模型平臺或決策引擎平臺;監控平臺擔實時業務、報表統計的功能。主體系統架構可詳見圖2。3.2.2系統關鍵技術特點整體風控平臺有三大關鍵技術特點。一是能夠應對大量數據處理,實驗平臺采用了Spark技術,Spark技術是基于內存計算的大數據并行計算框架,其速度顯著快于需要大量I/O的CPU計算的Hadoop的Mapreduce,同時配置GPU算法服務器,進一步加快計算效率。關聯圖譜的運算采用了Spark的GraphX組件進行圖數據處理和圖運算;采用了SparkMlib庫可以加速機器學習模型的計算速度。二是能夠對模型策略進行靈活高效的迭代,決策引擎平臺及模型平臺可以支持策略規則的高效更新上線。決策引擎為可視化操作,支持判斷邏輯的多種組合,流程鏈路的個性化配置,可優化策略部署速度;模型平臺可支持更復雜的模型計算,彌補決策引擎的短板。三是離線及在線系統的交互,可以支持風控策略的對抗升級。信貸申請的攻擊者會不停地進行內部規則的猜測,原本有效的在線策略會隨著這些攻擊出現有效性下降的問題。在線系統可以及時發現實時的異常情況,反饋業務人員排查風險;離線數據雖然有滯后性,但可以支持大批量的數據運算,挖掘出在線系統無法捕捉的異常攻擊,反哺在線策略。

4研究成果的創新價值及影響

傳統的機器學習模型更關注申請人自身的信貸風險。但在信貸業務中,人和人之間并不是獨立的,往往存在一定的集中性風險。欺詐中有較大比例的模式為團伙欺詐,需要能夠將不同類別的特征整合起來,提取它們之間關聯特征與團伙特征,以識別不同申請人之間的關聯風險。關聯圖譜(復雜網絡)是解決上述問題的一種常用且有效的方法。充分發揮其直觀化、效率化的圖技術優勢,在反欺詐方面成效顯著。本項目的研究成果一是彌補了個體反欺詐的局限性,解決識別個體正常但屬于欺詐團伙的反欺詐防范痛點;二是可以充分整合個體反欺詐模型較難運用的弱特征變量,如手機號歸屬地、居住地等,將多源異構的數據整合成機器可以理解的知識,將單點信息轉化為平面的相互關聯的圖譜;三是大幅提升了欺詐調查的效率,傳統的關系型數據庫,需要技術人員執行一系列的復雜連接才能將關聯信息提取出來,圖數據庫在這方面具有天然的優勢,可將欺詐團伙的網絡直接展現。

5總結與展望

關聯圖譜在風控領域的應用是一個復雜的問題,對數據來源、系統性能、應用方案有著較高的要求。本文對關聯圖譜在銀行大數據風控體系內的應用進行初探,模型效果經測算在歷史樣本上效果較好。基于具有可行性的落地方案,成功上線,搭建起基于關聯圖譜的大數據風控體系,完成初版關聯圖譜模型上線。并持續運行穩健,識別欺詐團伙逾期率約為正常客戶的5倍。當然,本文在這一領域的研究還有很大的上升空間,未來將持續對算法效果、運行效率進行研究與改進。

參考文獻

[1]尹亮,袁飛,謝文波,等.關聯圖譜的研究進展及面臨的挑戰[J].計算機科學,2018,45(6A):1-10.

[2]黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3):8-19.

[3]田思慮,李德華,潘瑩.一種改進的基于二元統計的HMM分詞算法[J].計算機與數字工程,2011,39(1):14-16.

[4]HuB,ZhangZ,ZhouJ,etal.LoanDefaultAnalysiswithMultiplexGraphLearning[C]//Proceedingsofthe29thACMInternationalConferenceonInformation&KnowledgeManagement.2020:2525-2532.

[5]WangD,LinJ,CuiP,etal.Asemi-supervisedgraphattentivenetworkforfinancialfrauddetection[C]//2019IEEEInternationalConferenceonDataMining(ICDM).IEEE,2019:598-607.

[6]張俊麗,常艷麗,師文.標簽傳播算法理論及其應用研究綜述[J].計算機應用研究,2013,30(1):21-25.

作者:張素子 單位:興業消費金融股份公司