數據挖掘技術應用于金融行業研究論文
時間:2022-09-09 08:13:00
導語:數據挖掘技術應用于金融行業研究論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:隨著計算機信息技術的發展,信息共享使得人們能得到越來越多的數據。與此同時出現了分析這些海量數據的一門技術——數據挖掘技術。本文首先介紹了數據挖掘技術的定義以及常用挖掘方法,然后介紹了數據挖掘技術在金融行業的典型應用。
關鍵字:數據挖掘金融數據
金融部門每天的業務都會產生大量數據,利用目前的數據庫系統可以有效地實現數據的錄入、查詢、統計等功能,但無法發現數據中存在的關系和規則,無法根據現有的數據預測未來的發展趨勢。缺乏挖掘數據背后隱藏的知識的手段,導致了數據爆炸但知識貧乏”的現象。與此同時,金融機構的運作必然存在金融風險,風險管理是每一個金融機構的重要工作。利用數據挖掘技術不但可以從這海量的數據中發現隱藏在其后的規律,而且可以很好地降低金融機構存在的風險。學習和應用數扼挖掘技術對我國的金融機構有重要意義。
一、數據挖掘概述
1.數據挖掘的定義對于數據挖掘,一種比較公認的定義是W.J.Frawley,G.PiatetskShapiro等人提出的。數據挖掘就是從大型數據庫的數據中提取人們感興趣的知識、這些知識是隱含的、事先未知的、潛在有用的信息,提取的知識表示為概念(Concepts),規則(Rules)、規律(Regularities)、模式(Patterns)等形式。這個定義把數據挖掘的對象定義為數據庫。
隨著數據挖掘技術的不斷發展,其應用領域也不斷拓廣。數據挖掘的對象已不再僅是數據庫,也可以是文件系統,或組織在一起的數據集合,還可以是數據倉庫。與此同時,數據挖掘也有了越來越多不同的定義,但這些定義盡管表達方式不同,其本質都是近似的,概括起來主要是從技術角度和商業角度給出數據挖掘的定義。
從技術角度看,數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的信息和知識的過程。它是一門廣義的交叉學科,涉及數據庫技術、人工智能、機器學習、神經網絡、統計學、模式識別、知識庫系統、知識獲取、信息檢索、高性能計算和數據可視化等多學科領域且本身還在不斷發展。目前有許多富有挑戰的領域如文本數據挖掘、Web信息挖掘、空間數據挖掘等。
從商業角度看,數據挖掘是一種深層次的商業信息分析技術。它按照企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性并進一步將其模型化,從而自動地提取出用以輔助商業決策的相關商業模式。
2.數據挖掘方法
數據挖掘技術是數據庫技術、統計技術和人工智能技術發展的產物。從使用的技術角度,主要的數據挖掘方法包括:
2.1決策樹方法:利用樹形結構來表示決策集合,這些決策集合通過對數據集的分類產生規則。國際上最有影響和最早的決策樹方法是ID3方法,后來又發展了其它的決策樹方法。
2.2規則歸納方法:通過統計方法歸納,提取有價值的if-then規則。規則歸納技術在數據挖掘中被廣泛使用,其中以關聯規則挖掘的研究開展得較為積極和深入。
2.3神經網絡方法:從結構上模擬生物神經網絡,以模型和學習規則為基礎,建立3種神經網絡模型:前饋式網絡、反饋式網絡和自組織網絡。這種方法通過訓練來學習的非線性預測模型,可以完成分類、聚類和特征挖掘等多種數據挖掘任務。
2.4遺傳算法:模擬生物進化過程的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個基本算子組成。為了應用遺傳算法,需要將數據挖掘任務表達為一種搜索問題,從而發揮遺傳算法的優化搜索能力。
2.5粗糙集(RoughSet)方法:Rough集理論是由波蘭數學家Pawlak在八十年代初提出的一種處理模糊和不精確性問題的新型數學工具。它特別適合于數據簡化,數據相關性的發現,發現數據意義,發現數據的相似或差別,發現數據模式和數據的近似分類等,近年來已被成功地應用在數據挖掘和知識發現研究領域中。
2.6K2最鄰近技術:這種技術通過K個最相近的歷史記錄的組合來辨別新的記錄。這種技術可以作為聚類和偏差分析等挖掘任務。
2.7可視化技術:將信息模式、數據的關聯或趨勢等以直觀的圖形方式表示,決策者可以通過可視化技術交互地分析數據關系。可視化數據分析技術拓寬了傳統的圖表功能,使用戶對數據的剖析更清楚。
二、數據挖掘在金融行業中的應用數據挖掘已經被廣泛應用于銀行和商業中,有以下的典型應用:
1.對目標市場(targetedmarketing)客戶的分類與聚類。例如,可以將具有相同儲蓄和貨款償還行為的客戶分為一組。有效的聚類和協同過濾(collaborativefiltering)方法有助于識別客戶組,以及推動目標市場。
2..客戶價值分析。
在客戶價值分析之前一般先使用客戶分類,在實施分類之后根據“二八原則”,找出重點客戶,即對給銀行創造了80%價值的20%客戶實施最優質的服務。重點客戶的發現通常采用一系列數據處理、轉換過程、AI人工智能等數據挖掘技術來實現。通過分析客戶對金融產品的應用頻率、持續性等指標來判別客戶的忠誠度;通過對交易數據的詳細分析來鑒別哪些是銀行希望保持的客戶;通過挖掘找到流失的客戶的共同特征,就可以在那些具有相似特征的客戶還未流失之前進行針對性的彌補。
3.客戶行為分析。
找到重點客戶之后,可對其進行客戶行為分析,發現客戶的行為偏好,為客戶貼身定制特色服務。客戶行為分析又分為整體行為分析和群體行為分析。整體行為分析用來發現企業現有客戶的行為規律。同時,通過對不同客戶群組之間的交叉挖掘分析,可以發現客戶群體間的變化規律,并可通過數據倉庫的數據清潔與集中過程,將客戶對市場的反饋自動輸人到數據倉庫中。通過對客戶的理解和客戶行為規律的發現,企業可以制定相應的市場策略。
4.為多維數據分析和數據挖掘設計和構造數據倉庫。例如,人們可能希望按月、按地區、按部門、以及按其他因素查看負債和收入的變化情況,同時希望能提供諸如最大、最小、總和、平均和其他等統計信息。數據倉庫、數據立方體、多特征和發現驅動數據立方體,特征和比較分析,以及孤立點分析等,都會在金融數據分析和挖掘中發揮重要作用。
5.貨款償還預測和客戶信用政策分析。有很多因素會對貨款償還效能和客戶信用等級計算產生不同程度的影響。數據挖掘的方法,如特征選擇和屬性相關性計算,有助于識別重要的因素,別除非相關因素。例如,與貨款償還風險相關的因素包括貨款率、資款期限、負債率、償還與收入(payment——to——income)比率、客戶收入水平、受教育程度、居住地區、信用歷史,等等。而其中償還與收入比率是主導因素,受教育水平和負債率則不是。銀行可以據此調整貨款發放政策,以便將貨款發放給那些以前曾被拒絕,但根據關鍵因素分析,其基本信息顯示是相對低風險的申請。
6.業務關聯分析。通過關聯分析可找出數據庫中隱藏的關聯網,銀行存儲了大量的客戶交易信息,可對客戶的收人水平、消費習慣、購買物種等指標進行挖掘分析,找出客戶的潛在需求;通過挖掘對公客戶信息,銀行可以作為廠商和消費者之間的中介,與廠商聯手,在掌握消費者需求的基礎上,發展中間業務,更好地為客戶服務。
7.洗黑錢和其他金融犯罪的偵破。要偵破洗黑錢和其他金融犯罪,重要的一點是要把多個數據庫的信息集成起來,然后采用多種數據分析工具找出異常模式,如在某段時間內,通過某一組人發生大量現金流量等,再運用數據可視化工具、分類工具、聯接工具、孤立點分析工具、序列模式分析工具等,發現可疑線索,做出進一步的處理。
數據挖掘技術可以用來發現數據庫中對象演變特征或對象變化趨勢,這些信息對于決策或規劃是有用的,金融
行業數據的挖掘有助于根據顧客的流量安排工作人員。可以挖掘股票交易數據,發現可能幫助你制定投資策略的趨勢數據。挖掘給企業帶來的潛在的投資回報幾乎是無止境的。當然,數據挖掘中得到的模式必須要在現實生活中進行驗證。
參考文獻:
丁秋林,力士奇.客戶關系管理.第1版.北京:清華人學出版社,2002
張玉春.數據挖掘在金融分析中的應用.華南金融電腦.2004
張嫻.數據挖掘技術及其在金融領域的應用.金融教學與研究.2003
李寶東、宋瀚濤.數據挖掘在客戶管理(CRM)中的應用[J],計算機應用研究,2002
- 上一篇:企業信息化建設重要性論文
- 下一篇:數據庫安全技術研究論文