基于粒化的互聯(lián)網(wǎng)金融大數(shù)據(jù)分析
時間:2022-05-22 08:21:01
導(dǎo)語:基于粒化的互聯(lián)網(wǎng)金融大數(shù)據(jù)分析一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘 要:隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘技術(shù)正日益滲透到各行各業(yè)。基于數(shù)據(jù)挖掘技術(shù)挖掘出掌柜錢包的基本面數(shù)據(jù),其目的是為了獲取投資的標量信息。隨后建立支持向量機的指數(shù)回歸預(yù)測模型,通過模型回測判斷預(yù)測效果良好。為了更好的判斷未來價量信息的走向,因此采用基于模糊信息化的支持向量機指數(shù)預(yù)測模型,以每周信息為一個信息點,所得到結(jié)果準確。
關(guān)鍵詞:大數(shù)據(jù);信息粒化;支持向量機;指數(shù)預(yù)測
1 引言
“掌柜錢包”是興業(yè)全球基金與興業(yè)銀行聯(lián)合推出的互聯(lián)網(wǎng)的理財存取業(yè)務(wù),該業(yè)務(wù)于2014年3月10日上線運行,自上線以來在同類104只貨幣基金多次排前兩名,截至2018年12月,資金規(guī)模達460億元,在貨幣基金市場排名第五。在掌柜錢包廣受歡迎的同時,我們也要對其進行預(yù)警研究,而本文使用的技術(shù)分析就是一種比較有效的方式。技術(shù)分析注重對金融市場歷史數(shù)據(jù)的研究,通過圖表展現(xiàn)預(yù)測價格走勢和投資策略分析。在理論上,技術(shù)分析只考慮市場或金融工具的實際價格行為,并認為價格會通過其他渠道反映所有投資者的相關(guān)因素。技術(shù)分析是一種證券交易的基本分析方法,也是實際操作是最大的分析方法。關(guān)于技術(shù)分析的運用和市場交易的有效性,學術(shù)界和實務(wù)界一直存在爭議。但從實踐角度,為了更好地理解和運用技術(shù)分析,實現(xiàn)投資收益,減少被動風險其研究也是非常有意義的。一個衡量風險的指標是MSE,而本文運用的SVM能夠有效性的檢驗誤差。
2 文獻綜述
隨著金融市場的擴張、金融風險預(yù)警的發(fā)展,技術(shù)分析較傳統(tǒng)投資優(yōu)勢逐漸顯現(xiàn)。Markowitz在1952年發(fā)表的《投資組合選擇理論》中提出了均值-方差模型,開創(chuàng)了現(xiàn)資組合理論。緊接著William Sharpe1964年對資產(chǎn)組合模型進行了簡化,提出了資本資產(chǎn)定價CAPM模型,闡釋了單一投資回報率與標準投資組合的投資回報率之間的相關(guān)性。隨后Stephen Ross在1976年提出了套利定價APT模型,認為如果市場未達到均衡狀態(tài)并且不考慮交易成本等中間因素,就會存在無風險套利機會。從而將資本資產(chǎn)定價理論推向了一個新的研究階段。近些年,機器學習技術(shù)在技術(shù)投資領(lǐng)域得到了快速發(fā)展,SVM作為一個常用的技術(shù)有了大量的研究。MAH Farquad提出在解決財務(wù)問題的銀行信用卡客戶的流失預(yù)測和保險中的欺詐檢測,SVM能夠敏感性的判斷,實證結(jié)果表明,所提出的改進的基于主動學習的SVM方法產(chǎn)生了最佳靈敏度,并且減少了規(guī)則的長度和數(shù)量,從而提高了可理解性。L.Zhang提出SVM在供應(yīng)鏈金融管理供應(yīng)商和客戶管理之間的需求,建立一個認證管理系統(tǒng),從而提高了中小企業(yè)融資過程的信用評級狀況。胡海清等提出了供應(yīng)鏈金融模式下的信用風險管理,利用SVM建立風險評估體系,證實了風險評估的有效性。Hsu,Ming-Wei等提出將機器學習方法應(yīng)用到金融時間序列預(yù)測上,金融市場的可預(yù)測性和基于模型的盈利交易的可行性受到市場成熟度、所采用的預(yù)測方法、預(yù)測產(chǎn)生的時間范圍以及評估模型和模擬模型交易的方法的顯著影響,且SVM預(yù)測所得到的效果顯著。Shom Prasad Das等提出SVM-TLBO模型避免了用戶指定的控制參數(shù),通過預(yù)測COMDEX商品期貨指數(shù)的每日收盤價來評估該混合模型的可行性和效率。實驗結(jié)果表明,該模型是有效的,并且比粒子群優(yōu)化(PSO)+SVM混合和標準SVM模型表現(xiàn)更好。例如,與標準SVM回歸相比,該模型將平均絕對誤差提高了65.87%(提前1天預(yù)測),55.83%(提前3天預(yù)測)和67.03%(提前5天預(yù)測)。更多的,Johana等人分析了59篇關(guān)于SVM和金融時間序列的分析進展,結(jié)論表明SVM比傳統(tǒng)的時間序列方法更準確。
3 粒化支持向量機理論介紹
3.1 相關(guān)理論,20世紀90年代初Vapnik等人根據(jù)統(tǒng)計學習理論提出了一種新的機器學習方法,即SVM方法。該方法以結(jié)構(gòu)風險最小化原則為理論基礎(chǔ),通過適當?shù)剡x擇函數(shù)子集及該子集中的判別函數(shù),使學習機器的實際風險達到最小,保證了通過有限訓練樣本得到的小誤差分類器,對獨立測試集的測試誤差仍然較小。在支持向量和輸入空間抽取的向量之間的內(nèi)積核是構(gòu)造支持向量機學習算法的關(guān)鍵。其中支持向量機是由算法從訓練數(shù)據(jù)中抽取的小子集構(gòu)成。其種類主要有:線性核函數(shù):K(x,xi)=xTxi;多項式核函數(shù):K(x,xi)=(γxTxi+r)p,γ>0;徑向基核函數(shù):K(x,xi)=exp(-γ||x-xi||2),γ>0;兩層感知器核函數(shù):K(x,xi)=tanh(γxTxi+r)通過對比發(fā)現(xiàn),雖然對掌柜錢包進行了回歸預(yù)測,但是大多數(shù)時候無法對指數(shù)進行精確預(yù)測,如果能夠?qū)﹂_盤指數(shù)和變化空間進行預(yù)測就顯得很重要。利用SVM對進行模糊信息粒化后的每日開盤指數(shù)進行變化趨勢和變化空間的預(yù)測。信息粒化由美國數(shù)學家Lotfi A.Zahdeh教授提出,是粒化計算和詞語計算的主要方面,研究信息粒化的形成、表示、粗細、語義解釋等。從本質(zhì)上講,信息粒化是通過不可區(qū)分性、相似性、功能相近性、函數(shù)性等來劃分對象的集合。是將一個整體分解為一個個相似的元素部分進行研究,每個部分為一個信息粒。這種信息粒命題表達方式為:gΔ-(xisG) isλ或者gΔ-xisG其中x是論域U中取值的變量,G是U的模糊子集,由隸屬函數(shù)μG來刻畫。λ表示可能性概率。一般假設(shè)U為實數(shù)集合R R()',G是U的凸模糊子集,λ是單位區(qū)間的模糊子集。3.2 “掌柜錢包”,技術(shù)分析模型構(gòu)建,選取數(shù)據(jù):每一行表示每一個交易日的掌柜錢包指數(shù)各種指標,6列分別表示當天指數(shù)的開盤指數(shù),指數(shù)最高,指數(shù)最低值,收盤指數(shù),當日交易量,當日交易額。模型目的:利用SVM建立的回歸模型對指數(shù)每日的開盤數(shù)進行回歸擬合模型假設(shè):指數(shù)每日的開盤數(shù)與前一日的開盤指數(shù),指數(shù)最高值,指數(shù)最低價,收盤指數(shù),交易量和交易額相關(guān),即把前一日的開盤指數(shù),指數(shù)最高值,指數(shù)最低價,收盤指數(shù),交易量和交易額作為當日開盤指數(shù)的自變量,當日的開盤指數(shù)為因變量。在給定的訓練樣本x1,y()1,...,xn,y(){}n,i=1,2,...,n,采用不敏感損失函數(shù)算法,尋找回歸函數(shù)f(x,α)=wx+b中的參數(shù)w,b,將問題轉(zhuǎn)化為:min12w2+C∑ni=1ξi+ξ*is.t.(wxi+b)-yi!ε+ξiyi-(wTxi+b)!ε+ξ*iξi,ξ*i0,i=1,2...烅烄烆n引入拉格朗日函數(shù)可以得到對偶規(guī)劃min12∑ni,j=1α*i(-α)iα*j(-α)jx(ix)j+ε∑ni=1α*i(+α)i∑nj=1yiα*j(-α)js.t.∑ni=1(α*i-αi)=00!αi,α*i!C,i=1,2...烅烄烆n對于非線性回歸類似,可以通過核函數(shù)來實現(xiàn)。目前比較常用的核函數(shù)類型有:線性核函數(shù):K(x,xi)=xTxi;多項式核函數(shù):K(x,xi)=(gxTxi+r)d;高斯核函數(shù):K(x,xi)=exp(-g‖x-xi‖2);Sigmoid核函數(shù):K(x,xi)=tanh(gxTxi+r)支持向量機的核函數(shù)以及參數(shù)的選取對其目標的預(yù)測性能有很大的影響,從現(xiàn)有的研究成果來看,大多數(shù)情況下最常用的核函數(shù)-高斯核函數(shù)都獲得了較好的預(yù)測效果,因此本文借鑒已有的研究成果采用高斯核函數(shù)進行研究。此時的支持向量機存在兩個需要調(diào)節(jié)的參數(shù):懲罰參數(shù)c和高斯核函數(shù)參數(shù)g。 算法流程圖對于掌柜錢包的有效預(yù)測可以從整體上觀測股市的變化提供強有力的信息,所有對掌柜錢包的預(yù)測很有意義,通過對掌柜錢包的開盤至今的每日開盤數(shù)據(jù)進行回歸分析。
4 結(jié)果分析
通過使用核函數(shù)-高斯核函數(shù)的研究網(wǎng)絡(luò)搜索法來對高斯核函數(shù)g和懲罰參數(shù)c進行優(yōu)化選擇實現(xiàn)。選擇回歸預(yù)測分析最佳的SVM參數(shù)c&g。利用上面得到的最佳參數(shù)c和g對SVM進行訓練,然后再對原始數(shù)據(jù)進行回歸預(yù)測,得出圖1、圖2。利用回歸預(yù)測分析最佳的參數(shù)進行SVM網(wǎng)絡(luò)訓練。利用網(wǎng)格搜索法最終得到的擬合結(jié)果為:均方誤差MSE=0.000362,相關(guān)系數(shù)R=98.56%,在95%的置信區(qū)間下,預(yù)測的準確率為93.98%,預(yù)測效果良好。利用高斯核函數(shù)的強大回歸,得到的效果良好。對上一個模型進行改良的上面是對一個指標進行回歸預(yù)測,而這里進行的是對3個指標(最低價,平均價,最高價)進行回歸預(yù)測,得到的是一個區(qū)間進行說明,其準確性更高。利用SVM對模糊粒子Low進行回歸預(yù)測。基于上面尋得的參數(shù),利用支持向量機回歸預(yù)測。對于Low的擬合結(jié)果分析,利用上面得到的最佳參數(shù)訓練和預(yù)測,最終Low模型得到的擬合效果為:均方誤差MSE=0.0045相關(guān)系數(shù)R=85.90%接下來5個交易日的平均模糊粒子參數(shù):predict_low=1.3321再次利用SVM對R、Low進行回歸預(yù)測。最終結(jié)果如下,求得的模糊粒子參數(shù)最低值Low,平均值r,最高值Up的預(yù)測值分別是:[Low,R,Up]=[1.3321,1.3652,1.4022]通過與接下來的幾天進行實證分析其結(jié)果確實是在里面,證明回測成功。通過截取2019年1月2-4日的K線圖,可以證明擬合效果良好。表3 2019年1月結(jié)論及未來工作在粒化SVM建模回測過程中沒有考慮手續(xù)費和沖擊成本等因素,僅僅是一個大概的測試結(jié)果,其目的是為了說明使用SVM交易策略建模的思想和過程。本節(jié)提出的模型也可以擴展到小時級別,分鐘級別等其他頻率交易數(shù)據(jù)模型的構(gòu)建。雖然技術(shù)投資分析在我國尚處于發(fā)展起步階段,但2010年以來發(fā)展態(tài)勢快速,未來發(fā)展前景廣闊。近些年來機器學習的大力發(fā)展也為金融技術(shù)投資分析提供了理論基礎(chǔ),也讓技術(shù)投資不失為一種非常高效的金融分析方法。
值得注意的是,雖然技術(shù)投資是一種客觀、高效、無偏的投資方式,但投資者也不能過度依賴,畢竟市場的多變性和有效性都會給技術(shù)投資帶來諸多挑戰(zhàn),因而需要充分發(fā)揮金融工程師的創(chuàng)造力,不斷挖掘創(chuàng)新投資模型。相信隨著大數(shù)據(jù)技術(shù)、人工智能的快速發(fā)展,技術(shù)投資在國內(nèi)會有更好的發(fā)展勢頭。
作者:郜燕群 單位:惠州經(jīng)濟職業(yè)技術(shù)學院