證券行業(yè)數(shù)據(jù)應(yīng)用論文

時間:2022-03-29 04:56:00

導(dǎo)語:證券行業(yè)數(shù)據(jù)應(yīng)用論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

證券行業(yè)數(shù)據(jù)應(yīng)用論文

一、前言

數(shù)據(jù)挖掘(Datamining)或稱為知識發(fā)現(xiàn)已經(jīng)成為許多使用者從浩如煙海般的數(shù)據(jù)中提取有用信息,并贏得競爭勝利的第一號秘密武器。數(shù)據(jù)挖掘是指在對大量的企業(yè)歷史數(shù)據(jù)進(jìn)行探索后,揭示出其中隱藏著的規(guī)律性內(nèi)容,并且由此進(jìn)一步形成模型化的分析方法。通過數(shù)據(jù)挖掘還可以建立起企業(yè)整體或某個業(yè)務(wù)過程局部的不同類型的模型。這些模型不僅可以描述企業(yè)當(dāng)前發(fā)展的現(xiàn)狀和規(guī)律性,而且可以用來預(yù)測當(dāng)條件變化后可能發(fā)生的狀況。這可以為企業(yè)開發(fā)新的產(chǎn)品和服務(wù)、甚至于為企業(yè)機(jī)構(gòu)的重組提供決策支持依據(jù)。

百事通

證券市場存在巨大的風(fēng)險。證券公司應(yīng)該能夠給自己的客戶提供大盤及各股的未來走勢的信息,給客戶的投資、選股提供有價值的參考,盡可能地回避風(fēng)險。更何況,大多數(shù)證券公司本身就是證券的投資者。股票價格的變動受多方面因素的影響,而證券投資分析的方法很多,并且一般分為:技術(shù)分析和基礎(chǔ)分析兩類,可以說在證券行業(yè)的應(yīng)用分析是一門十分龐大、復(fù)雜的研究課題。

在這個方案里,我們使用證券的數(shù)據(jù)和數(shù)據(jù)挖掘產(chǎn)品OpenMiner1.0.1,作為拋磚引玉,分別對客戶關(guān)系管理、技術(shù)分析和基礎(chǔ)分析三個大的應(yīng)用方向給出了數(shù)據(jù)挖掘的例子,更多的內(nèi)容請參考。

二、客戶關(guān)系管理:利用聚類做客戶行為分析

1、目標(biāo)

用客戶交易數(shù)據(jù)統(tǒng)計出每個客戶的交易情況,根據(jù)客戶行為進(jìn)行聚類。通過對客戶數(shù)據(jù)進(jìn)行聚類,將客戶進(jìn)行分群,考察每類客戶的對證券公司的貢獻(xiàn)情況,這樣可以根據(jù)客戶的產(chǎn)生類別的交易行為等其他特點知道該類用戶是否對公司最有價值,并且證券公司根據(jù)客戶行為的特點對貢獻(xiàn)度大的客戶類采取相應(yīng)的政策照顧,并且還能吸引某些行為類似的貢獻(xiàn)度較低類的客戶發(fā)展為較高貢獻(xiàn)的客戶。

2、數(shù)據(jù)解釋

對交易數(shù)據(jù)(變量描述如表1)進(jìn)行數(shù)據(jù)總結(jié),生成客戶股票交易行為數(shù)據(jù)表,變量描述如表2。使用的數(shù)據(jù)包括股民代碼,買賣股票的最大、最小數(shù)量/金額,平均價格,總金額等。

3、步驟

我們使用數(shù)據(jù)挖掘的聚類算法,聚類數(shù)為4,聚類準(zhǔn)則采用Newton。

4、模型結(jié)果

聚類后給數(shù)據(jù)集增加了一個新的類別變量,標(biāo)志客戶所屬的類別。

5、應(yīng)用評估

從表4可以看出第二類客戶買賣的股票種類比較多,交易頻繁,成交金額大,是公司的大用戶,人數(shù)雖少但需要精心對待。第四類交易次數(shù)雖然排名第二與第一相比相差6、7倍,是對公司貢獻(xiàn)率第二大的類別,并且人數(shù)是第二多的,與貢獻(xiàn)最多的類別相比只是交易次數(shù)少,通過提高服務(wù)等內(nèi)容吸引他們多做交易,從而提高公司收益。

第一類買賣股票的平均價格最低,買賣的股票種類比較少,是對公司貢獻(xiàn)率第三大的類別,并且人數(shù)是最多的,是證券公司主要的客戶群,并且由于行為特點與公司貢獻(xiàn)第二大類的用戶比較相近,只是賣的少買的多,通過提高服務(wù)等內(nèi)容吸引他們往公司最有利的行為轉(zhuǎn)變。第三類客戶買賣的股票種類少,但買賣股票平均價格比較高,交易次數(shù)少,看來主要做高價股,需要多提供高價股的信息吸引更多的交易,從當(dāng)前對公司的貢獻(xiàn)程度看是最少的。

此外,如果我們補充對客戶基本信息(如年齡,開戶等)的分析,還可以得出更有效的信息。

三、股市技術(shù)分析:利用時間序列預(yù)測股票價格

1、目標(biāo)

數(shù)據(jù)挖掘是對大量的歷史數(shù)據(jù)進(jìn)行處理和分析,提煉出有價值的信息(表現(xiàn)為規(guī)則、模型等模式信息)。其中的時間序列模型,可以用于股票價格的預(yù)測。

2、數(shù)據(jù)解釋

我們使用的數(shù)據(jù)是東大阿爾派(600718)在半天的變動情況做短線分析,此外又使用從1996年5月-1999年5月的日交易歷史數(shù)據(jù)做做日線分析。數(shù)據(jù)內(nèi)容包括股價的時間和當(dāng)前價格。

3、步驟

數(shù)據(jù)處理:提取中各股的歷史數(shù)據(jù),確定時間序列的窗口長度為8(經(jīng)過多次試用得到效果較好)。在OpenMiner1.0.1中建立工程,流程圖如下:

4、模型結(jié)果

5、應(yīng)用評估

股票日價格預(yù)測的效果比較好,基本反映了實際的變化趨勢。短線價格預(yù)測的效果差一些,原因之一是指標(biāo)值的分布比較集中。另外的原因是由于國內(nèi)股票價格有10%的停板限制,這樣股價變化幅度不是很大,相對比較穩(wěn)定。而我們所采用的模型實際是針對穩(wěn)定模型的,故此效果比較好。對于非穩(wěn)定模型(一般股價變化應(yīng)是這種情況),我們可以手動做差分來解決這個問題,由于這個過程比較需要時間,在這個方案里沒有做實現(xiàn)。

四、股市基本分析:利用決策樹等預(yù)測

1、目標(biāo)

基本分析家假設(shè):任何金融資產(chǎn)的"真實"價值等于這項資產(chǎn)的所有者的所有預(yù)期收益流量的現(xiàn)值。具體地說,分析家不僅需要預(yù)測折現(xiàn)率,而且還必須預(yù)測這種證券的每股平均收益和派息率。證券的真實價值一經(jīng)確定,就可以用來與這種證券的市場價格進(jìn)行比較,從而鑒別這種證券的定價是否恰當(dāng)。

并在真實價值低于市場當(dāng)前價格,那么該證券是被價值高估了,應(yīng)該賣出;如果證券的真實價值高于市場當(dāng)前價格,那么該證券是被價值高估了,應(yīng)該買進(jìn)。具體的分析策略包括宏觀經(jīng)濟(jì)信息、產(chǎn)業(yè)分析與區(qū)域分析和公司分析幾類。

從上面可以知道,宏觀經(jīng)濟(jì)信息、產(chǎn)業(yè)、地區(qū)和公司的基本信息對股票價格有關(guān)系的。在我們的方案里,我們使用數(shù)據(jù)挖掘的辦法來描述這種數(shù)據(jù)間隱藏的規(guī)律,根據(jù)證券的發(fā)行特征尋找它與實際價格的基本規(guī)律,并且我們根據(jù)這個規(guī)律對未知真實價格的股票(新發(fā)行的股票)進(jìn)行預(yù)測。

2、數(shù)據(jù)解釋

從統(tǒng)計的觀點來看,股票的真實價值可以用價格的平均值來估計。在這個模型里,由于數(shù)據(jù)的問題,股票的實際價格的平均值不能得到,我們采用某一天的股票的開盤價作為估計值,這樣的估計值雖然比股票年平均值差,但也是一種可以使用的估計值。

3、步驟

這個方案里我們使用數(shù)據(jù)挖掘的決策樹算法。

4、模型結(jié)果

是決策樹的訓(xùn)練集分類結(jié)果信息。表的首列表示實際值,冒號之前的表示類別號,冒號之后表示取值的范圍;因為其中股價從44到47.667沒有數(shù)據(jù),因此沒有類別號為13的類,這樣共13個區(qū)間。表的首行表示預(yù)測值,其取值范圍與實際值是相同的。表內(nèi)的值表示預(yù)測的數(shù)目,注意對角線的值是預(yù)測正確的值的數(shù)目。

從結(jié)果看,對角線上的值是同列最大的,但是最低的正確率才是39%;而如果加上臨近一行的值,那最低正確率就可以到79%,這點從列的角度來看也是相同的。這可以表示為訓(xùn)練模型是有規(guī)律的,但是分類的情況不是很好,或者說如果我們調(diào)整分類的方法,精度是可以提高的;而且預(yù)測的誤差范圍是4元的話,就可以把最低正確率提高到79%。而股價超過30的精度就很差了,這是由于所謂的高科技股,而我們的數(shù)據(jù)沒有這部分內(nèi)容就無能為力了。

是決策樹的征實集分類結(jié)果信息,結(jié)構(gòu)同表8。從結(jié)果看,最明顯的是效果不如訓(xùn)練集,而股價超過20的精度就很差了,這同樣是因為而我們的數(shù)據(jù)沒有包含行業(yè)和地域信息。如果只考慮股價低于20的,訓(xùn)練集的特點完全保留。

5、應(yīng)用評估

由于數(shù)據(jù)的問題,我們不能得到可用的行業(yè)、地域信息(或者是綜合而成的板塊信息),這對算法的精度造成較大的影響。但是我們也可以利用股價及股價的變化情況使用聚類算法產(chǎn)生新的板快信息標(biāo)識,而用這個標(biāo)識可以較好的提高算法的精度。此外,我們可以改變一下離散化的方法,也會比較大的提高算法精度。

五、結(jié)束語

我們所用的方案只是代表幾類模型,這些辦法可以應(yīng)用到類似地多種股票價格預(yù)測情況。例如,對預(yù)測新股上市我們還可以增加開盤大盤的指數(shù),然后預(yù)測新股上市一周后的價格。從這些數(shù)據(jù)挖掘模型的結(jié)果分析來看,的確是有規(guī)律、有價值、有實際意義的。以上的方案都是在OpenMiner的基礎(chǔ)上實現(xiàn)的,東軟集團(tuán)中間件技術(shù)分公司還可以提供更進(jìn)一步的方案。