SVM信息融合創新研究思考
時間:2022-10-25 07:44:00
導語:SVM信息融合創新研究思考一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
摘要:利用svm對大規模數據進行訓練時,需要占用很大的內存空間,甚至會因內存不夠而無法訓練。為此,提出了將大規模數據分塊求解,然后將分塊求解的結果進行信息融合的新方法。首先訓練得到各模塊的支持向量,將所有支持向量進行融合,得到決策模型和一組支持向量。當有新的數據加入時,將其作為一個子模塊,訓練得到該模塊的支持向量,與原模型中獲得的支持向量進行融合,訓練得到新的決策模型。利用KDDCUP99數據進行實驗,結果表明該方法的測試精度與在所有數據集上訓練的精度相當,花費時間少,適用于增量學習。
關鍵詞:支持向量機;信息融合;增量學習
SVM[1,2]是最近發展起來的一種分類方法。它基于統計學習理論,根據結構風險最小化原則,在經驗風險和模型的復雜度之間折中,有較強的泛化能力,且具有全局最優、與維數無關等特性。當數據線性不可分時,通過核函數,將數據映射到高維特征空間,使得數據線性可分。它本質上是一個凸二次規劃問題,當訓練規模很大時,求解此最優化問題要占用很大的內存空間,會因內存空間不夠而導致無法訓練。解決此類問題的有效方法是將大規模數據進行分塊,然后將各模塊的信息進行融合,從而得到最終結果。
信息融合[3]又稱數據融合,是利用計算機技術對獲得的若干節點的觀測信息在一定準則下加以自動分析、綜合以完成所需的決策和估計任務而進行的信息處理過程。文獻[4]提出了用神經網絡的方法來實現信息融合,在預測精度上獲得較好的效果。SVM是繼神經網絡后,分類性能較好的一種技術。它在信息融合領域也逐漸得到應用,文獻[5~7]提出了多種基于SVM的信息融合方法,用各模塊訓練得到的模型對測試集進行判別,然后融合各模型的判別結果。但這些方法不適合增量學習。當有新的數據源加入時,融合模塊需重新執行。
決策輸出融合方法和投票數融合方法用各模塊訓練得到的分類器對測試集進行判別,再根據判別結果進行融合,分類精度上不如后兩種方法,所花費的時間也較多。而且這兩種方法在增量學習中要對信息融合模塊重新處理,不能有效利用已有的信息。
對支持向量直接融合的方法在精度、漏報率和誤報率上均與在所有數據集上得到的結果相接近。說明在分類中起作用的只是其中占少數的支持向量,如表3所示。每個模塊得到的支持向量是很少的,大約占0.6%。所以信息融合模塊的規模相對較小,花費時間少。本文提出的方法預測精度甚至超過了對所有支持向量融合的結果,與在所有數據集上得到的結果最接近。說明本文方法在增量式學習中是有效的,具有較好的泛化能力。
4結束語
隨著網絡和數據庫技術的發展,對大規模數據處理的要求會越來越高。本文在研究了現有的基于SVM的信息融合方法的基礎上,提出了一種新的基于SVM融合的模型。通過實驗表明,這種方法在入侵檢測問題中得到了較高的分類精度,與在所有數據或所有支持向量上預測得到的精度相當,而且與其他信息融合方法相比,能利用已經融合的信息,進行增量式學習。但如何使數據分解后仍保證它的全局最優及如何推廣到分布式應用仍有待解決。
參考文獻:
[1]VAPIKV.統計學習理論的本質[M].張學工,譯.北京:清華大學出版社,2000.
[2]BURGESCJC.Atutorialonsupportvectormachinesforpatternrecognition[J].DataMiningandKnowledgeDiscovery,1998,2(2):121-167.
[3]HALLDL,LLINASJ.Anintroductiontomultisensordatafusion[J].ProceedingsofIEEE,1997,85(1):6-23.
[4]WANGMei,HOUYuanbin.Neuralnetworkmodelbasedonanti-errordatafusion[C]//Procofthe4thInternationalConferenceonMachineLearningandCybernetics.[S.l.]:IEEEPress,2005:18-21.
[5]YANWeiwu,SHAOHuihe,WANGXiaofan.Paralleldecisionmodelsbasedonsupportvectormachinesandtheirapplicationtodistributedfaultdiagnosis[C]//ProcofAmericanControlConference.Denver:[s.n.],2003:1770-1775.
[6]ZHAOShuhe.Remotesensingdatafusionusingsupportvectormachine[C]//Procof2004GeoscienceandRemoteSensingSymposium.Anchorage:[s.n.],2004:2575-2578.
[7]HUZhonghui,CAIYunze,LIYuangui,etal.Datafusionforfaultdiagnosisusingmulticlasssupportvectormachines[J].JournalofZhejiangUniversityScience,2005,6A(10):1030-1039.
[8]PLATTJC.Fasttrainingofsupportvectormachinesusingsequentialminimaloptimization[C]//ProcofAdvancesinKernelMethods:SupportVectorLearning.Cambridge:MITPress,1999:185-208.
[9]HSUCW,LINCJ.Acomparisonofmethodsformulticlasssupportvectormachines[J].IEEETransactionsonNeuralNetworks,2002,46(13):415-425.
[10][DB/OL].[2006].kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
[11]CHANGCC,LINCJ.LIBSVM:alibraryforsupportvectormachines[EB/OL].[2006].www.csie.ntu.edu.tw/~cjlin/libsvm/.
- 上一篇:網上并聯審批業務流程思考
- 下一篇:混合決策樹調度獲取研究思考