聚類分析論文范文

時間:2023-04-12 04:50:36

導語:如何才能寫好一篇聚類分析論文,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

聚類分析論文

篇1

對于股票投資來說,一定要關注股票上市公司的基本盈利狀況以及該公司未來的發展狀況。在投資時,這兩大因素必須進行思考衡量,因為這兩大因素是衡量一個上市公司有沒有投資價值最基本的條件。因此,要在投資前計算出該股票每股的收益、該公司凈資產收益率以及主營收入增長率。

1.盈利能力指標??傎Y產利潤率=凈利潤/平均資產總額,這體現出公司整體的獲利能力。凈資產利潤率=凈利潤/平均凈資產,這個關系可以直接體現出股東投資的回報。主營業務收益率=主營業務利潤/主營業務收入,主營業務是上市公司利潤的來源,主營業務的收益越大,公司在市場中的競爭優勢就越明顯。每股收益=凈利潤/期末總股本,每股的收益越高,反應出每股獲利的能力越強。

2.成長能力指標。主營業務收益增長率=本期主營業務收入/上期主營業務收入-1,這體現出上市公司重點項目的成長力。凈資產利潤率=本期凈利潤/上期凈利潤-1,上市公司給員工的薪酬都是根據凈利潤決定的。

二、聚類分析的投資方法應用實例

聚類分析方法隸屬多元統計分析方法之中,與多元統計分析法和回歸分析法并稱為三大應用方法。聚類分析法一定要建立在某個優化意義基礎之上,如果將聚類分析方和常規的分析法相比較的話,會發現聚類分析法有很大的優勢,第一是使用聚類分析法可以對數據中的多個變量進行樣本分析,然后將其分類整理;第二是通過使用聚類分析法所得出的數據非常直觀明了,通過觀察聚類譜系圖投資者就能夠清楚地分析出數據顯示的結果;第三是如果將聚類統計法所得出來的數據結果與普通方法計算出來的結果進行對比,不難發現聚類分析法的對比結果更加細致、科學、全面,接下來通過兩個應用的實例進行說明。

1.原始數據標準化。為了解決原始數據量綱和數量級差異帶來的影響,更好的對聚類分析和判別進行分析,可以采用指標標準化的處理方法。

2.逆指標正向化處理。流通股本是逆指標,對其絕對值取倒數可以得出。

三、將聚類分析法應用到金融投資上的意義

將聚類分析法應用于金融投資上,不但可以顯示出有效、科學、全面的數據更能幫助彌補金融投資投資時所出現的不足。

第一,聚類分析法建立在基礎分析之上,對投資股票從一些基本層面進行量化分析,進而對股票價格影響因素定性進行補充并完善了原有的基礎分析。聚類分析法作為長期的理性投資參考依據,是為了發掘股票投資的真實價值,避免由于市場過熱導致資產估值不公允。

第二,在建立投資評價模型的時候,可以運用聚類分析法對公司和股票投資價值之間的聯系進行分析。公司的成長是一個在哥登模型中,在一個變化的趨勢內進行。不變的股息增長率對實際情況并不符合,在采用多階增長模型的時候,想要得到不同階段的股息增長率是很困難的。所以,對股票的成長進行分析得時候,可以選取凈利潤率等客觀的數據做參考,這樣可以估算出股票的發展潛力。

第三,通過對聚類分析法和現資組合理論的比較可以得出,聚類分析法比現資組合理論更具有直觀性和實用性,并且在實際生活中的局限小。該方法主要著眼于實際數據的相似性和其延生的規律性,較投資學中一些以預測和假定前提較多的模型而言更具有現實意義,也更加貼近當前市場情況的現實。另外,聚類分析法的操作性強,在實際應用過程中有一定的優越性,更加適合投資者使用。

第四,聚類分析法作為長期投資的理念,隨著我國金融行業的不斷發展,逐漸被更多的投資人采用。理性的運用聚類分析法這種投資方法,不但可以使投資者的投資風險降到最低,還可以規范其他投行的投資行為,促使發行股票的企業可以本著經營業績和長期的成長模式進行投資,在一定程度上可以有效規避道德風險和投機行為,保證金融市場的穩定性和規范性,保護散戶和弱勢群體的經濟利益,進而繁榮整個股票、證劵市場,使我國的經濟更繁榮。

四、結論

篇2

關鍵詞:聚類分析算法 應用研究 算法描述

中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2016)10-0143-01

聚類分析(Cluster Analysis)就是將一組物理事物或抽象對象按照某種聚類規則或檢驗度量函數標準劃分不同聚集組別的過程,其中被劃分的若干相對獨立的組為一個類,是一種無監督的學習方法。聚類分析方法是數據挖掘技術中的數據分析普遍運用方法之一,其功能最終實現被研究數據按照相關聚類分析算法進行聚類,對聚類的事物對象,最終要達到相似度大的對象在同一個聚類群組中,相似度小的對象在不同的聚類群組中,從而歸納出聚類數據對象的特征性。聚類分析中的“類(Cluster)”就是一組相似度較高的數據集合。聚類分析能夠將一組事物或數據按照聚類算法規則進行聚類處理,根據聚類算法規則的不同而實現各自側重的聚類分析結果。

1 聚類分析算法

根據聚類對象數據類型的不同,聚類分析分為R型聚類和Q型聚類,R型聚類是對變量型數據的聚類分析,Q型聚類是對具體觀測值數據的聚類分析。對數據對象的聚類分析要借助于聚類分析算法來實現完成,聚類分析算法的基本定義為:

目標數據集合,對于數據集合中的任一數據元素,具有個特征屬性,任一數據元素的屬性特征向量集表示為。通過特定的數據分析處理準則對目標數據集進行聚類處理后,目標數據集被劃分成具有個子集的數據類集合,,聚類結果數據集必須滿足:

根據聚類分析所采取分析方法的不同,聚類分析算法分為基于劃分的聚類分析算法、基于層次的聚類分析算法、基于密度的聚類分析算法、基于網格的聚類分析算法、基于模型的聚類分析算法。

2 K―means聚類分析算法描述

對于給定包含個數據對象的數據集,按照標準偏移量的目標函數進行劃分,形成K個聚類。具體操作過程為:

第一步:數據規范化處理。對數據對象進行規范化預處理,消除非法值及極值影響。

第二步:數據準備。計算各科標準差:

第三步:計算各初始聚類中心。

第四步:計算與聚類中心最近鄰的數據對象,并合并成新類。

第五步:重新計算聚類中心值。

第六步:驗證聚類收斂性。

if 聚類中心值o新變化

結束聚類 else 轉入第四步 endif

第七步:進行各個類數據分析。

3 結語

總之,聚類分析算法是數據挖掘中一種常用算法,在數據挖掘過程中有很多算法,每種算法都有自己的優缺點,數據挖掘是一項極其復雜過程,一般情況我們都是多種算法結合起來一起應用,目的提高工作效率,提高數據挖掘的準確性,數據挖掘技術在我國應用領域比較廣,并且取得一定成績,在當今大數據時代,研究數據挖掘具有一定的現實意義,具有深遠的研究價值。

參考文獻

[1]吳多智.基于語義的手機類產品用戶評論維度挖掘研究[J].安徽電子信息職業技術學院學報,2016(03).

[2]孫永輝.聚類分析在學生成績分析中的應用[J].中國管理信息化,2016(06).

[3]巨曉璇,鄒小斌,屈直,劉春敏.層次聚類算法在氣象客戶細分中的應用[J].河南科技,2015(11).

[4]許進文.數據挖掘中聚類分析算法及應用研究[J].計算機光盤軟件與應用,2013(06).

篇3

【關鍵詞】高壓;聚類分析;特點;研究

1.引言

高壓電纜是電力系統中重要的設備,由于其適合于地下走線方式在城市電網中得到了大量的應用,節約了大量的空間資源,然而由于地下潮濕等因素以及布線過程中人為的損壞都可能造成電纜絕緣層的損壞,在運行電壓的長期作用下,可能造成局部放電的發生,如果得不到及時的處理,最終會導致電纜短路,從而引發停電事故,造成經濟損失,所以,對電纜進行局部放電檢測是必要的,基于此,文章分析了電纜局部放電的特點,然后根據聚類分析對放電進行了分析。

2.電纜局部放電信號傳播特性仿真

在對電纜進行局部放電檢測之前,需要對影響其局部放電信號傳播特性的參數進行分析。為了得到其原理,我們假設其長度很長,同時由于電纜局部放電信號含有豐富的信息[7],其波長與線路長度相比非常短,因此在研究局部放電信號傳播規律時,需要利用電纜的分布參數模型來分析[8],圖1所示為電纜的分布簡化模型。

圖1 電力電纜的分布參數模型

圖1中,R0、L0、C0、G0分別為電纜單位長度的電阻、電感、對地電容和對地電導,上這些基本參數決定了電纜中的相應特性[9-11]。結合上圖,可以得到一個新的二次參數特性阻抗Zc,Zc表示均勻傳輸線上任一點的電壓和電流之間的關系。

(1)

可見,這個公式就決定了相應的參數之間的關系。由于阻抗是一個復數,電壓和電流的絕對值之比決定了其相對值;電壓和電流的相位差決定了其幅值的大小,這個參數就可以反映出相應的特性參數。Zc重新表述為:

(2)

那么,|Zc|和就是其中所含有的信息。Zc反映了電纜上一點的特性[12]。對于脈沖信號來說,可以用傳輸常數來描述。在傳輸常數中,包含兩個常數:固有衰耗常數和固有相移常數。固有衰耗常數反映了處于匹配連接的線路上[13],能量損耗方面的傳輸規律,固有相移常數則反映了信號傳播過程中相位的變化。因此線路的傳輸規律可用式(3)表示,其中l是電纜的長度。

(3)

根據上述的分析,我們得到了如下的結論:

(1)由電纜的一次參數所決定,越大,就說明了信號的衰減會越大。

(2)小于1,那么,局部放電信號將會呈指數規律衰減,并且其衰減程度取決于電纜的長度,線路越長,衰減情況越嚴重。

式(3)中的反映的則是信號傳輸的相移,它影響的是局部放電信號的相位,并且隨著信號頻率的升高,、均隨之增大。經過上述分析,可以看出:電纜長度越長,局部放電信號在傳播過程中的衰減越嚴重。局放信號的頻率越高,則與之對應的、也越大,即信號的幅度衰減及相位移動也越嚴重。

3.聚類分析

聚類是根據放電的性質不同,將具有相同性質的特征量進行聚合的算法。由于其具有直觀的特點在許多領域得到大量的使用?;诰垲惙治龅墓ぞ咭呀洷患尤氲皆S多統計分析軟件包或系統中,如S-Plus、SPSS,以及SAS??傮w說來,包括如下幾個方面的內容:

(1)分化方法。假設一個數據集含有n個對象或數據行,相應的分化就是將數據集劃分為k個子集(劃分)。其中每個子集均代表一個聚類(k[n])。

(2)層次方法。該方法就是通過分解所給定的數據對象集來創建一個層次。它存在的缺陷就是在進行(組)分解或合并之后無法回溯。將循環再定位與層次方法結合起來使用常常是有效的,如BIRCH和CURE,就是基于這種組合方法設計的。

(3)基于密度的方法。只要臨近區域的密度(對象或數據點的數目)超過某個閾值,就繼續聚類。DBSCAN是一個有代表性的基于密度的方法。它根據一個密度閾值來控制簇的增長。

(4)基于網格的方法。基于網格方法將對象空間劃分為有限數目的單元以形成網格結構。其主要優點是它的處理速度很快,其處理時間獨立于數據對象的數目,只與量化空間中每一維的單元數目有關。STING就是一個典型的基于網格的方法。

(5)基于模型的方法。該方法就是為每個聚類假設一個模型,然后再去發現符合相應模型的數據對象。它根據標準統計方法并考慮到噪聲或異常數據,可以自動確定聚類個數;因而它可以產生很魯棒的聚類方法。數據挖掘在不同領域對聚類算法提出了各自特殊的要求。

定義:數據對象i與j的相異度為。其中,dijk2是第k個值距離的平方,對每個變量根據其重要性賦予一個權重,運用加權的歐幾里得距它決定第k個值的重要性。根據局部放電的特點,可以得到相應的聚類效果。聚類分析也可以進行孤立點的分析。經常存在一些數據對象,它們不符合數據的一般模型,這些數據對象被稱為孤立點。

結合實地的電纜局部放電特性,根據聚類方法,得到了如下的結果:

表1 最終的判斷結果

故障類型 訓練樣本 測試樣本 正確率(%)

1 50 100 81.13

82.31

83.61

84.15

2 50 100

3 50 100

4 50 100

圖2 電纜局部放電聚類分析流程圖

圖3 聚類分析結果

4.結論

電纜是電力系統中重要的電氣設施,文章根據電纜局部放電的相關特點,結合聚類分析法對其放電進行了分析,取得了一定的成果,對現場具有一定的指導意義。

參考文獻

[1]談克雄,呂喬青.交聯聚乙烯電纜絕緣的在線診斷技術[J].高電壓技術,1993,19(3):71-75.

[2]馬麗嬋,鄭曉泉,謝安生.交聯聚乙烯電纜中電樹枝的研究現狀[J].絕緣材料,2007,40(5):49-52.

[3]Yang J J,Brilasekaran S.Characteristic features of electrical treeing in XLPE and PE[C].The 7th International Power Engineering Conference,IPEC,2005:1-34.

[4]Yang J J,Zhang D M.Partial discharge phenomena due to electrical treeing in XLPE[C].1st IEEE Conference on Industrial Electronics and Applications,2006:1-6.

[5]李偉新.交聯聚乙烯電纜在線監測系統在廈門的應用[J].福建電力電工,2001,21(2):49-51.

[6]韋斌.110kV高壓XLPE電纜附件局部放電在線監測與故障特性的研究[D].北京:華北電力大學碩士學位論文,2004.

[7]劉兵.基于行波電力電纜故障單端在線測距研究[D].武漢:武漢大學碩士學位論文,2002.

[8]楊建國.小波分析及其工程應用[M].北京:機械工業出版社,2005.

[9]張國華,張文娟.小波分析與應用基礎[M].西安:西北工業大學出版社,2006.

[10]劉貴忠,邸雙亮.小波分析及其應用[M].西安:西安電子科技大學出版社,1992.

[11]黃子俊,陳允平.基于小波變換模極大值的輸電線路單端故障定位[J].電力自動化設備,2005,25(2):101-102.

[12]華欣.電氣設備絕緣在線監測芻議[J].四川電力技術,2001,2:49-52.

篇4

一、論文的研究內容

論文的研究內容包括兩個方面:一是研究新的高效的聚類算法;一是把已有的聚類算法或論文提出的新算法和入侵檢測技術相結合,從而提出一個好的入侵檢測模型。具體的研究內容包括以下幾個點:

第一、針對聚類算法的研究問題:

1、如何提高算法的可擴展性

許多聚類算法在小于200個數據對象的小數據集上是高效率的,但是無法處理一個大規模數據庫里的海量對象。現有的聚類算法只有極少數適合處理大數據集,而且只能處理數值型數據對象,無法分析具有類屬性的數據對象。

2、如何處理離群點

在實際應用中,估計數據集中的離群點可能是非常困難的,很多算法通常丟棄增長緩慢的簇,這樣的簇趨向于代表離群點。然而在某些應用中,用戶可能對相對較小的簇比較感興趣,比如入侵檢測中,這些小的簇可能代表異常行為,那么我們需要考慮在對算法影響更小的前提下,如何更好的處理這些離群點。

3、研究適合具有類屬性數據的聚類算法的有效性

對聚類分析而言,有效性問題通常可以轉換為最佳類別數K的決策。而目前有關聚類算法的有效性分析,大都集中在對數值數據的聚類方式分析上。對于具有類屬性的數據聚類,還沒有行之有效的分析方法。

第二、針對聚類算法在IDS應用中的研究問題:

1、如何結合聚類技術和入侵檢測技術取得更好的效果

很多的聚類算法都已經和IDS應用環境結合起來了,很多研究者對前人提出的算法作出改進后,應用到IDS系統中去,或者提出一個全新的算法來適應IDS的要求。隨著聚類技術的不斷發展,聚類技術在入侵檢測中的應用將是一個很有前景的工作。我們需要把更好的聚類技術成果應用到入侵檢測中。

2、利用聚類技術處理入侵檢測中的頻繁誤警

雖然入侵檢測是重要的安全措施,然而它常常觸發大量的誤警,使得安全管理員不堪重負,事實上,大量的誤警是重復發生并且頻繁發生的,可以利用聚類技術來尋找導致IDS產生大量誤警的本質原因。

二、學位論文研究依據

學位論文的選題依據和研究意義,以及國內外研究現狀和發展趨勢

聚類分析研究已經有很長的歷史,其重要性及其與其他研究方向的交叉特性已經得到了研究者的充分肯定。對聚類算法的研究必將推動相關學科向前發展。另外,聚類技術已經活躍在廣泛的應用領域。作為與信息安全專業的交叉學科,近年來,聚類算法在入侵檢測方面也得到大量的應用。然而,聚類算法雖取得了長足的發展,但仍有一些未解決的問題。同時,聚類算法在某些應用領域還沒有充分的發揮作用,聚類技術和入侵檢測技術結合得還不夠完善。在這種背景下,我們認為,論文的選題是非常有意義的。

本論文研究的內容主要包括兩個方面:聚類算法的研究以及聚類算法在入侵檢測中的應用。下面從兩個方面闡述國內外這兩個方面的發展現狀和趨勢:

前人已經提出很多聚類算法,然而沒有任何一種聚類算法可以普遍適用于揭示各種多維數據集所呈現出來的多種多樣的結構,根據數據在聚類中的積聚規則以及應用這些規則的方法,可以將聚類算法分為以下幾種:

1.劃分聚類算法

劃分聚類算法需要預先指定聚類數目或聚類中心,通過反復迭代運算,逐步降低目標函數的誤差值,當目標函數收斂時,得到最終的聚類結果,劃分聚類算法典型代表是k-means算法[1]和k-modoids算法。這些算法處理過程簡單,運行效率好,但是存在對聚類數目的依賴性和退化性。迄今為止,許多聚類任務都選擇這兩個經典算法,針對k-means及k-modoids的固有弱點,也出現了的不少改進版本。

2.層次聚類算法

又稱樹聚類算法,它使用數據的聯接規則,透過一種層次的架構方式,反復將數據進行分裂和聚合,以形成一個層次序列的聚類問題解。由于層次聚類算法的計算復雜性比較高,所以適合于小型數據集的聚類。20xx年,Gelbard等人有提出一種新的層次聚合算法,稱為正二進制方法。該方法把待分類數據以正的二進制形式存儲在二維矩陣中,他們認為,將原始數據轉換成正二進制會改善聚類結果的正確率和聚類的魯棒性,對于層次聚類算法尤其如此。Kumar等人[9]面向連續數據提出一種新的基于不可分辨粗聚合的層次聚類算法,既考慮了項的出現次序又考慮了集合內容,該算法能有效挖掘連續數據,并刻畫類簇的主要特性。

3.基于密度-網格的聚類算法

與傳統的聚類方法不同:基于密度的聚類算法,通過數據密度來發現任意形狀的類簇;基于網格的聚類算法,使用一個網格結構,圍繞模式組織由矩形塊劃分的值空間,基于塊的分布信息實現模式聚類,基于網格的聚類算法常常與其他方法相結合,特別是與基于密度的聚類方法相結合。基于網格和密度的聚類方法在以空間信息處理為代表的眾多領域有著廣泛的應用。特別是伴隨著近來處理大規模數據集、可伸縮的聚類方法的開發,它在空間數據挖掘研究子域日趨活躍。

開題報告研究方法大全

實證研究法

實證研究法是科學實踐研究的一種特殊形式。其依據現有的科學理論和實踐的需要,提出設計,利用科學儀器和設備,在自然條件下,通過有目的有步驟地操縱,根據觀察、記錄、測定與此相伴隨的現象的變化來確定條件與現象之間的因果關系的活動。主要目的在于說明各種自變量與某一個因變量的關系。

定量分析法

在科學研究中,通過定量分析法可以使人們對研究對象的認識進一步精確化,以便更加科學地揭示規律,把握本質,理清關系,預測事物的發展趨勢。

定性分析法

定性分析法就是對研究對象進行質的方面的分析。具體地說是運用歸納和演繹、分析與綜合以及抽象與概括等方法,對獲得的各種材料進行思維加工,從而能去粗取精、去偽存真、由此及彼、由表及里,達到認識事物本質、揭示內在規律。

篇5

關鍵詞:縣域競爭力 聚類分析 預測

聚類分析(Cluster Analysis)又稱群分析,是根據“物以類聚”的道理,對樣品或指標進行分類的一種多元統計分析方法。根據分類對象的不同,聚類分析可以分為樣本聚類和變量聚類。樣本聚類又稱為Q型聚類,是根據反映被觀測的對象各種特征的多變量進行聚類;變量聚類又稱為R型聚類,根據所研究問題選擇部分變量對問題某一方面進行分類。在縣域經濟競爭力的分析當中適當應用聚類分析,有助于各縣級單位互相借鑒互相學習。

一、國內外研究綜述

競爭力研究最早起源于西方國家,國外比較有影響力的經濟競爭力評價體系有 IMD的國際競爭力評價體系、WEF競爭力評價體系和波特的區域競爭力模型,這些已取得的成果都可以為研究者借鑒。在文獻梳理過程中發現,專門針對縣域經濟綜合競爭力聚類分析與預測研究的文獻較少[1-8],因此本研究綜合國內外學者的研究成果,結合山東省經濟現狀,在構建的指標體系框架和分析預測理論基礎上,對山東省2009、2010兩年的縣域經濟綜合競爭力進行排名,評價和預測分析。受數據所限,2006―2010年的數據長度中2006―2008年縣域經濟綜合競爭力排名不包括科技競爭力,2009―2010年縣域經濟綜合競爭力排名涵蓋經濟實力、社會發展、資源環境、科學技術和政府競爭力,因此主要對2009―2010年的縣域經濟綜合競爭力進行分析,同樣由于科技競爭力數據長度不足,預測部分將分別預測各類一級指標競爭力。

二、縣域競爭力指標體系構建

綜合國內外相關研究成果,使用層次分析法(AHP)從經濟實力競爭力、社會發展競爭力、資源承載力和政府能動力四個角度出發,構建縣域經濟綜合競爭力三級指標體系,其中經濟實力競爭力從GDP、財政收入、對外依存度、產業結構等角度反映縣域經濟基本發展能力;社會發展競爭力從科教文衛,以及居民收入方面反映縣域社會發展建設水平;資源承載力表示縣域經濟發展密度,包括人口密度和GDP密度兩個三級指標;政府能動力指標反映縣級政府充分運用縣內外資源,主動且有效地調控經濟運行的能力。具體指標體系略。

三、2010年縣域競爭力聚類分析

應用SPSS15.0軟件,對山東省92個縣域5個一級指標得分與各自權重乘積作為聚類變量進行Q型聚類分析,進行了聚類分析,表1給出了2009年的總體聚類結果。使用最遠距離法,選擇歐氏距離作為分類,將山東省92個縣市劃分成6種類型,聚類分析的ANOVA數據顯示,將山東省92個縣域分為6大類在統計學上是科學的,是有意義的。第Ⅰ類包括文登市、龍口市、榮成市等11個縣市,這類地區是省縣域經濟的領跑者,綜合競爭力較強,一級指標均明顯高于全省平均水平,其中經濟實力、社會發展和科學技術競爭力在所有縣域中具有明顯優勢,資源環境和政府分別略低于第Ⅲ類和第Ⅴ類縣域。第Ⅱ類包括諸城市、膠南市、青州市、平度市等14個縣市地區,綜合競爭力較好,經濟實力、社會發展、科學技術和政府競爭力均高于全國平均水平,但資源環境較弱,低于全省平均水平。第Ⅲ類包括即墨市、桓臺縣、廣饒縣等9個縣市,這些地區資源環境競爭力高于其他5類地區,社會發展也處于領先水平,但經濟實力、科學技術和政府都低于全省平均水平。第Ⅳ類型包括寧陽縣,長清縣,平陰縣等24個縣市,這些地區資源環境和科學技術高于全省平均水平,但與領先縣域仍存在較大差距,經濟實力等均處于較為落后的水平。第Ⅴ類型包括高密市,巨野縣,曹縣等9個縣市,這些縣市政府競爭力優于其他5種類型,資源環境競爭力也高于全省平均水平,但科學技術競爭力在所有類型中處于最低水平。第Ⅵ類有墾利縣,齊河縣,臨朐縣等26個縣市,經濟基礎較差,指標均低于全國平均水平。

四、競爭力預測分析

由于各地區資源環境競爭力和科學技術競爭力數據時間跨度不足,無法進行預測,因此本部分將對經濟實力競爭力、社會發展競爭力和政府競爭力進行分項預測。使用指數平滑方法中的Holt模型進行預測,對于該預測方法的實際預測效果使用2010年數據進行誤差檢驗。這里使用2000―2009年的經濟實力競爭力數據預測2010年經濟實力競爭力數據,并進行排名,與2010年的實際結果進行對比(表2),以進行驗證。由名次對比可知,排名前30名總體保持一致。其中有6個縣的預測結果與實際結果完全一致;前30名內有21個指標預測排名與實際排名相差2個名次之內;前30名僅有1個縣的排名預測排名與實際排名大于10個名次。對比各個單項指標也可以得到類似的結論。可以說從排名上來看,我們對于2010年的預測排名與實際排名的基本上是相符合的。

五、結論與展望

從本研究結果可以看出,各縣域若想提高本地經濟綜合競爭力,需要在經濟、社會發展、資源發展和政府能動方面齊頭并進。在推動當地經濟發展過程中, 將提高當地居民收入水平、 優化產業結構、 增加政府財政收入和加強對外開放作為提高地區綜合競爭力的重要手段; 政府能動力代表地方政府調控當地宏觀經濟的能力,這要求各地區增加財政支出在占GDP的比重;而與社會公共服務能力指標相對應,政府在增加財政支出占比的同時,政府需要增加教育和衛生支出以強化當地社會發展競爭力。

參考文獻:

[1]范壽波. “長三角”縣域經濟競爭力的研究[J].江南論壇,2005(1):16―18

[2]王賢海. 安徽縣域經濟競爭力評價[J]. 統計與決策,2006(10):68―73

[3]黃源湘,魏峰. 安徽縣域經濟綜合競爭力研究[J]. 安徽農學通報,2008(1):47―50

[4]薄錫年. 河北省縣域經濟綜合競爭力研究[D]. 河北農業大學博士學位論文,2007:2―4

[5]羅哲,李樹基. 甘肅省縣域經濟競爭力的實證分析與對策研究[J]. 開發研究,2007(6):72―76

[6]周春蕾,駱建艷. 縣域綜合競爭力評價指標體系研究[J]. 消費導刊,2008(24):69―71

[7]劉定青. 關于建立縣域科學發展指標體系的調查與思考[J]. 中國鄉村建設,2009(04):81―87

[8]孔凡萍,于俊鳳. 縣域經濟科學發展評價指標選擇探析[J]. 科學與管理,2011(1):34―37

[9]丁華,楊曉麗. 山東省縣域經濟綜合競爭力變動成因研究――以2006―2010年山東省部分縣域為例[J]. 科技進步與對策,2012(增)

篇6

關鍵詞:模糊聚類,追蹤法,行業污染

 

1 引言

傳統的聚類分析是一種硬劃分,每個對象都只能歸于一類,而現實的分類問題往往伴隨著模糊性,即每個對象屬于某一類是程度問題。這時候單純的嚴密的理論推導和數學計算往往達不到很好的效果,相反,模糊邏輯在這方面具有極大的優勢【1】,隨著模糊數學的不斷發展,聚類的算法也在不斷的更新和發展.新產生的聚類算法更加適用于生產生活,并且和計算機技術的結合也更加緊密,追蹤法就是這樣的一種算法。和傳統的聚類方法相比較,追蹤法在建立模糊矩陣后,不需要計算等價閉包,也不需要畫圖或者編程求解模糊矩陣的最大生成樹和編網,只需要對模糊矩陣進行算法復雜度為O(n2)的數據分析,就可以得出聚類結果。

2 模糊聚類新算法---追蹤法的計算步驟

用追蹤法進行模糊聚類分析主要可以分為:數據標準化、標定(建立模糊矩陣)、模糊聚類三個部分。

2.1 數據標準化

這里所說的數據標準化,就是根據模糊數學相關理論,去掉數據中的量綱,并將數據壓縮到區間[0,1]上。

設論域為被分類的對象,每個對象可以使用m個指標表示其性狀:于是得到原始數據為:

在實際問題中,不同的數據由于其量綱不同,無法進行比較。為了使有不同量綱的量也能進行比較,通常需要對數據作適當的變換。一般采用平移標準差變化法來解決這個問題,計算公式如下:

=

經過變換后,變量的均值為0,標準差為1,且消除了量綱的影響。

2.2 標定(建立模糊矩陣)

設論域依照傳統聚類方法確定相似系數,建立模糊相似矩陣,與的相似程度,確定的方法主要借用傳統聚類的數量積法、夾角余旋法、相關系數法、指數相似系數法、絕對值倒數法、絕對值指數法、閔可夫斯基距離法、馬氏距離法和蘭氏距離法等方法。具體采用哪些方法進行聚類分析,主要依據實際情況決定。

2.3 使用追蹤法進行模糊聚類

在建立了模糊相似矩陣后,就可以用追蹤法進行數據分析。主要步驟如下:

1 模糊相似矩陣R出發,求得其截矩陣;

2 于對稱性,先得到截矩陣下三角部分(不包括主對角線元素),再記錄該部分的非零元素下標,并存在二元數組A[t][2]中;

3 令g=1,且將g存入數組b[n]中;

4 行搜索數組A[t][2],若數組a中有元素A[i][j](1≤i≤n,1≤j≤2)與g相等,且同一行的另一元素(A[i][j±1])在數組b中不存在,則將A[i][j±1]存入數組b[n]中;

5 令g遍取數組b中元素,重復步驟4,直到沒有新的元素加入數組b;

6 將數組b中元素按行存入二元數組C[n][n]中;

7 令g取1~n中任一個數組C[n][n]中不存在的元素,重復步驟4~6;直到數組C[n][n]中的元素總數等于待分類對象的個數n為止【2】。

3 追蹤法在行業排污情況中的應用

下面,以從國家統計局網站找到2005年工業按行業分廢氣排放及處理情況的統計數據為例,說明模糊聚類新算法在行業排污聚類中的應用,數據如表1所示:

表1 行業排污數據統計表

篇7

[關鍵詞]電子檔案袋;CiteSpace;圖譜分析;研究熱點;發展趨勢

[中圖分類號] G434 [文獻標識碼] A [文章編號] 2095-3437(2016)06-0054-04

國際上以研究檔案袋、電子檔案袋著稱的美國阿拉斯加大學Helen C.Barrett博士對電子檔案袋的定義是:“學習者運用電子技術,檔案開發者以各種格式(音頻、視頻、圖片和文本等)來收集和組織學習內容和素材的方式,基于標準的電子學檔運用數據庫和超文本技術清晰地展現標準和目標、作品和反思之間的關系。[1]”很長一段時間以來,電子檔案袋一直作為展示學生在某一學科或領域完成的作業或作品的平臺,然后由教師、同學給出評價和反饋意見,從而記錄整個學習過程中的進步和成就。隨著“互聯網+”時代的到來,新技術和新理念在教育領域中得到了廣泛應用,當前的電子檔案袋也被賦予了更豐富的含義,有了更為廣闊的應用情景和模式。本文利用CiteSpaceIII軟件對中國知網(CNKI)2005-2014年間有關電子檔案袋的期刊論文進行知識圖譜可視化分析,以期揭示十年間關于電子檔案袋的研究熱點及發展趨勢。

一、基本原理與數據來源

本研究所用的分析工具是美國德雷塞爾大學陳超美博士開發的CiteSpaceIII(版本3.9.R6)。[2]利用這個軟件,通過數據建模,按照一定運算程式生成若干文獻共被引網絡,包括聚類視圖,也就是由“力引導布局”的節點連接網絡,這樣能夠直觀的體現有關要素的權重、中心度以及彼此的關聯度,并通過共詞聚類分析與共被引分析進行圖譜解讀。[3]共詞聚類分析屬于內容分析法的領域,把共詞出現的頻率看作要分析的內容,理清分析內容間復雜的關系,并把它們簡化,去掉無效關系,最后做出最簡化的直接表達。關鍵詞往往是文章的眼睛,當兩篇文章存在兩個以上同樣的關鍵詞時,我們就可以認為這兩篇文章在各自的研究領域、研究內容、研究方法等方面存在著相當高的相關度。通過CiteSpaceIII中的共詞聚類分析,我們就可以探測某一學科范圍內的研究熱點或研究趨勢等。

本研究是以“電子檔案袋”或含“E-portflio”或含“Electronic Portflio”為主題關鍵詞,在中國知網期刊數據庫(CNKI)檢索2005-2014年間的論文,除去無效數據共計216篇,將這些論文作為本研究的有效樣本,以Refworks格式導出,生成.txt格式的文本文件,利用CiteSpace軟件主菜單下Data-Inport/Export設置數據來源格式CNKI,將數據全部轉換成CiteSpace軟件可以識別的文本格式,最后導入軟件進行分析,得到最終圖譜。

二、閾值設置與圖譜獲取

設定時間分區為1年,形成10個彼此獨立的時間分區,選擇每個時間段分析引用頻次排名前50位的關鍵詞作為共詞分析對象,運行軟件獲得346個節點關鍵詞和771條鏈接線。通過Layout優化功能,進行聚類分析,就生成了如圖1所示的關鍵詞共詞聚類圖譜。圖1中,每個圓形節點代表一個關鍵詞,節點的巨細分別與關鍵詞、被引頻次以及聚類的范圍成正比。

在軟件聚類視圖界面右側的控制板cintrol panel中,選擇“layout”下的“timeline”選項,會得到如圖2所示的時間線視圖。圖2中連線對應聚類跨越的時間區域線越寬,聚類內部的緊密度就越高。

三、聚類分析與研究熱點

根據共詞聚類圖譜分析,當前國內電子檔案袋的研究內容主要集中在以下幾個方面:一是電子檔案袋的評價方式,包括聚類#1、#4、#7、#15等;二是電子檔案袋的設計與實現,包括聚類#3、#10、#11、#12等;三是電子檔案袋的應用效果,包括聚類#2、#5、#8等。

同時,在軟件聚類視圖界面,點擊“Export”下的“Network summary table”選項,可以導出一張數據表,表中內容包括被引頻次、中心度等相關數據統計表。中心度凸顯了關鍵詞節點在不同聚類之間或者界面上的地位和樞紐作用。根據整理統計,聚類中被引頻次5次(含)以上的關鍵詞共有19個,10次(含)以上的關鍵詞共有10個,被引頻次和中心度分別為前15位的關鍵詞見表1。這些關鍵詞大都包含在幾個大聚類中,所以它們也都不同程度地體現了有關電子檔案袋的研究熱點,具體分析如下。

(一)電子檔案袋的評價方式

“評價”作為國內電子檔案袋應用的最終目的與形式,其在評價教師及學生知識、能力的成長等方面發揮了巨大的作用,這從上述幾大聚類及被引詞頻高的關鍵詞中可以明顯地看出。利用電子檔案袋以不同的形式真實完整的記錄一段時期內教師的全部教學成果或學生的學習成果。根據記錄,可以了解教師或學生的成長變化過程。教師和學生可以針對自己或對方在這段時期內的變現做出客觀評價或提出意見。教師和學生可以針對這些意見和評價不斷完善自己,使得自評和互評成為不斷提升自我和改進自我的原動力,從而形成一個良性的循環過程。

3.加強反思學習(#8)

利用電子檔案袋詳細記錄個人學習情況的變化,讓學習者隨時關注自己或同伴的學習狀態,并進行階段總結,這樣有助于加強學習者的反思學習。在義務教育階段,我國多數的中小學生都只能被動的接受知識與技能。面對升學壓力,追求成績的提高是這一階段學習的最主要的目的。學習者可以根據教師給出的客觀評價,找出自己的不足并反思造成這種結果的原因,從而針對不足進行改進,不斷提高。所以,它可以在潛移默化當中培養學習者反思學習的習慣。

四、總結

綜合以上對中國知網(CNKI)數據庫2005-2014年有關電子檔案袋研究的期刊文獻的聚類圖譜分析,可以清晰得出當前國內的研究熱點和趨勢主要集中于以下3個方面。

1.電子檔案袋評價作為最主要的應用方式仍是研究的核心。評價量規亦隨理論依據及學科特征不斷完善,評價內容和方法日趨多元化,且適用于教學過程。

2.關于電子檔案袋的設計與實現。隨著關注力度的提高,國內電子檔案袋將在解決技術難題的基礎上,整合現代教育技術,明確用戶需求,未來也可能借助近來大熱的“互聯網+大數據”服務于“互聯網+教育”,設計更加規范、靈活,搭建操作簡單、維護容易,真正適用于教學的電子檔案袋平臺。

3.對于電子檔案袋的應用效果。雖然在發展初期并不理想,有很多都流于形式,沒有起到真正的促進作用。但經過近幾年的發展,電子檔案袋的應用已經取得了顯著成效,不僅可以幫助教師及時掌握學生的學習狀況,同時也能促進學習者自主學習并且讓其養成制訂計劃、反思學習等學習習慣。

可以說,CiteSpaceIII軟件為期刊研究提供了有力的分析手段。我們可以在某一相關領域中遴選若干中文核心期刊,在研究熱點方面進行比較研究,以期揭示某一領域內的研究方向,這有助于我們了解區域動態,及時掌握第一手信息,提升學術水平。

[ 參 考 文 獻 ]

[1] 陳玖豪.基于IMS-EP規范的通用型電子檔案袋系統的設計與開發研究[D].重慶:西南大學,2007.

[2] Chen, C. (2014) The Cite Space Manual[EB / OL]. http://cluster.ischool.drexel.edu/~cchen/citespace/Cite Space Ma?鄄

nual.pdf.

[3] 曲濤.江蘇高教2003-2012研究熱點及其知識基礎可視化分析[J].河北工程大學學報(社會科學版),2014(4):99-103.

[4] 李爽,魏志慧.技術促進下的課程設計與學習評價――訪國際遠程教育知名學者羅賓?梅森教授[J].開放教育研究,2007(4):4-8.

[5] 曲濤.《清華大學教育研究》2000-2012研究旨趣探析[J].沈陽師范大學學報(社會科學版),2014(5):129-132.

[6] 曲濤.國際MOOC文獻可視化分析――基于webofscience2008-2013年索引文獻圖譜[J].重慶高教研究,2014(5):1-9.

[7] 楊思洛,韓瑞珍.國外知識圖譜繪制的方法與工具分析[J].圖書情報知識,2012(6):101-109.

篇8

[關鍵詞] 搜索引擎;文本聚類;發展局限;展望

[中圖分類號] F27.4 [文獻標識碼] B

一、前言

2013年7月的CNNIC第32次互聯網報告顯示,截止2013年6月止,我國網民規模達5.91億,半年共計新增網民2656萬人?;ヂ摼W普及率為44.1%,較2012年底提升了2.0個百分點。從2009年到2013年,互聯網普及率逐年上升,從28.9%上升到44.1%。計算機的普及,使人們越來越依賴于詢問互聯網。面對浩瀚的信息海洋,如何獲得用戶真正有用的信息,成為了一個炙手可熱的話題。從最早的門戶網站方式到現在的谷歌、百度全文本搜索,對待信息的獲取方式已經有了很大的改變。然而,隨著互聯網越來越普及,網絡中存儲的信息,出現很多冗雜信息,僅僅依靠傳統的搜索方式,并不能滿足用戶的需要。從2000年開始,以Vivisimo為代表,越來越多的學者開始注意到,聚類能更準確的定位搜索結果。

二、聚類

聚類是指將抽象或物理對象組成集合,將集合中類似對象組成多個類的過程。由聚類所生成的簇可以看做是一組數據對象的集合,這些對象與同一個簇中的其他對象彼此相似,而與其他簇中的對象不同。聚類分析又被叫做群分析,是針對分類問題的一種統計分析方法。由一個度量的向量或多維空間中的一個點構成模式,再由多個模式構成聚類分析。聚類分析可以追溯于分類學,不過聚類并不是單純的分類。聚類與分類最大的的不同之處是,劃分為聚類的類是未知的。

聚類作為一種有效的分類方法,可以從龐大的消費者數據庫區分屬性、目標不同的消費群體,再概括出這些消費群體的消費模式也就是普通意義上的習慣。它作為數據挖掘中的一個模塊,可以作為一個單獨的工具以發現數據庫中分布的一些深層的信息,并且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;并且,在數據挖掘算法時,聚類算法可以作為對數據進行預處理,再用其他分析算法處理。聚類分析的算法可以分為層次法(Hierarchical Methods)、基于網格的方法(grid-based methods)、基于密度的方法(density-basedmethods)、劃分法(Partitioning Methods)、基于模型的方法(Model-Based Methods)。

三、搜索引擎聚類國內外發展進程

國外對于搜索引擎聚類方面的研究最早發生在1996年,HearstMA,PedersenJO學者研究開發的Scatter/Gather系統是世界上第一個將聚類引入搜索引擎的系統。2000年開發的Vivisimo元搜索引擎系統,采用自主開發的啟發式算法來集合并聚類原文文獻。這種算法吸收了傳統人工智能思想,對檢索結果進行更好描述和聚類。它的文獻聚類技術首先將文本內容自動分類,劃分為等級式排列的目錄之后進行聚類。作為一種完全自動化的聚類技術,不需要人為干擾收集數據,也不需要進行數據維護。SnakeT在前者研究的基礎上,開發了能完整將搜索引擎聚類化的系統,并且可以向用戶展示帶有明確標簽的層次型結構。Grouper是利用后綴樹聚類(STC,Suffix Tree Clustering)算法專門針對文檔摘要進行聚類的搜索引擎系統。SHoc是首個面向文本信息進行聚類功的搜索引擎。Sergio系統應用改進過的k均值算法對兩個搜索引擎結果進行聚類處理。在新聞處理方面,Nesrec系統提取Altzvista新聞的新聞摘要,短時間內進行層次聚類,并使之成為擁有良好可讀性的類標簽。而Newsblaster系統針對每天的新聞進行聚類處理,文本生成等處理之后,產生摘要文檔。WhatsonWeb是應用拓谷驅動和圖像聚類算法來構建搜索引擎聚類系統,具有良好的可視化效果,同時支持處理無效標簽。

國內的研究要相對較晚,最早開始于20005年,但是隨著科技發展,取得了很不錯的優秀成果。2005年的PinkySearch利用后綴樹算法和相同詞聚類對多個搜索引擎的結果進行聚類處理,最后獲得搜索結果。在2007年成立的國內首家搜索引擎聚類公司比比貓(Bbmao),采用先進的聚類和去重技術,不僅帶給用戶快捷、智能的體驗經歷,還引領創新了聚類技術。國內高水準的數據挖掘研究所論壇上,提出了web挖掘算法、分類聚類,應用方案等聚類應用技術。

四、搜索引擎聚類分析

搜索引擎形式從最早的目錄式搜索到基于Robot搜索引擎,再到現在的聚類搜索引擎,其對象不僅僅是對資源進行搜索,也開始關注用戶體驗,如何使用戶能更為便捷的找到自己所需內容。搜索引擎聚類發展已有十余年,通過對國內外相對比較成熟的聚類搜索引擎作為研究對象,從劃分類型、基本功能、聚類算法角度分析。

1.劃分類型分析

根據分類標準不同,搜索引擎聚類劃分的種類也不同。根據提供的服務劃分成社區型(比如貝殼網)和搜索型(如第易搜)。按照信息的來源即是否擁有獨立的數據庫,聚類搜索引擎能劃分為寄生型(Vivisimo)和原生型(如CNKI搜索)。按照搜索引擎來源的數目,聚類搜索引擎可以劃分為單一型來源搜索引擎(如TouchGraph)和多來源搜索引擎,即元搜索引擎(如Bbmao)。

2.基本功能分析

在對國內外具有代表性的搜索引擎聚類分析后,發現其搜索對象不僅僅為網頁,更延伸到網頁、新聞、目錄、摘要、博客,可應用于商業、政府工作、新聞搜集等多種多樣。另外,在提供個性化搜索的同時,用戶還可根據自己的喜好,在游戲、旅游、博客等大類下選擇的信息源,在右側會自動呈現圖片、新聞、購物等搜索結果。

3.聚類算法角度分析

目前的網頁聚類算法根據其針對的方向分為3種,即基于鏈接分析、基于網頁內容、基于用戶搜索日志的聚類算法。

基于鏈接分析的聚類和傳統的搜索引擎搜索有一定相似之處,對任一網頁,必有本網頁指向其他網頁的鏈接和其他網頁指向本網頁的鏈接。若這些其他網頁都包含有同一個網頁的鏈接,則被認為同音關系,具有相似性,進而依次聚類?;诰W頁內容的聚類即是對網頁的內容直接聚類,傳統的聚類算法是對網頁內容去標點、化復數形式為單數、去掉前后綴。然而這些方法是針對單個文字的聚類,并沒有考慮詞間含義,也不能真實的反映網頁內容。于是出現了STC算法即后綴樹算法,通過將網頁進行處理,得到詞組,再依賴于后綴樹,辨別擁有相同詞義的詞組,將他們作為基本類,合并形成高層次的類,進行高效的聚類。隨著搜索引擎的發展,研發者開始考慮到對用戶行為分析,構建用戶模型,出現了基于用戶搜索日志的聚類算法。通過用戶對搜索結果網頁進行聚類。

上述三種聚類算法各有優缺點,基于用戶搜索日志的算法注重用戶體驗,基于網絡內容的算法注重搜索對象,而基于鏈接分析的聚類注重相似網頁之間的鏈接。在以后聚類搜索引擎發展中,這三種方法將會結合使用。

五、發展局限及展望

國外的搜索引擎聚類最早開始于1996年,而國內的發展相對較晚。然而由于還處于發展的初始階段,還存在一定的局限性。中國第一家元搜索聚類引擎公司是2007年的比比貓(Bbmao)公司,可以直接搜尋文檔,搜索結果匯集各大搜索引擎結果,具有強大網絡收藏夾等多元功能。然而由于局限性,只存在了較短的時間。必須綜合考慮搜索引擎聚類的問題,才可能使之長遠發展。

1.數據庫依附性過強

目前的搜索引擎的聚類技術多是將已有的搜索引擎檢索出的結果進行聚類分析,得到更準確的結果,呈現給用戶。其存在形式多為衍生性搜索引擎,這就意味著需鏈接已有搜索引擎的數據庫,然而搜索引擎本就是依靠搜索結果獲得收入。對于第三方間接使用其搜索結果,原搜索引擎必然會采取限制,這也就造成數據的無法獲得。國內成立的比比貓公司就是由于依附性太強,最后導致無法繼續生存下去。建立自己獨立的數據庫不失為一個好的解決辦法,然而由于獨立數據庫所需強大的技術支持,還可以與專業搜索引擎公司合作。

2.搜索速度緩慢

由于當前搜索引擎的聚類技術對搜索結果進行聚類,實質上也就是進行二次加工、聚類、排序,最后呈現搜索結果。勢必影響其搜索速度。值得探討的是直接建立轉有數據庫,是可以解決的方法之一;此外隨著技術發展,越來越多的Tag標簽應用到網頁中,這也對準確了解網頁內容、屬性產生裨益,從而加速搜索引擎聚類的速度。

3.用戶的個性化服務還需提升

搜索引擎的最終結果是為了使用戶使用,即服務于用戶。目前搜索引聚類還不夠成熟,如何使搜索結果更加滿足用戶的個性化需要還有很大的研究空間。記錄用戶的搜索歷史,在聚類時,返回符合用戶個性的聚類。將聚類和用戶行為結合起來,完美的實現聚類結果的個性化服務,滿足用戶需要。

總之,雖然針對搜索引擎的聚類分析還存在一定問題,可是基于聚類能更加精確、準確的提供搜索結果,能更好的反映用戶需求,隨著科技的發展,問題終將得到解決,搜索引擎聚類也勢必是搜索引擎的大勢所趨。

[參 考 文 獻]

[1]第32次中國互聯網絡發展狀況統計報告[R].北京:中國互聯網絡信息中心,2013

[2]Liu W, Xue G R, Huang Set al. Interactive Chinese Search Results Clustering for Personalization. Lecture Notes in Computer Science. 2005, 3739:676-681

篇9

[關鍵詞] 知識圖譜;共詞分析法;焊接學;材料學

[中圖分類號] G434 [文獻標識碼] A 文章編號:1671-0037(2015)08-80-6

Analysis of the Hot Spot and Research Trend of the Material Engineering Discipline based on the Common Word Knowledge Map

Zhang Xuezhao1,2

(1.Library of Henan University of Science and Technology, Luoyang Henan 471023; 2. Libraryof Zhoukou science and technology Career Academy, Zhoukou Henan 466000)

Abstract:In this paper, the latest scientific metrology technology―knowledge map is applied to the material engineeringdiscipline in our country. Through taking the two disciplines (Materials Science and Welding) as the research objects, a total common word knowledge mapsof thetwo disciplines were constructed, tohighlight the research hotspot, research trends and development of thetwo disciplines.

Keywords:knowledge map; commonword analysis; welding; Materials Science

1 研究內容

將材料學和焊接學兩門學科作為研究對象,以CSCD國內權威數據庫的作為數據源,采用計量學中的共詞分析方法,對1989~2013年材料學、焊接學等學科文獻的關鍵詞進行統計,并利用聚類分析、因子分析、多維尺度分析以及社會網絡分析等方法和相關軟件,構建這兩門學科的關鍵詞詞頻分布表、類團關系圖等,通過對所構建的兩個學科的共詞知識圖譜進行詳細比較對比,分析兩門學科的當前研究熱點、研究趨勢及前景。

2 研究方法及過程

2.1 數據來源

本文采用的數據來源于《中文社會科學引文索引》檢索系統。本文選取CSSCI1989~2013年收錄的期刊----鋼鐵研究學報和復合材料學報、電焊機和焊接技術做樣本,套錄該期刊文獻的所有題錄信息。具體方法:打開CSSCI檢索界面,收錄年限選定為1989~2013,在[來源文獻]檢索界面的[期刊名稱]中分別輸入“鋼鐵研究學報、復合材料學報和電焊機、焊接技術”期刊刊名,[匹配]限定為“精確”,同時[每屏顯示]設定為50條,套錄這些期刊在這一時期內文獻的題錄信息,然后將得到的數據分別整理后,分別得出在這一時期內材料學和焊接學題錄數據庫。然后通過利用C#自編的計算機程序,按照頻次由高到低排列,得到一個材料學和焊接學的關鍵詞排名,頻次總數分別是16 057個和21 622個。

2.2 數據處理說明

從兩個學科關鍵詞排序中分別截取一定頻次的關鍵詞,其中材料學關鍵詞截取詞頻大于22次、焊接學關鍵詞截取詞頻大于50次,由此,得出了兩個學科的99個和102個高頻關鍵詞。再將這些類似性質的關鍵詞進行歸整,從而分別確定了兩個學科的80個和63個高頻關鍵詞表,將這兩個關鍵詞表(見表1-1、表1-2)作為共詞分析我國材料工程學科的基礎。

2.3 構造關鍵詞共詞矩陣

2.3.1 構造原始共詞矩陣

由于以上兩個學科選定的關鍵詞是材料工程學科論文中出現頻率最高的詞,它們代表了當前我國材料工程學科的研究熱點。為了能進一步更好地反映這些關鍵詞之間的關系,本論文對這些高頻關鍵詞作如下處理:在已建立的題錄數據庫中,利用自編的計算機程序分別對兩個學科確定的80個和63個高頻關鍵詞兩兩進行共詞檢索,經過統計分析,得到了一個80×80的共詞矩陣(部分數據見表1-3)和一個63×63的共詞矩陣(部分數據見表1-4)。

以上兩個表格中的共詞矩陣是一個相關、對稱矩陣,對角線上的數據為該詞出現的頻次,主對角線單元格的數據為兩個關鍵詞共同出現的頻次。

2.3.2 構造相關矩陣

本文在對兩個學科的原始矩陣進行包容處理時采取Salton指數法,處理數據部分結果見表1-5和表1-6,Salton指數法的計算公式為[3]:S=Nij/(Ni×Nj)1/2(3-1)。其中,Ni,Nj分別表示關鍵詞i和j的頻次,Nij表示關鍵詞i和j共現的頻次。

以上兩個表格相關矩陣中的數字為相似數據,數字的大小表明了相應兩個關鍵詞之間的距離遠近,數值越大則表明關鍵詞之間的距離越近,相似度越好;反之,數值越小則表明關鍵詞之間的距離越遠,相似度越差。

2.3.3 構造相異矩陣

由于相關矩陣中的‘0’值過多,統計時容易造成誤差過大,為了方便進一步處理,兩個學科相異矩陣的部分數據詳見表1-7和表1-8。

以上兩個表格相異矩陣中的數據,正好與相關矩陣相反,數值越大則表明關鍵詞之間的距越遠,相似度越差;反之,數值越小則表明關鍵詞之間的距離越近,相似度越好。

2.4 聚類方法與聚類圖

具體方法:在SPSS17.0軟件界面中輸入要分析的相異矩陣,然后選擇[分析]――[分類]――[系統聚類]進行聚類分析。聚類方法選擇組間距離法;度量標準--區間選擇共詞聚類分析中最常用的歐氏距離(Euclideandistance)。

3.5 構建類團關系圖

類團關系圖主要用連線的粗細來明確類團間的關系強弱,類團間的關系強弱以連線的粗細來表示,兩個類團之間的連接線就越粗,說明他們之間的關系的關系越強,反之則亦然[4]。具體方法是首先計算出各個類團的內部聯系強度與其外部聯系強度,然后利用先進的社會網絡分析軟件pajek繪制出兩個學科的類團關系圖。通過對兩學科類團的形成、演化、新增及消失的過程研究,動態地揭示我國材料工程學科的研究的現狀、熱點及發展。

3 研究結果與分析

3.1總體狀況描述

材料學科(以鋼鐵研究學報和復合材料學報為代表)從1983年到2013年共有9 302篇論文,每種期刊年均155.03篇,平均每篇論文的關鍵詞數為1.73個。經過規整、縮減后,這一階段頻次不小于22次的高頻詞共80個,其中,復合材料、力學性能、顯微組織、有限元分析、層合板、數值模擬等出現200次以上,說明網絡環境下以復合材料為核心的材料性能分析是這一階段的研究熱點,具體分析內容主要體現在材料的力學性能分析、有限元分析、數值模擬分析等方面。

焊接學科(以電焊機和焊接技術為代表)從1984年到2013年共有11 778篇論文,每種期刊年均196.3篇,平均每篇論文的關鍵詞為1.84個。這一學科(焊接學科)論文總數與材料學科相比基本持平,但是篇均關鍵詞數卻略有上升。經過規整、縮減后,這一階段頻次不小于50次的高頻詞共63個,與材料學科相比,焊接工藝以2 368次居于首位,焊機、焊縫、焊接電源、焊接控制、焊接質量、焊接電流、電焊、埋弧焊、焊條等是出現200次上的高頻詞,可見,在該學科目前的主要研究熱點是焊接設備、焊接工藝、焊接工業參數等方面。這些方面的研究直接決定或影響到焊接質量和焊接效果,這也與生產實際緊密結合,充分體現了這一學科的實踐性。

3.2 研究主題的異同

從材料學科形成的聚類圖可以看出,我國材料學科的主要熱點研究領域、研究主題、研究熱點可以總結為以下幾個方面:

3.1.1 材料工藝、參數研究

這方面的研究是我國材料學科研究領域研究成果最豐碩的部分之一。該類團群主要包括“材料熱處理類團”“材料工藝性能研究類團”兩個類團。在該階段,從關鍵詞聚類分析結果來看,隨著有計算機技術、數據/值模擬仿真技術及材料熱處理技術的發展。材料學科研究動態主要表現在以下兩個方面:第一,材料分析、材料加工更加精準化。第二,材料熱處理參數、方法始終是材料學科發展的重點。

3.1.2 工程材料研究

工程材料研究始終是材料學科研究的主要方向。工程材料類團群主要包括金屬材料類團、非金屬材料類團、復合材料類團。金屬材料類團一直是材料學科發展的主流,各種有色金屬它們是現代各種機器零部件的生力軍,它們為材料學科的發展奠定了基礎。復合材料類團的研究是材料學科發展的延續和補充。在現當代化生產中,隨著對材料性能需求的日益提高,單純的金屬材料性能已經不能滿足各類機器零部件的使用要求,為此復合材料的研究被材料學家們納入了研究領域,并且自從復合材料進入研究領域開始,到現在,乃至未來,復合材料的研究都將經久不衰,這一點從關鍵詞詞頻分布都可以看出:復合材料出現的頻次排列第一、層合板、金屬基復合材料、高溫合金、陶瓷基復合材料、復合材料結構等關鍵詞的都屬于這一類團,并且頻次分布也很靠前。

3.1.3 材料性能缺陷研究

材料性能缺陷研究也是我國材料學科乃至全世界材料學科研究的主題。這一研究類團群主要包括材料加工方法類團和材料缺陷類團。材料缺陷類團包含的關鍵詞主要有:疲勞、裂紋、磨損、斷裂、夾雜物等,這些關鍵詞頻次的分布在本研究統計中占有相當的比重,由此可以看出怎樣預防材料的各種缺陷,提高材料的加工及使用性能,至關重要。緊接著引出了材料學家們所關注的材料的加工類團(轉爐、電弧爐、熱軋、冷軋、軋制等)。雖然這一類團群的關注度不如工程材料研究,也不如材料工藝參數的研究。但是無論從各種工程材料來說,還是從各種材料的工藝參數研究來說其目的都是怎樣去避免材料的各種缺陷,從而提高和改善材料的加工性能、使用性能,達到人們生產加工的目的。

從焊接學科的聚類圖可以看出,我國焊接學科的主要熱點研究領域、研究主題、研究熱點可以總結為以下幾個研究方向:

3.1.3.1 焊接工藝參數研究。同材料學科一樣,焊接學科的焊接接工藝參數研究是本學科的研究主題和重點。在這一類團群中焊接工藝這一關鍵詞在頻次表中出現的次數達到了2 368次,可見在焊接學科中,工藝參數研究所站的比重和地位。焊接工藝規范、焊接工藝參數、焊接手法等方面是這一類團研究的主題,而這一研究主題隨著焊接設備和焊接方法的不同焊接工藝亦有不同。

3.1.3.2 焊接類型方法研究。這一類團是一個大面類團,焊接類型和方法直接決定或影響焊接工藝、決定了焊接設備、焊接工具的選擇。這一類團的關鍵詞主要有:手工電弧焊、堆焊、焊接方法、激光焊接、攪拌摩擦焊、點焊、埋弧焊、釬焊、氬弧焊、氣體保護焊等。隨著焊接技術的發展及焊接質量要求的提高,該類團正朝著自動焊接、機器人焊接等自動化方向發展。

3.1.3.3 焊接工程、工具、材料研究。焊接工程、工具、材料這一類團群涉及焊接材料、焊接環境、焊接設備工具,從而間接地決定焊接方法的選擇、焊接工藝流程。這一研究類團,從各種焊接對象材料(管道、鋁合金、不銹鋼、奧氏體不銹鋼等)說起,涉及了焊接結構、焊接工程、工程建設及焊接應用。分析了焊條、藥芯焊絲的使用環境、使用方法等。這一主題類團的研究,是該學科研究的基礎,研究主題關鍵詞雖然詞頻分布沒有排在前列,但關鍵詞詞頻分布的范圍廣。未來該主題的研究將朝著細化焊接工具方向,具體可能以焊接工具研究所形式出現。

3.1.3.4 焊接質量控制研究。這一類團的研究主題是焊接學科研究的目的所在。不管焊接工藝如何合理、焊接方法如何選擇、焊機及焊接工具的選擇的多么具有針對性,其最終目的是獲得優質的焊接質量。在這一研究主題中,分析了各種焊接缺陷(裂紋、缺陷、變形等)各作者、學者提出了如何規避焊接缺陷的各種方法、技巧。目前這一研究主題隨著焊接材料的多樣化,生產要求的提高而日益嚴峻,機器人技術、自動焊技術的發展對焊接質量的提高起著決定性的作用,但其普及應用任重而道遠。

4 類團關系分析

確定了材料學科、焊接學科類團后,就可以研究各學科類團間的相互關系,找出哪些類團是核心類團,它與其他類團之間聯系密切;哪些類團是非核心類團,它與其他類團之間聯系疏松;哪些類團與其他任何類團都沒有任何關系,屬于相對獨立類團。為此,筆者根據各類團之間的內、外相互關系,利用pajek軟件繪制出了既能反映自身類團的內部聯系強度又能反映這個類團與其他類團的外部聯系強度的類團關系圖(如圖1-1、圖1-2所示)。在圖中,類團的內部聯系強弱用節點的大小來表示,節點越大,表明該類團的內部聯系強度越小,反之,則相反;節點連線的顏色深淺和連線的粗細程度和表示兩節點間的外部聯系強度,兩節點間連線顏色越深、連線越粗,則表示兩類團之間的外部聯系強度越大,反之,則相反。

圖1-2 焊接學類團關系圖

5 結語

本部分研究采用共詞分析方法,利用聚類分析、先進的社會網絡分析方法和軟件Pajek,分別繪制出材料學科和焊接學科兩學科的聚類圖、類團關系圖,對兩個學科:材料學科和焊接學科研究主題進行了較為詳細的對比分析。通過分析對比得出兩個學科的發展變化特點:

5.1 材料學科和焊接學科都屬于工學學科,其發展研究主題存在共性

從兩個學科的研究主題來看,我國材料學科研究領域、研究熱點體現在復合材料、材料工藝參數研究、材料性能缺陷研究上,而焊接學科體現在焊接工程、工具材料、焊接工藝參數研究、焊接質量(缺陷)控制上。兩個學科之間研究主題框架基本一致,其目的都是為了滿足生產實踐,都是為了規避缺陷(材料缺陷、焊接缺陷),提升加工質量。

5.2 熱點研究領域顯現新特征

兩大學科的熱點研究領域各有新特征:材料學科的陶瓷基復合材料、鋁基復合材料、有限元分析、數值模擬等;焊接學科的自動焊技術、機器人技術等。

5.3 兩個學科研究范圍和內容具有一定的連續性、階段性、變化性

兩個學科不論是材料學科還是焊接學科都是從工程材料研究到工藝參數研究,最后再到性能缺陷研究,整個研究過程呈現出連續性、穩定性、階段性、變化性的特點。每個階段在各自基礎上由細化整體上呈現發展性。

參考文獻:

[1] 秦長江.基于共詞知識圖譜的人文學科研究熱點可視化的實證研究[J].圖書館理論與實踐,2010(12).

篇10

關鍵詞:信息融合技術;預警系統;企業運行

中圖分類號:TP277文獻標識碼:A文章編號:1007-9599 (2011) 24-0000-02

Application Research of Information Fusion Technology in Enterprise

Movement Early Warning System

Zhao Xin

(Wuhan University,School of Information Management,Wuhan430072,China)

Abstract:In order to make the enterprise develop better and faster,It’s important that making a prediction on the enterprise’s development condition by using information fusion technology,which can make early warning about the recessive existing problems in time.In the paper,clustering fusion algorithm and its improved algorithm were analyzed,and were applied in the early warning system of enterprise’s operation,we got enterprise’s development model.At last,the model was proved by an enterprise’s operation datum,the two fusion algorithms were applied and compared.

Keywords:Information fusion technology;Early warning system;Enterprise developing

一、引言

企業發展的過程中,生產產品的數量、產品的銷量以及人員的數量等信息的波動對企業的發展影響是非常大的,如果波動幅度過大,會對企業帶來巨大的損失。為保證企業能夠持續、良好運行發展,本文提出了企業運行預警系統。為企業未來的發展走向做出預報或警示。

近年來,信息融合技術已經成為國內外的研究熱點[1]。聚類分析是數據挖掘的一個重要研究領域,它是一種無監督的學習方法,通過一定規則將數據按照定義的相似性劃分為若干個類,這些類由許多性質相似的數據點構成的,同一個類中的數據彼此相似,與其它類中的數據相異。聚類融合算法是聚類分析中一個新興且重要的研究方向,于2002年由A.Strehl和J.Ghosh正式提出,但在2001年A.LFred就已經進行了類似的研究。聚類穩定性、準確性和有效性是聚類分析領域中被廣泛研究的問題[2]。

本文詳細介紹了一種基于劃分的聚類融合方法,以某企業2001-2009年中的數據作為信息源,利用聚類融合算法對該企業近期數據進行分析、融合得出企業未來時段的生產、銷售及運行情況,計算出該企業的運行發展模式。并且給出了一種改進的聚類融合算法,以解決該聚類算法僅在劃分某些特定數據集時效果較好的不足和難以確定聚類數的問題。最后分別將利用兩種算法得到該企業2010年的運行發展預示,并和2010年該企業真正的發展模式進行比較。驗證該預警系統的可行性。并將兩種算法得出結果進行比較,論證利用改進的聚類融合算法得到的模型更為準確、可行。

二、聚類融合算法模型

(一)基于劃分的聚類融合算法。算法的基本思想是:給定要構建的劃分的數目k,首先創建一個初始劃分,然后采用一種迭代的重定位技術,通過對象在劃分見移動來改進劃分[3]。常用的著名算法是k-means和-medoids。也可稱為k均值聚類算法[4]。

(二)企業預警系統模型分析。根據某市某企業提供的數據信息,獲取2001-2009年間共108個月份中企業的主要信息,抽取出18個指標:人員增加數量,員工開支,產品1產量,產品2產量,產品3產量,產品4產量,產品5產量,產品1銷量,產品2銷量,產品3銷量,產品4銷量,產品5銷量,產品1成本,產品2成本,產品3成本,產品4成本,產品5成本以及其他因素。將這些信息歸納為產品種類、產品數量、各類產品的銷量、各類產品的成本、人員變動、工資開支和其他外因共7個方面的數據統計信息,通過應用三角函數提取周期法提取該企業的循環的主波,按照下述方法計算該企業運行發展波動的綜合值序列。

求第i個指標的波動循環因子 ;求第i個指標的標準化因子: ;求標準化波動因子: ;宏觀經濟波動綜合值序列: (設 是第i個指標剔除季節因子后的序列)。

表示各類影響企業運行發展狀態的經濟特征為:

A類:各種特征指標絕大多數處于最低位置或次低位置時,企業發展處于低谷狀態,應該提前預警。

B類:如果產品產量增加而產品銷量降低時,即第三類向第二類轉換時,銷售市場存在問題或者市場中的產品有過?,F象,要提前發出預警。

C類:企業具有穩定發展的特征,即各指標所占的位次保持在第二位或第三位,并且各指標沒有太大的波動,這種模式屬與運行發展的良好模式。

D類:產品成本投入升高而產品數量下降,其他各指標相應波動不大的情況,可能是由于其他外因,例如市場原材料價格上升或社會外力因素進行調控等。這類模式屬于黃燈區,要保持警覺。

E類:各個指標都處于高峰,表示企業發展運行處于期,產品銷量高,但是投入也相對很大,相對來說各個指標都處于特殊的活躍期,但是這種情況一般很短暫,隨之而來的是企業運行的大幅度波動,應盡量避免這種情況發生,所以也要提前預警。

(三)對企業運行模式聚類。設 , , 分別表示第j個指標在第i時期去掉季節因子的速度值序列,波動因子,標準化因子。 表示第j個指標的標準化因子[5]。

則(其中n為樣本個數)

(其中k為特征指標個數)

如果將初始分類定為k類,則對第i個樣本點的計算公式為:

如果該結果為m,則將第i個樣本點歸為第m類( )。

(四)修改初始分類。由于類與類之間可能有模糊區,所以,如果要對該模糊區中的樣本確定其最佳的屬性歸屬類別,就需要修改初始分類[3]。

設 分別表示n個樣本點的坐標行向量,初始分類為k類: ,對應的中心坐標分別為 。每類的樣本數分別為 ,用l(i)表示 所屬的標號,定義 與 的距離為 ,即可得到:

定義分類函數 。通過該方法是分類函數達到最小的一種分類結果。即把歷史數據中各時期的綜合值所達到的區間分為若干個區間段,則同處于一個區間段的樣本在這時可能是擴張期,也可能是收縮期,因此同處于一類的樣本處于那個時期要結合未來的運行發展模式得到。

以前面所述中篩選出的7個特征指標每個月份的值作為一個樣本點(共108個),用前面講的聚類方法聚成5類,每個樣本的計算結果如表1所示。

表1 樣本計算結果統計

1月 2月 3月 4月 5月 6月 7月 8月 9月 10月 11月 12月

1 4.3 4.4 4.5 4.28 4.3 4.36 4 4.4 4.46 4.66 4.6 4.5

2 4.33 4.3 4.61 4.6 4.7 4.65 4.69 4.7 4.66 4.71 4.7 4.6

3 4 3.8 4.1 4 4.3 4.15 4.2 4.3 4.2 4.2 4.3 4.26

4 4.42 4.5 4.6 5.3 5.28 5.15 5.13 5.1 5.2 5.4* 5.6 5.3

5 4.6 5 5.6 6.8 6.75 6.7* 6.83 6.6 5 5.6 5.56 5

6 4.4 4.9 4.2 3.8 4 4.2 4.1 4 4.3 4.5 4.6 4.5

7 4.7 5.2 5* 4.6 5.1 5 4.78 4.8 4.73 4.7 4.91 5

8 4.9 5.8 5.76 5.7 5.66 5.5 5.46 5.6 5.8 5.9 5.5 6*

9 5.06 6.1* 6 5.6 5.3 5 4.8 4.2 4.6 4.5 4.6 4

(五)確定模式邊界識別函數。利用多維空間坐標系統,將7個特征指標建立坐標系,企業運行模式在該多維空間坐標系中構成了5個區域,每個區域都有自己的界限,樣本點落在哪個區域就表示企業運行處于何種模式。由判別函數非得到該企業的5類模式為: 。

如果要判斷第j期的企業運行模式,只需要把第j期的特征指標的值代入判別函數,即可得到其所屬的模式。如果要判別未來時段的運行模式,根據特征指標的曲線建立與其相適應的預測模型,將預測值代入識別函數判斷其所屬的運行發展模式。

(六)系統檢驗。根據該企業提供的2001年-2009年中每個月的數據作為樣本的實際值代入模式識別函數確定的運行模式和該企業實際運行模式比較發現,共有5個樣本點有偏差(表1中帶*號)。其中2個與實際運行數據偏差較大,另外3個實際數據基本接近。

三、基于改進的動態聚類融合算法

(一)改進方法。傳統基于劃分的動態聚類融合算法中的聚類個數k的選取以及相應的k個聚類初始中心點的選取都是隨機的[5]。如果該聚類個數k選取不當,很容易導致聚類運算所得到的結果差異偏大(如表1中加星號的表示偏差數據)。

為了克服這些缺點,先考察不同的聚類個數k下的聚類成員之間的差異度,以及這些聚類成員在不同的權值下對融合結果的影響。即多次使用上述的基于劃分動態融合算法,得到所需的聚類成員,然后對這些成員按照常規方法進行融合,并初選此時的聚類個數為目標聚類個數,用k*表示[6]。各個聚類成員的聚類個數k相應的記為 。

分析各聚類成員的聚類個數和K*的差值,以此為基礎設計加權函數對聚類成員進行加權,重新計算矩陣并通過共識函數進行新的融合運算。該系統中采用的加權函數如下:

當新的聚類同其他聚類成員完全相符合時其值為0,聚類成員k值同目標個數偏差越大,差異度也就越大。對所有的聚類成員加權后,相應的所有聚類成員總的矩陣為:

其中j為改進算法循環次數, 為各次循環所得新的聚類成員的加權值。H為基本聚類算法運行次數, 為各次聚類成員, 為各聚類成員的矩陣。

(二)系統檢驗。和第一種方法一樣,將企業提供的2000年-2008年中每個月的數據作為樣本的實際值代入模式識別函數確定的運行模式和該企業實際運行模式比較發現,只有2個樣本點有偏差。但這兩個樣本點和實際運行數據相當接近。

四、結論

本文詳細介紹了一種基于劃分的動態聚類融合算法和相應的改進算法,并分別將兩種方法應用于企業運行預警系統中,克服了傳統的企業發展模式中按照波動周期的四個不同階段(擴張期、收縮期、波峰、波谷),引起的不該報警時報警,該報警時又不報警的現象。同時根據應用兩種算法得到的預警模型的得到的數據分別和真實數據相比較,通過實驗的方式得出改進的算法更實用與企業發展預警系統中。

參考文獻:

[1]郭.基于信息融合的交通信息采集研究[D].北京:中國科學技術大學博士論文,2007:3-10

[2]趙法信,王國業.數據挖掘中聚類分析算法研究[J].通化師范學院學報,2005,26,2:11-13

[3]萬志華,歐陽為民,張平庸.一種基于劃分的動態聚類算法[J].計算機工程與設計,2005,1,2:177-179

[4]謝穎.信息融合中幾種算法的研究[D].重慶:重慶大學碩士論文,2008:25-60