聚類范文10篇

時間:2024-02-18 15:43:29

導語:這里是公務員之家根據多年的文秘經驗,為你推薦的十篇聚類范文,還可以咨詢客服老師獲取更多原創文章,歡迎參考。

聚類分析K-means算法研究

摘要:通過對聚類分析及其算法的論述,從多個方面對這些算法性能進行比較,同時以兒童生長發育時期的數據為例通過聚類分析的軟件和改進的K-means算法來進一步闡述聚類分析在數據挖掘中的實踐應用。

關鍵詞:數據挖掘;聚類分析;數據庫;聚類算法

隨著計算機硬件和軟件技術的飛速發展,尤其是數據庫技術的普及,人們面臨著日益擴張的數據海洋,原來的數據分析工具已無法有效地為決策者提供決策支持所需要的相關知識,從而形成一種獨特的現象“豐富的數據,貧乏的知識”。數據挖掘[1]又稱為數據庫中知識發現(KnowledgeDiscoveryfromDatabase,KDD),它是一個從大量數據中抽取挖掘出未知的、有價值的模式或規律等知識的復雜過程。目的是在大量的數據中發現人們感興趣的知識。

常用的數據挖掘技術包括關聯分析、異類分析、分類與預測、聚類分析以及演化分析等。由于數據庫中收集了大量的數據,聚類分析已經成為數據挖掘領域的重要技術之一。

1問題的提出

隨著社會的發展和人們生活水平的提高,優育觀念[2,3]逐漸滲透到每個家庭,小兒的生長發育越來越引起家長們的重視。中國每隔幾年都要進行全國兒童營養調查,然而用手工計算的方法在大量的數據中分析出其中的特點和規律,顯然是不現實的,也是不可行的。為了有效地解決這個問題,數據挖掘技術——聚類分析發揮了巨大的作用。

查看全文

R軟件系統聚類分析剖析

提要多元統計聚類方法已被廣泛應用于自然科學和社會科學的各個領域,而在現實處理多元數據聚類分析中,離不開統計軟件的支持;R軟件由于其免費、開源、強大的統計分析及其完美的作圖功能已得到越來越多人的關注與應用;本文結合實例介紹了R軟件在多元統計系統分析中的應用。

關鍵詞:R軟件;系統聚類分析;多元統計

引言

多元統計分析是統計學的一個重要分支,也稱多變量統計分析;在現實生活中,受多種指標共同作用和影響的現象大量存在,多元統計分析就是研究多個隨機變量之間相互依賴關系及其內在統計規律的重要學科,其中最常用聚類分析方法,由于多元統計聚類分析方法一般涉及復雜的數學理論,一般無法用手工計算,必須有計算機和統計軟件的支持。

在統計軟件方面,常用的統計軟件有SPSS、SAS、STAT、R、S-PLUS,等等。R軟件是一個自由、免費、開源的軟件,是一個具有強大統計分析功能和優秀統計制圖功能的統計軟件,現已是國內外眾多統計學者喜愛的數據分析工具。本文結合實例介紹R軟件在多元統計聚類分析中的應用。

一、系統聚類分析

查看全文

新聚類判別分析研究思考

摘要:在分析經典聚類判別分析方法實質的基礎上,提出了一種新的聚類判別分析框架,改進了一種基于樣本指標值頻度計算的兩總體判別分析算法,提高了在對所有參與建立判別模型的樣本進行判別時的計算速度;給出了建立在此改進判別分析算法基礎上的一種動態聚類判別分析算法的設計,并實現了所有算法。進行相應的實證研究,結果表明以此聚類判別分析框架對給定樣本集合進行分析,可以迅速得到多個合理的聚類結果以及對聚類結果的清晰解釋,既可以對已有的聚類結果進行驗證,又可以進行數據的探索性分析。

關鍵詞:聚類分析;判別分析;動態聚類

0引言

經典聚類分析算法是基于距離計算的。然而除馬氏距離定義外,其他距離定義都存在樣本指標的量綱處理問題;除馬氏距離和斜交空間距離定義外,其他距離定義都存在樣本指標的相關性處理問題;另外,包括馬氏距離在內的所有距離定義都存在將用于聚類的指標同等對待的缺點,不能反映不同指標對聚類結果的貢獻程度。

一般情況下,在確定樣本間距離計算方法的基礎上,用不同的聚類分析方法得到聚類的結果是不會完全一致的。這是因為在實際應用中,許多對象在不同類之間本身并無清晰的劃分。這導致了在既定用于聚類的指標組合的情況下,用不同的聚類方法對同一組樣本進行分析會得到不同的聚類結果。如上所述,即使使用同一種聚類方法,有時由于樣本的排列順序不同,也可能導致不同的分類結果。這就提出了對不同的聚類方法進行評價的問題。關于所用方法好壞的評價,現在還沒有一個合適的標準。Edwards和CAVALLIsforza(1965)曾建議把樣本分成兩類,使得兩類間的離差平方和最大[1]。D.FisherWalter也指出,應該尋找使類內差異最小的聚類方法[2]。因此,評價不同聚類方法的一個重要方面,就是看這些方法得到的聚類結果在類內的接近程度和在類間的相隔程度。一個較好的分類方法應該得到類內差異較小、類間差異較大的聚類結果。在實際應用中,一般采用以下兩種處理方法:a)根據分類問題本身的專業知識,結合實際需要來選擇分類的方法,并確定分類的個數;b)用多種方法對數據進行分析處理,把結果的共性取出來。如果用幾種方法的某些結果都一樣,則說明這樣的聚類確實反映了事物的本質。將有爭議的樣本暫放一邊,或者用其他方法如判別分析進行處理歸類。另外,在聚類分析方法既定的情況下,同一組樣本采用不同的指標組合進行聚類分析,通常也會得到不同的分類結果。產生不同結果的原因主要是由于不同的指標組合測度是樣本間的不同側面的相似程度,在進行聚類分析時存在指標組合選擇的問題。一般是根據聚類的實際需要進行指標的選擇,這是一個比較復雜并且帶有主觀性的問題。實踐中,在開始進行聚類分析時,通常是先選擇多種指標組合分別進行聚類,然后對聚類分析的結果進行對比分析,以確定出合適的測度指標。

判別分析產生于20世紀30年代,是利用已知類別的樣本建立判別模型,為未知類別的樣本判別的一種統計方法。近年來,判別分析在自然科學、社會學及經濟管理學科中都有廣泛的應用。判別分析的特點是根據已掌握的、歷史上每個類別的若干樣本的數據信息,總結出客觀事物分類的規律性,建立判別公式和判別準則。當遇到新的樣本點時,只要根據總結出來的判別公式和判別準則,就能判別該樣本點所屬的類別。判別分析按照判別的組數來區分,可以分為兩組判別分析和多組判別分析。本文僅研究兩組判別分析。在眾多的判別分析方法中,最直觀的是距離判別法。

查看全文

低碳經濟下資源環境現狀的聚類分析

1我國各地區人均廢水、廢氣排放量的聚類分析

1.1我國各地區人均廢水排放量的聚類分析

隨著我國城市化速度的加快,城鄉居民生活水平不斷提高,廢水污染物排放量明顯增多.2011年,我國廢水排放總量為659億噸,其中化學需氧量2500萬噸,氨氮260萬噸,總氮447萬噸,總磷55萬噸,石油類21012噸,揮發酚2431噸,鉛155242千克,汞2892千克,鎘35899千克,六價鉻106395千克,總鉻293166千克,砷146616千克。文章選取2011年我國30個省市(西藏數據缺失)廢水排放量數據,運用SPSS16.0軟件進行聚類分析,將我國各地區人均廢水排放量分為四類。由表2可知,從人均廢水排放量來看,屬于Ⅰ類地區的有云南、甘肅,屬于Ⅱ類地區的有天津、河北、山西、內蒙古、遼寧、吉林、黑龍江、安徽、江西、山東、河南、湖北、湖南、廣西、海南、重慶、四川、云南、陜西、青海、新疆,屬于Ⅲ類地區的有北京、江蘇、浙江、廣東、寧夏,屬于Ⅳ類地區的有上海、福建.發達省份的人均廢水排放量較高,欠發達省份較低,發達地區工業經濟繁榮,企業較多,導致工業廢水排放量居高不下。其中,寧夏造紙業企業較多,造成工業廢水排放量大。我國經濟處于工業化快速發展階段,日趨嚴重的水污染使水體的使用功能降低,制約了我國經濟可持續發展。

1.2我國各地區人均二氧化硫排放量的聚類分析

在廢氣排放方面,2011年我國二氧化硫排放總量為228萬噸,文章選取2011年我國30個省市(西藏數據缺失)二氧化硫排放量數據,運用SPSS16.0軟件進行聚類分析,將我國各地區人均二氧化硫排放量分為四類。由表2可知,從人均二氧化硫排放量來看,屬于Ⅰ類地區的有北京、海南,屬于Ⅱ類地區的有天津、河北、吉林、黑龍江、上海、江蘇、浙江、安徽、福建、江西、山東、河南、湖北、湖南、廣東、廣西、重慶、四川、云南,屬于Ⅲ類地區的有山西、遼寧、貴州、陜西、甘肅、青海、新疆,屬于Ⅳ類地區的有內蒙古、寧夏。能源豐富的省份人均二氧化硫排放量較高,內蒙古和寧夏是典型的以能源工業為支柱產業的省份,煤的開采量多,通過燃燒煤進行火力發電,排放出大量的二氧化硫。

1.3我國各地區人均氮氧化物排放量的聚類分析

查看全文

聚類算法項目成本動因合并研究

摘要:在作業成本法實施過程中,由于成本動因數量龐大及其復雜性導致大多數企業放棄使用作業成本法。因此,科學合理的選擇及合并成本動因是保證作業成本法有效實施的關鍵。文章以A風景園林規劃研究院規劃設計類項目為例,運用主成分分析與聚類分析算法將存在相關性成本動因進行科學有效的合并,最終得到最具代表性的成本動因,顯著降低了作業成本計算的復雜性,在保障項目成本核算準確性的同時,減少了收集和處理成本數據的成本耗費。

關鍵詞:主成分分析;成本動因合并;成本核算;層次聚類;作業成本法

一、引言

作業成本法(Activity-BasedCosting,ABC)自20世紀90年代初引入我國以來,應用已日趨普遍,在行業領域方面已由最初的制造業擴展到了零售、金融、保險以及醫療衛生等行業。隨著近年來園林規劃設計行業競爭的加劇,為了提高成本管理水平,將作業成本法引入到規劃設計類項目成本管理中就顯得十分必要。相對于其他行業,規劃設計行業間接成本占比較大,費用科目較多,不僅核算難度較大,在成本核算過程中需要大量的成本動因來計量間接費用的耗費,大量的成本動因會增加成本核算過程中信息收集、處理的成本,然而,在實務中企業進行成本核算不僅需要考慮結果的準確性,還必須考慮核算成本的提高,這也導致很多企業放棄引入作業成本法。因此,企業在實際運用作業成本法進行成本核算過程中,需要合理選擇并有效合并成本動因,在不損失過多成本精確度的同時減少核算成本耗費。機器學習作為實現人工智能技術的一種方法,憑借強大的計算能力分析數據的特征,將在某些特征上相同或相似數據自動形成集合。在成本動因合并的研究中,運用基于機器學習算法中的降維、聚類等無監督學習算法,有助于企業從大量的成本相關數據中客觀的選擇最具代表性的成本動因,避免人為的經驗判斷導致的主觀偏差,最終提高代表性成本動因選擇的可靠性。縱觀已有文獻,不少學者通過實例運用將同質性成本動因進行合并,能夠實現在可接受的誤差范圍內保證核算結果的準確度[1-2]。然而在規劃設計類項目研究方面,大多學者主要研究于作業成本法在規劃設計類項目適用性和實例運用[3-4],較少從成本動因合并角度解決作業成本法在設計規劃類項目實際應用中的成本效益失衡問題。鑒于此,本文以A風景園林規劃研究院規劃設計類項目為例,以現有成本動因合并理論為基礎,結合設計規劃類企業的特點,構建基于主成分分析算法和層次聚類算法設計項目成本動因合并模型,將一組數據的“主要成分”提取出來而忽略剩下的次要內容,達到數據降維的效果,以減少運算資源消耗的目的,降低作業成本法實施成本和復雜度,提高了規劃設計類單位運用作業成本法的可操作性,從而推進成本核算工作。

二、A研究院項目成本核算的現狀與問題分析

A風景園林規劃研究院(以下簡稱“A研究院”)隸屬于自收自支正處級公益二類事業單位。承擔城市園林綠化管理信息平臺建設工作以及根據資質提供規劃編制、風景園林設計、城市市政工程設計、建筑設計等技術服務。規劃設計類項目不同于傳統的制造行業,其經濟利潤的創造主要依賴人員的知識和技術,知識技術作為單位最基本的核心生產要素,成本核算方法與傳統成本核算存在著顯著的差異。通過對A研究院實地調研以及結合歷史數據分析發現,目前運用作業成本法進行項目成本核算仍存在一些問題。

查看全文

透析證候研究中變量聚類結果

近年來,有不少學者利用系統變量聚類方法對西醫病種中中醫癥狀的分布情況進行研究。例如,麻氏等[1]通過對739例膽病病案進行分析,得到9個類,并把它們分別詮釋為肝膽濕熱證、肝膽郁熱證、肝膽蘊熱證、肝膽氣郁證、血瘀證、脾失健運證、陽虛寒濕證、陰虛內熱證和熱毒亡陽證。筆者剖析系統變量聚類結果的統計學含義,并基于此討論把它們詮釋為證候的合理性。我們的結論是,變量聚類的結果不能詮釋為證候。

1變量聚類結果的統計學含義

在麻氏等[2]分析的膽病數據中,癥狀變量全部是二值的。分析所得的變量類之一如下。

類1:發熱寒戰、右上腹壓痛拒按、黃疸、惡心嘔吐、右上腹疼痛、大便秘結、小便色黃、苔黃、苔膩、脈滑、脈弦、口苦。

本節以這個類為例,剖析系統變量聚類結果的含義。要準確把握這個類的含義,需要考慮3個因素,即“變量”與“事件”這兩個概念的區別、變量間相似系數的定義以及變量類間相似系數的定義。下面逐一討論這3個因素。

1.1變量與事件

查看全文

信息化水平聚類分析論文

1、變量指標的選取

國家統計局在其《中國信息能力報告》中,設計了一套評價我國信息化水平的指標:指標體系共分4級,有25個指標:①信息技術和信息設備應用能力:a.每千人擁有PC數;b.每千人擁有傳真機數;c.每百人擁有電話數;d.每千人擁有電視機數;e.每千人擁有收音機數;f.每萬人接入因特網用戶;g.每百萬人互聯網上網主機數;h.每平方公里光纜長度;i.每百家企事業單位上網數;j.基礎信息產業產值占GDP比重。②信息資源及開發利用能力:a.每戶打國際電話時間;b.每百人期刊發行量;c.每日信息量;d.網絡用戶平均上網時間;e.每萬人Web站點數。③人口素質:a.每萬人平均科學家和工程師數;b.第三產業從業人數占就業總人口比重;c.大學入學率;d.每十萬人在校學生數;e.計算機專家和工程師數。④國家對信息產業發展的支撐:a.信息產業產值占GDP比重;b.研究開發(R&G)支出占GDP比重;c.每主線電信投資;d.人均GNP;e.教育投入。

鑒于遵循數據的客觀性和代表性,以及易得性,本文采取以下指標:每千人工業增加值x1;每千人電信業務量x2;每千人移動通信交換機容量x3;移動電話普及率x4;電話普及率x5;廣播綜合人口覆蓋率x6;電視綜合人口覆蓋率x7;有線電視普及率x8;每十戶寬帶上網用占有戶數x9;R&D經費支出占GDP比重x10;每十人從事科技活動人員總數占有的人數x11;每十人在校大學生人數占有的人數x12;每千人專利授權數占有數x13。其中缺省值用平均值代替或者臨近年數內值代替。由于篇幅有限,指標數據省略。

2、因子分析

因子分析法是能夠實現數據簡化目的的有效方法之一。其基本思想是根據相關性大小把變量分組,使得同組內的變量之間相關性較高,使不同組的變量相關性較低,每組變量代表一個基本結構,這個基本結構稱為公共因子。運用因子分析法,借助EXCEL多元統分析,對已得的指標數據進行分析處理,在處理過程中選取方差貢獻比率為0.80。

按照方差貢獻比率大于80%,應提取前四個因子,它們所解釋的方差占總方差的84.58%,這四個因子就可以解釋原始數據的大部分信息了。

查看全文

K-Means聚類算法數據分析

摘要:K-Means算法是無監督學習中經典的算法之一,通過組間的相異性規則把不同事物劃分為若干類,使各類之間的數據最為相似,不同類數據相異性盡可能最大化。本文通過K-means聚類算法分析某學校大學生期末大學信息技術基礎和C語言程序設計的成績,通過數據分析表明想要提高學生的整體成績,需要在C語言程序設計上付出更大的努力。

關鍵詞:K-means;數據分析;機器學習

1概述

機器學習中有兩類大問題:一個是聚類,另一個是分類。聚類是統計學的概念,屬于非監督機器學習(unsupervisedlearning),應用中數據挖掘,數據分析等領域,根據數據不同特征,將其劃分為不同的數據類,屬于一種無監督學習方法。它的目的是使得屬于同一類別個體之間的密度盡可能的高,而不同類別個體間的密度盡可能的低[1]。分類是用已知的結果類別訓練數據,對預測數據進行預測分類,屬于有監督學習(supervisedlearning),常見的算法如邏輯回歸、支持向量機、深度學習等。聚類也是對數據進行歸類,不過聚類算法的訓練數據只有輸入,事先并不清楚數據的類別,通過特征的相似性對文本進行無監督的學習分類。聚類試圖將數據集中的樣本劃分為若干個通常不相交的子集,每個子集稱為一個簇(cluster)[2]。K-means屬于經典聚類算法,根據樣本間的距離或者相異性進行聚類,把特征相似的樣本歸為一類,相異的樣本歸為不同的簇。

2理論基礎

K-Means算法是從訓練集D={x1,x2,…,xn}中選取K個樣本作為初始聚類中心c=c1,c2,…,ck,計算數據集中每個樣本xi到k個樣本初始中心點的距離,并把每個樣本劃分到離它最近的中心點的類中;每個簇類別βj,重新計算該簇所有樣本的質心βj=1|cj|i∈cjΣxj,重復以上兩步,迭代更新直到每類質心的變化小于閾值或者達到最大迭代次數?;静襟E為選擇數據中心,計算距離,分簇,重新選擇數據的質心,重復,直到數據收斂或達到最大迭代次數。該算法不能保證收斂到全局最優。選擇訓練過程的偽代碼如下:訓練數據n個m維的數據,隨機生成初始化聚類中心k個m維的點。While(t)t為迭代次數Foriinrange(n+1):#n為樣本點個數。Forjinrange(k+1):#k為簇的數目。Foriinrange(k+1):#計算樣本i到每個簇質點j的距離。找出屬于這個簇中的所有數據點,計算這類的質心。重復以上步驟,直到每類質心變化小于設定的閾值或者達到最大的迭代次數。設置最大特征數,設置分類的組K值,訓練特征數據進行數據分析。本文將數據過濾清洗,去除停用詞轉化為向量模型,使用TF-IDF算法對詞頻進行權重計算,TF是詞頻,IDF是逆文檔頻率,TF-IDF反應了一個詞在文本中的重要性它的值是TF×IDF。使用Python中的sklearn模塊的TfidfTransformer、CountVectorizer方法計算TF-IDF值,轉化為空間向量模型,選用K-means聚類算法對數據進行挖掘與分析。

查看全文

聚類分析在財務績效評價的應用

[提要]本文探討數據挖掘技術中聚類分析在財務績效評價中的應用進展。介紹背景及意義,應用現狀,簡述利用聚類分析法進行財務績效評價的一般流程,并提出對財會和數據挖掘技術結合的一些看法和觀點。

關鍵詞:財務績效分析;指標選?。痪垲惙治龇?/p>

引言

(一)背景及意義。企業的財務績效是指企業的運營、戰略的執行等是否能提高企業最終的經營業績。財務績效能夠詳細地反映出企業在對成本的控制能力、合理調配各項資金的水平、管理資產用于盈利的程度。然而,現階段,僅憑借簡單的數據分析對企業財務績效進行分析是不充分、不全面的,所以需要引入其他的研究方法。而且隨著信息時代的來臨,鋪天蓋地的信息碎片為我們的財務工作帶來了巨大的數據量,財務工作中收集到的數據中往往存在一些內在邏輯關系,因此學會利用數據挖掘技術對深入研究財務數據越發重要。數據挖掘中的聚類分析被廣泛應用在各種財務分析中,如財務風險分析、財務績效分析、財務數據分析等。本文將探討聚類分析在財務績效評價中的應用進展。(二)相關概念1、財務績效評價。財務績效評價表示用科學合理的方法對企業某個時期內的生產經營結果進行定性定量的分析,使得企業業績具有可比性。便于利益相關者們直觀地理解財務績效,并對企業經營成果做出客觀、公正的評判。正是因為財務績效評價的客觀性與公正性,財務績效評價已經成為了分析企業經營狀況不可缺少的部分。2、聚類分析。聚類分析的基礎是數據之間存在相似性,在此基礎上將數據分為幾類,是一種常見的數據挖掘手段。數據間的相關性是存在價值的,因此聚類分析可以被用于提取數據間存在的特性來產生價值。在進行聚類之前,需要保證數據之間的相關性,這一步則需要通過因子分析來實現。

一、應用現狀及評價

在財務績效評價和聚類分析的結合方面,國內存在大量研究,下面對一些期刊論文進行綜述,評價應用的現狀及優缺點等。帥麗媛選取我國煤炭上市公司作為研究對象,剔除ST公司以保證財務數據穩定,用13個財務指標反映企業的盈利、償債、營運和發展能力。通過篩選,去除了3個指標,并將反向指標做了正向化處理。最終的側重是盈利能力4個指標,其余能力均是選取2個指標。第一個因子的貢獻率最高為35.667%,再結合其旋轉成分矩陣,能代表盈利能力的資產報酬率X3、凈資產收益率X4、營業凈利率X5、每股收益X6均超過0.85,說明通過因子分析,盈利能力最能影響財務績效評價。下一步對得分進行K-means法聚類分析,得出以下四類情況。第一類:償債能力較強而盈利能力弱,之前分析出盈利能力最能影響評價結果,所以這一類整體排名均靠后。剩余三類排名也均是受盈利能力的強弱影響,比如金瑞礦業,三個指標排名都不靠前,卻能依靠一個盈利指標使綜合排名拉高。指標選取側重點在于盈利能力,所以排名最受盈利能力影響。對于煤炭上市公司指標選取是否應以盈利能力為主,其中原因作者并未敘述。煤炭公司以國企為主,一直是高耗能、高污染產業,而現今時代主題是去產能、去庫存的供給側改革和“綠水青山就是金山銀山”發展理論,其核心指標的選取應該多加分析和探究。李慶東等人對醫藥上市公司的財務績效進行聚類分析,在指標選取過程中,提出了對盈利質量和盈利數量的思考,最終敲定以32個指標來評價115家企業的財務績效。通過因子分析把32個指標降維,最終得到利用效果因子、主營業務獲利因子、現金流量因子、負債水平因子、所有者資本占固定資產價值因子、成長能力因子、經營條件因子、資產保值增值因子和還債壓力因子。不僅能反映企業的盈利、負債、發展和營運能力,還體現了企業的資本結構、現金流量等。通過聚類分析,最終所有企業被分成5類,提煉出每一類的共同點,并對醫藥行業的總體進行論述,最后對需要提高的點提出相應的對策。由于旋轉成分表、得分排名表等均沒有列示,只能看出其指標多、公司多。創新之處在于,提出了盈利的質量,不單單以盈利數量進行分析,其結果更加合理。龐鳳嬌選取32家鋼鐵行業上市公司作為研究對象,剔除其中的ST公司,剩余10家上市公司。將鋼鐵行業的節能減排戰略目標考慮到指標選取當中,并結合行業的實際發展情況,在傳統的財務績效評價體系中加入了股票投資獲利能力?,F今,在股市的投資活動已經成為了眾多企業收入的重要來源,尤其是鋼鐵煤炭等高耗能、高污染傳統行業。作者通過專業知識結合行業狀況,形成了獨特的“綠色技術創新績效評價”體系,把每股收益、每股凈資產、每股未分配利潤和每股股利納入指標體系,較為全面地反映公司的股市投資能力。隨后,剔除相關性較高的指標,形成近似值矩陣,如表1所示。將償債能力每個指標的相關性進行列示,用以展示指標的篩選過程,讓讀者更清晰地理解。最終選擇了13個指標,發展能力3個、股票投資能力3個、盈利能力2個、營運能力2個、償債能力3個,指標分配比較均勻,沒有特別偏重的情況。研究使用的聚類方法是層次聚類法,使用平均距離來計算因子間的距離。平均距離可以反映類內每個點之間的距離,比較客觀、合理。此外,由于分析中加入了股票獲利能力,不僅給行業內部人員參考建議,還能讓股票市場的投資者對公司股票的漲跌有了清楚的認知。(表1)呂振君從盈利、償債、發展和營運能力四個傳統方面來考察50家物流企業的財務績效,指標選取很常規、很均勻,每組3個指標,但沒有見到對反向指標的正向化處理。在聚類分析的過程中,作者創造性地對聚類完成后的三個種類建立了得分評判標準,通過數據分析來清晰地展現每一類間的差別。付靜使用因子分析法和聚類分析法分析了28家上市公司的競爭力狀況,選取18個指標,運用SPSS軟件進行因子分析和聚類分析,但在聚類分析過程中,只對綜合得分這一個指標進行聚類。其指標所含信息丟失嚴重,為避免信息損失,應該對所有因子的得分進行分別的權重計算,即用各自的得分乘以其權重,得出新的權重得分,再對結果進行聚類,才能保證信息盡可能反映在結果中。綜上,在文獻閱讀的過程中,可以得出一些簡單的體會:指標的選取應該結合行業發展背景來看,不能忽略行業的制約因素和重大影響因素,比如龐鳳嬌建立的“綠色技術創新績效評價”體系,為高污染、高排放企業績效評價提供借鑒意義。此外,指標在體系中的分布應該盡量均勻,不能厚此薄彼,如果偏重點過于集中,那么得出的結論是具有一定導向性的,比如說盈利能力指標占所以指標的50%以上,盈利指標的權重得分一定最高。在指標選取過程中,需要對反向指標進行正向化處理,比較常見的有用1減去原指標、取倒數等處理手段。具體實施過程可以借鑒龐鳳嬌的相關性矩陣處理,可以直接清晰地反映出如何剔除指標。另外,進行聚類分析時,不能僅用單個指標或綜合得分進行聚類,因為在數據折疊、展開過程中丟失的信息太多,而且如果類內只有一個數據,與別的數據計算之間的歐式距離沒有意義。此外,如果能像呂振君那樣建立一個分類評分標準,那么整個績效評價過程會更加完善,得出的結果也更有說服力。

查看全文

雙網格校正小波聚類在航空發動機的應用

摘要:航空發動機的核心部件轉子系統,它的工作狀態關系到整臺機械設備的運行狀態,對其進行狀態監測和故障診斷能夠提高生產效率、避免重大事故發生,對現代工業的發展具有重大的意義。通過運用雙網格校正小波聚類算法分析航空發動機的故障信號可以更好的將同類數據歸類,并將噪聲數據從類中分離出來,從而提高聚類精度和更快得到聚類結果,因此該診斷方法可以提高航空發動機轉子系統的故障診斷水平。

關鍵詞:小波聚類;雙網格校正;航空發動機;故障診斷

航空航天產業的快速發展,越來越得到人們的重視,安全問題也成了重中之重的事情,輕則影響飛機的正常運行,重則機毀人亡,會給社會和人們帶來嚴重的經濟損失。航空發動機作為飛機的重要組成部分,直接關系到飛機的安全飛行。而航空發動機的核心零部件轉子系統,轉子系統的正常運行尤為重要,直接關系到飛機的運行狀態,因此對轉子系統進行狀態監測和故障診斷具有重要意義。WaveCluster算法是由GholamhoseinSheikholeslami、SurojitChatterjee、AidongZhang提出的,經過多次完善,最終形成了現有的Wave-Cluster算法[1]。鄧貝貝對小波聚類算法在轉子故障診斷中的應用進行了初步探索[2];劉曉波教授提出一種基于雙網格校正的小波聚類算法,并應用于轉子故障診斷中[3],因此本文利用雙網格校正小波聚類算法對航空發動機轉子系統的故障信號進行診斷。

1基于雙網格校正小波聚類算法

小波聚類最終的量化結果是運用一種尺寸對空間進行均勻量化,一般而言,通過細化網格來準確捕獲邊界,但細化網格產生的網格點數的波動因閾值的設置可能使類分裂成更多小類,這就造成細化網格、聚類精度與閾值之間存在矛盾,而并行校正算法在這之間找到了一個平衡:降低網格劃分和密度閾值對聚類結果的影響,雙網格校正算法的框圖如圖1所示。小波聚類[4]最重要的思想是將數據空間轉換為信號空間,而后在信號空間中利用小波變換的原理去求解數據空間中數據聚類的問題,這種轉換最大限度地利用了小波變換和網格聚類兩者的優勢?;陔p網格校正小波聚類算法是以兩種尺寸對空間并行量化,運用元胞數組結構對有效信息進行存儲和運算,降低高維空間復雜度,運用廣度優先搜索[5]鄰居網格單元連通聚類,提高聚類精度,并行地進行原始網格小波聚類和校正網格小波聚類,最后通過校正算法對原始網格小波聚類結果進行校正[6]。在量化之前就要先確定下特征空間的維數d。在雙網格校正小波聚類中,采取的是兩種尺度的網格對信號數據空間進行量化,確定K的取值范圍[Kmin,Kmax]。根據啟發式方法確定K的取值:[Kmin]。根據經驗公式K=int(姨N),得到最佳劃分值為[Kmax]。其中,N為數據的個數,d為特征空間的維數。

2實驗分析

查看全文