大數(shù)據(jù)下數(shù)據(jù)挖掘算法綜述

時(shí)間:2022-12-07 10:19:43

導(dǎo)語(yǔ):大數(shù)據(jù)下數(shù)據(jù)挖掘算法綜述一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

大數(shù)據(jù)下數(shù)據(jù)挖掘算法綜述

【摘要】在互聯(lián)網(wǎng)發(fā)展的早期,雖然每天也會(huì)產(chǎn)生很多新的數(shù)據(jù),但是數(shù)據(jù)量相對(duì)而言還可以用人力分析的方法來(lái)處理,并且對(duì)于固定的某個(gè)站點(diǎn)和角度去切入的話,所需要處理的數(shù)據(jù)量就更少了。隨著互聯(lián)網(wǎng)的飛速發(fā)展,每天產(chǎn)生的全新數(shù)據(jù)越來(lái)越多,并且呈指數(shù)態(tài)勢(shì)上升,大量的數(shù)據(jù)中勢(shì)必蘊(yùn)含著大量有價(jià)值的信息,如果能抽取出這些信息,那么對(duì)于企業(yè)的發(fā)展和社會(huì)的發(fā)展都將大有裨益,在這個(gè)背景之下,很多數(shù)據(jù)挖掘處理方法應(yīng)運(yùn)而生。數(shù)據(jù)挖掘即使用計(jì)算機(jī)工具從海量的數(shù)據(jù)中挖掘出有價(jià)值的模式和規(guī)律,并用這些模式和規(guī)律去預(yù)測(cè)和指導(dǎo)未來(lái)的行為。在當(dāng)今的互聯(lián)網(wǎng)背景之下,最為常用的數(shù)據(jù)挖掘算法有頻繁模式挖掘、聚類(lèi)分析、決策樹(shù)和貝葉斯網(wǎng)絡(luò)等,本文將從若干方面入手,條理系統(tǒng)地介紹一下各類(lèi)數(shù)據(jù)挖掘算法的原理、使用方法以及適用范圍,力求為數(shù)據(jù)挖掘算法的應(yīng)用提供一個(gè)良好的參考和指導(dǎo)。

【關(guān)鍵詞】數(shù)據(jù)挖掘;頻繁模式挖掘;聚類(lèi)分析

1導(dǎo)論

1.1背景問(wèn)題.當(dāng)今互聯(lián)網(wǎng)上90%以上的數(shù)據(jù)都是在兩年內(nèi)產(chǎn)生的,并且每天產(chǎn)生的數(shù)據(jù)量仍然在以巨大的速度上升,在這樣的背景之下,對(duì)于海量的數(shù)據(jù)僅僅有接收和存儲(chǔ)的能力是不夠的,還需要對(duì)這些數(shù)據(jù)進(jìn)行有效的處理,進(jìn)而獲取能指導(dǎo)未來(lái)行為的規(guī)律和模式,并提高企業(yè)、社會(huì)、組織和機(jī)構(gòu)的效益以及效率。計(jì)算機(jī)處理數(shù)據(jù)的速度很快,但是從海量數(shù)據(jù)中挖掘規(guī)律并不是簡(jiǎn)單的操作,因此需要有行之有效的數(shù)據(jù)挖掘算法來(lái)完成在數(shù)據(jù)中“沙里淘金”的過(guò)程,因此各種數(shù)據(jù)挖掘算法也就應(yīng)運(yùn)而生了。1.2研究綜述.在數(shù)據(jù)挖掘領(lǐng)域中,涌現(xiàn)了一大批各式各樣的算法,其中應(yīng)用最為廣泛的是頻繁模式挖掘、聚類(lèi)分析、決策樹(shù)和隨機(jī)森林、貝葉斯網(wǎng)絡(luò)這四類(lèi),其他算法很多是基于這四大類(lèi)算法的改進(jìn)和擴(kuò)展。其中頻繁模式挖掘的作用是從大量的數(shù)據(jù)(事務(wù)集)中獲取某些項(xiàng)之間的相關(guān)模式,它可以用于指導(dǎo)項(xiàng)之間的關(guān)聯(lián)分析。聚類(lèi)分析的作用是對(duì)于大量的數(shù)據(jù)進(jìn)行聚類(lèi)操作,通過(guò)查看哪些數(shù)據(jù)聚攏在一起來(lái)對(duì)數(shù)據(jù)進(jìn)行分類(lèi)和相關(guān)分析。決策樹(shù)是通過(guò)以數(shù)據(jù)中各個(gè)屬性為分類(lèi)依據(jù)將數(shù)據(jù)不算分類(lèi),最終構(gòu)成一個(gè)樹(shù)的形態(tài),用于對(duì)數(shù)據(jù)進(jìn)行分類(lèi)判別處理;隨機(jī)森林是使用多棵決策樹(shù)同時(shí)進(jìn)行判別和分類(lèi),最終投票選出結(jié)果。貝葉斯網(wǎng)絡(luò)同樣是一種分類(lèi)算法,在已知“執(zhí)因索果”的前提條件下,通過(guò)條件概率和貝葉斯概率公式,進(jìn)行“執(zhí)果索因”的操作,是貝葉斯公式的成功運(yùn)用。1.3本文介紹.本文從頻繁模式挖掘和聚類(lèi)分析的角度出發(fā),分別對(duì)這兩個(gè)算法進(jìn)行介紹和分析。每一部分算法都分為三個(gè)部分,分別是算法介紹、算法過(guò)程以及算法分析。算法介紹部分主要是關(guān)于算法的主要思想,算法過(guò)程部分介紹了算法具體模型和執(zhí)行過(guò)程,在算法分析部分,本文從算法的優(yōu)缺點(diǎn)和應(yīng)用場(chǎng)景分別給出了解釋和說(shuō)明。

2頻繁模式挖掘

2.1算法介紹.頻繁模式挖掘的目的是在大量的數(shù)據(jù)中獲取到頻繁出現(xiàn)的模式,這些模式以規(guī)則的形式出現(xiàn),即X→Y的形式,其中X和Y都是項(xiàng)集,即若干項(xiàng)組成的集合,這個(gè)規(guī)則表示的含義是“若項(xiàng)集X出現(xiàn),則項(xiàng)集Y也可能會(huì)出現(xiàn)”,那么如果要度量這個(gè)規(guī)則是否可用,需要從兩個(gè)方面入手,即這個(gè)規(guī)則足夠常見(jiàn)以及這個(gè)規(guī)則足夠可信。對(duì)于“足夠常見(jiàn)”的度量,有一個(gè)度量指標(biāo)叫做支持度,對(duì)于集合S來(lái)說(shuō),它的支持度表示為sup(s)={ti|S奐ti,ti奐T}T,其中T是全體數(shù)據(jù),以事務(wù)集的形式給出(即若干原始項(xiàng)集構(gòu)成的列表),ti是事務(wù)集中的一個(gè)事務(wù)(即一個(gè)原始項(xiàng)集)。一個(gè)集合的支持度越高,那么它就出現(xiàn)得越頻繁。對(duì)于“足夠可信”的度量,有一個(gè)度量指標(biāo)叫置信度,對(duì)于規(guī)則X→Y而言,它的置信度表示為conf(X→Y)=sup(X∪Y)sup(X),即集合X∪Y的支持度與集合X的支持度的比值。對(duì)于一個(gè)合格有用的規(guī)則而言,它的支持度和置信度要同時(shí)滿足一定的標(biāo)準(zhǔn)才可以被接受,因此對(duì)于頻繁模式挖掘需要另外設(shè)置兩個(gè)閾值,分別是最小支持度閾值min_sup和最小置信度閾值min_conf,只有指定的規(guī)則同時(shí)滿足這兩個(gè)閾值的情況下,才可以認(rèn)為該規(guī)則是可以被接受的。對(duì)于具體的問(wèn)題,最小支持度閾值和最小置信度閾值往往不同。2.2算法過(guò)程.對(duì)于頻繁模式挖掘而言,算法的步驟一共分為兩個(gè)大部分,即頻繁模式的計(jì)算和頻繁規(guī)則的計(jì)算,下邊分別介紹這兩個(gè)部分:2.2.1頻繁模式的計(jì)算.頻繁模式也叫頻繁項(xiàng)集,即從給定的數(shù)據(jù)集中找到那些頻繁出現(xiàn)的項(xiàng)集。頻繁模式的計(jì)算方法很多,如Fk-1×F1、Fk-1×Fk-1和FPTree等,這里著重介紹Fk-1×F1方法,下邊是計(jì)算過(guò)程:(1)首先計(jì)算所有的1-頻繁項(xiàng)集,并放入1-頻繁項(xiàng)集的集合中;(2)對(duì)于當(dāng)前的輪次(初始值為1),求兩個(gè)集合Fk的笛卡爾積,然后求出結(jié)果中所有的頻繁項(xiàng)集,對(duì)于(k-頻繁項(xiàng)集,放入其所屬的集合中;(3)進(jìn)入下一輪次,重復(fù)執(zhí)行2)的操作;(4)如果某一輪中沒(méi)有新的頻繁項(xiàng)集產(chǎn)生,則算法終止。2.2.2頻繁規(guī)則的計(jì)算.頻繁規(guī)則的計(jì)算是要基于頻繁模式的,簡(jiǎn)證如下:對(duì)于集合X1奐X,X2奐X,X1∩X2=覫,X1∪X2=X,X1≠覫,X2≠覫而言,所有可能的規(guī)則X1→X2的支持度都是X本身的支持度sup(X),因此如果直接求規(guī)則會(huì)產(chǎn)生大量重復(fù)的計(jì)算,并且如果X不是頻繁項(xiàng)集,那么規(guī)則X1→X2肯定也不是我們需要的規(guī)則,因此欲求頻繁規(guī)則,則應(yīng)先求頻繁模式,再由頻繁模式導(dǎo)出規(guī)則。對(duì)于給定頻繁項(xiàng)集X,從中導(dǎo)出規(guī)則的算法過(guò)程如下:(1)對(duì)于中的每一項(xiàng),都構(gòu)造出類(lèi)似X-xi的規(guī)則形式,并挑選出其中的有效規(guī)則備用;(2)兩兩合并后件中只有一個(gè)元素不同的規(guī)則,然后形成一個(gè)新的規(guī)則,判斷其是否是有效的,如果是,則仍然放入規(guī)則集合中,留待以后計(jì)算;(3)重復(fù)以上過(guò)程直到?jīng)]有新的規(guī)則產(chǎn)生。2.3算法特點(diǎn).對(duì)于頻繁模式挖掘而言,它適合求取大量的數(shù)據(jù)中某些事務(wù)之間的關(guān)聯(lián),并且過(guò)程簡(jiǎn)潔明了,非常易于編寫(xiě)和修改擴(kuò)展。但是同樣地,頻繁模式挖掘算法的理論時(shí)間復(fù)雜度是指數(shù)級(jí)的,雖然經(jīng)過(guò)重重優(yōu)化之后的實(shí)際表現(xiàn)不錯(cuò),但是整體仍然需要進(jìn)行大量的計(jì)算,因此當(dāng)數(shù)據(jù)集特別大的時(shí)候,使用頻繁模式挖掘很難迅速準(zhǔn)確地得到期待的結(jié)果。

3聚類(lèi)分析

3.1算法介紹.對(duì)于給定的數(shù)據(jù),如果數(shù)據(jù)中的若干屬性都可以量化,則能夠把一個(gè)單個(gè)數(shù)據(jù)的n個(gè)屬性當(dāng)做坐標(biāo)方向的偏移量,然后可以把這個(gè)數(shù)據(jù)映射到n維笛卡爾坐標(biāo)系中的一個(gè)點(diǎn),這樣就可以把給定的大量數(shù)據(jù)轉(zhuǎn)換成n維坐標(biāo)系統(tǒng)的若干點(diǎn),通過(guò)對(duì)這些點(diǎn)進(jìn)行分析和處理,進(jìn)而得到分類(lèi)情況,最終可以得到數(shù)據(jù)之間的關(guān)聯(lián)和分類(lèi)情況。對(duì)于聚類(lèi)分析算法而言,關(guān)鍵點(diǎn)是如何判定兩個(gè)點(diǎn)之間在什么情況下應(yīng)該被聚攏在一起(即聚類(lèi)依據(jù)),根據(jù)聚類(lèi)依據(jù)的不同,聚類(lèi)分析算法中又可以延伸出若干不同的算法,如劃分聚類(lèi)、層次聚類(lèi)、密度聚類(lèi)、網(wǎng)格聚類(lèi)、圖聚類(lèi)和譜聚類(lèi)等等,這些聚類(lèi)方法各有特點(diǎn)和使用場(chǎng)景,在這里我們主要選取劃分聚類(lèi)來(lái)介紹。3.2算法過(guò)程.在劃分聚類(lèi)中,最為著名的就是K-Means算法,即“K均值”算法。它的主要思想是將歐幾里得距離作為聚類(lèi)依據(jù),將坐標(biāo)系中的點(diǎn)聚攏成不同的分類(lèi),假設(shè)要將指定的數(shù)據(jù)分成k類(lèi),那么算法過(guò)程如下:(1)在給定的點(diǎn)集中隨機(jī)選取K個(gè)點(diǎn)作為初始的聚類(lèi)中心;(2)對(duì)于點(diǎn)集的每一個(gè)點(diǎn),都計(jì)算其與K個(gè)聚類(lèi)中心的距離,選取距離最近的那個(gè)聚類(lèi)中心所在的簇作為當(dāng)前點(diǎn)所屬的簇;(3)聚類(lèi)結(jié)束之后,重新對(duì)每一簇計(jì)算新的聚類(lèi)中心,計(jì)算方法是求各個(gè)點(diǎn)的平均值;(4)如此迭代,知道聚類(lèi)中心不再發(fā)生變化為止,此時(shí)即得到了K個(gè)簇。3.3算法特點(diǎn).算法適合于數(shù)據(jù)各個(gè)屬性易于量化和抽取的數(shù)據(jù),并且有著明確的分類(lèi)需求,而且事先制定了簇的數(shù)目。但是當(dāng)沒(méi)有確切的簇的數(shù)目被指定的時(shí)候,K-Means算法有時(shí)候并不一定會(huì)有很好的結(jié)果。

4結(jié)論

4.1本文結(jié)論.本文從數(shù)據(jù)挖掘的角度出發(fā),在大數(shù)據(jù)的背景下梳理了常見(jiàn)的數(shù)據(jù)挖掘算法,并且給出了不同的數(shù)據(jù)挖掘算法各自不同的特點(diǎn),給其他人提供了思路和借鑒。4.2研究展望.本文本次只從若干方法入手來(lái)分析,數(shù)據(jù)挖掘領(lǐng)域仍然有很多的算法未被梳理,之后本文將繼續(xù)沿著這個(gè)方向梳理數(shù)據(jù)挖掘領(lǐng)域更多的算法。參考文獻(xiàn)[1]鄭偉.數(shù)據(jù)挖掘在人工智能上的應(yīng)用實(shí)踐.[2]王雷.基于大數(shù)據(jù)挖掘的國(guó)防交通建設(shè)研究.[3]葛俊言.數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究.[4]張佳.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)及其應(yīng)用探析.[5]羅之皓.知識(shí)圖譜的Top-k摘要模式挖掘方法.[6]何鎮(zhèn)宏.并行頻繁項(xiàng)集挖掘算法研究.[7]柴變芳.基于主動(dòng)學(xué)習(xí)先驗(yàn)的半監(jiān)督Kmeans聚類(lèi)算法.[8]金輝.自然最近鄰優(yōu)化的密度峰值聚類(lèi)算法.[9]魏杰.基于K-means聚類(lèi)算法改進(jìn)算法的研究.

作者:鄭州外國(guó)語(yǔ)學(xué)校 單位:鄭州外國(guó)語(yǔ)學(xué)校