大數(shù)據(jù)聚類(lèi)分析實(shí)例_聚類(lèi)分析的方法及應(yīng)用
本文關(guān)鍵詞:聚類(lèi)分析,由筆耕文化傳播整理發(fā)布。
通常,我們?cè)谘芯颗c處理事物時(shí),經(jīng)常需要將事物進(jìn)行分類(lèi),例如地質(zhì)勘探中根據(jù)物探、化探的指標(biāo)將樣本進(jìn)行分類(lèi);古生物研究中根據(jù)挖掘出的骨骼形狀和尺寸將它們分類(lèi);大壩監(jiān)控中由于所得的觀測(cè)數(shù)據(jù)量十分龐大,有時(shí)亦需將它們分類(lèi)歸并,獲得其典型代表再進(jìn)行深入分析等,對(duì)事物進(jìn)行分類(lèi),進(jìn)而歸納并發(fā)現(xiàn)其規(guī)律已成為人們認(rèn)識(shí)世界、改造世界的一種重要方法。
由于對(duì)象的復(fù)雜性,僅憑經(jīng)驗(yàn)和專(zhuān)業(yè)知識(shí)有時(shí)不能確切地分類(lèi),隨著多元統(tǒng)計(jì)技術(shù)的發(fā)展和計(jì)算機(jī)技術(shù)的普及,利用數(shù)學(xué)方法進(jìn)行更科學(xué)的分類(lèi)不僅非常必要而且完全可能。
近些年來(lái),數(shù)值分類(lèi)學(xué)逐漸形成了一個(gè)新的分支,稱(chēng)為聚類(lèi)分析,聚類(lèi)分析適用于很多不同類(lèi)型的數(shù)據(jù)集合,很多研究領(lǐng)域,如工程、生物、醫(yī)藥、語(yǔ)言、人類(lèi)學(xué)、心理學(xué)和市場(chǎng)學(xué)等,都對(duì)聚類(lèi)技術(shù)的發(fā)展和應(yīng)用起到了推動(dòng)作用。
1、什么是聚類(lèi)分析?
聚類(lèi)分析也稱(chēng)群分析或點(diǎn)群分析,它是研究多要素事物分類(lèi)問(wèn)題的數(shù)量方法,是一種新興的多元統(tǒng)計(jì)方法,是當(dāng)代分類(lèi)學(xué)與多元分析的結(jié)合。其基本原理是,根據(jù)樣本自身的屬性,用數(shù)學(xué)方法按照某種相似性或差異性指標(biāo),定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對(duì)樣本進(jìn)行聚類(lèi)。
聚類(lèi)分析是將分類(lèi)對(duì)象置于一個(gè)多維空問(wèn)中,按照它們空問(wèn)關(guān)系的親疏程度進(jìn)行分類(lèi)。
通俗的講,聚類(lèi)分析就是根據(jù)事物彼此不同的屬性進(jìn)行辨認(rèn),將具有相似屬性的事物聚為一類(lèi),使得同一類(lèi)的事物具有高度的相似性。
聚類(lèi)分析方法,是定量地研究地理事物分類(lèi)問(wèn)題和地理分區(qū)問(wèn)題的重要方法,常見(jiàn)的聚類(lèi)分析方法有系統(tǒng)聚類(lèi)法、動(dòng)態(tài)聚類(lèi)法和模糊聚類(lèi)法等。
2、聚類(lèi)分析方法的特征
(1)、聚類(lèi)分析簡(jiǎn)單、直觀。
(2)、聚類(lèi)分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個(gè)可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析。
(3)、不管實(shí)際數(shù)據(jù)中是否真正存在不同的類(lèi)別,利用聚類(lèi)分析都能得到分成若干類(lèi)別的解。
(4)、聚類(lèi)分析的解完全依賴(lài)于研究者所選擇的聚類(lèi)變量,增加或刪除一些變量對(duì)最終的解都可能產(chǎn)生實(shí)質(zhì)性的影響。
(5)、研究者在使用聚類(lèi)分析時(shí)應(yīng)特別注意可能影響結(jié)果的各個(gè)因素。
(6)、異常值和特殊的變量對(duì)聚類(lèi)有較大影響,當(dāng)分類(lèi)變量的測(cè)量尺度不一致時(shí),需要事先做標(biāo)準(zhǔn)化處理。
3、聚類(lèi)分析的發(fā)展歷程
在過(guò)去的幾年中聚類(lèi)分析發(fā)展方向有兩個(gè):加強(qiáng)現(xiàn)有的聚類(lèi)算法和發(fā)明新的聚類(lèi)算法。現(xiàn)在已經(jīng)有一些加強(qiáng)的算法用來(lái)處理大型數(shù)據(jù)庫(kù)和高維度數(shù)據(jù),例如小波變換使用多分辨率算法,網(wǎng)格從粗糙到密集從而提高聚類(lèi)簇的質(zhì)量。
然而,對(duì)于數(shù)據(jù)量大、維度高并且包含許多噪聲的集合,要找到一個(gè)“全能”的聚類(lèi)算法是非常困難的。某些算法只能解決其中的兩個(gè)問(wèn)題,同時(shí)能很好解決三個(gè)問(wèn)題的算法還沒(méi)有,現(xiàn)在最大的困難是高維度(同時(shí)包含大量噪聲)數(shù)據(jù)的處理。
算法的可伸縮性是一個(gè)重要的指標(biāo),通過(guò)采用各種技術(shù),一些算法具有很好的伸縮性。這些技術(shù)包括:數(shù)據(jù)采樣、信息濃縮、網(wǎng)格和索引。
CLARANS是最早使用數(shù)據(jù)采樣的算法,CURE使用優(yōu)選的采樣點(diǎn),信息濃縮技術(shù)在BIRCH方法和DECLIJE方法中得到應(yīng)用。
許多算法都使用了索引技術(shù),典型的有:BIRCH方法、DBSCAN方法、小波變換方法、DENCLUE方法、DENCLUE方法、小波變換方法、STING方法和CLIQUE方法使用了網(wǎng)格技術(shù)。
但是以上方法仍然不能很好地處理高維度并且大數(shù)據(jù)量的集合。
最近馬海祥還發(fā)現(xiàn)了一些新的技術(shù)如:STING+方法引入動(dòng)態(tài)數(shù)據(jù)挖掘觸發(fā)器:mAFIA方法引入間距尺寸自適應(yīng)網(wǎng)格分割算法;OptiGrid算法使用迭代和網(wǎng)格等技術(shù)處理高維度數(shù)據(jù)。
新技術(shù)的引進(jìn)大大加強(qiáng)了聚類(lèi)算法的效能,尤其提升了處理高維度數(shù)據(jù)的能力,但是由于這些算法剛剛形成,所以在某些地方還有待完善,對(duì)于剛接觸數(shù)據(jù)分析的博友,可以先看下馬海祥博客的《解讀常用的10種可用性研究數(shù)據(jù)類(lèi)型方法》相關(guān)介紹。
4、系統(tǒng)聚類(lèi)分析法
系統(tǒng)聚類(lèi)法(Hierarchical Clustering Method)是目前國(guó)內(nèi)外使用晟多的一種方法,有關(guān)它的研究極為豐富。其基本思想是:先將11個(gè)樣本各自看成一類(lèi),然后規(guī)定樣本之間的距離和類(lèi)與類(lèi)之間的距離;然后選擇距離最小的一對(duì)并成一個(gè)新類(lèi),計(jì)算新類(lèi)和其他類(lèi)的距離;再將距離最小的兩類(lèi)合并,這樣每次減少一類(lèi),直至所有的樣本都成為一類(lèi)為止。
在馬海祥看來(lái)系統(tǒng)聚類(lèi)法的優(yōu)點(diǎn)在于:利用樣本之問(wèn)的距離最近原則進(jìn)行聚類(lèi)。這種系統(tǒng)歸類(lèi)過(guò)程與所規(guī)定的歸類(lèi)指數(shù)有關(guān),同時(shí)也與具體的歸類(lèi)方法有關(guān)系,整個(gè)聚類(lèi)過(guò)程可用一張聚類(lèi)圖(樹(shù))形象表示。
在聚類(lèi)分析中,聚類(lèi)要素的選擇是十分重要的,它直接影響分類(lèi)結(jié)果的準(zhǔn)確性和可靠性,在地理分類(lèi)和研究分區(qū)中,被聚類(lèi)的對(duì)象常常是多個(gè)要素構(gòu)成的。
不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會(huì)對(duì)分類(lèi)結(jié)果產(chǎn)生影響,因此當(dāng)分類(lèi)要素的對(duì)象確定之后,在進(jìn)行聚類(lèi)分析之前,首先要對(duì)數(shù)據(jù)要素進(jìn)行處理。
在聚類(lèi)分析中,常用的聚類(lèi)要素的數(shù)據(jù)處理方法有如下幾種:
①、總和標(biāo)準(zhǔn)化
②、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化
③、極大值標(biāo)準(zhǔn)化
④、極差的標(biāo)準(zhǔn)化
經(jīng)過(guò)這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。
距離是事物之間差異性的測(cè)度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類(lèi)分析的依據(jù)和基礎(chǔ)。
5、聚類(lèi)分析的3種方法
聚類(lèi)分析是數(shù)據(jù)挖掘中的一個(gè)很活躍的研究領(lǐng)域,并提出了許多聚類(lèi)算法。
(1)、直接聚類(lèi)法
直接聚類(lèi)法是根據(jù)距離矩陣的結(jié)構(gòu)一次并類(lèi)得到結(jié)果,其基本步驟如下:
①、把各個(gè)分類(lèi)對(duì)象單獨(dú)視為一類(lèi);
②、根據(jù)距離最小的原則,依次選出一對(duì)分類(lèi)對(duì)象,并成新類(lèi);
③、如果其中一個(gè)分類(lèi)對(duì)象已歸于一類(lèi),則把另一個(gè)也歸入該類(lèi);如果一對(duì)分類(lèi)對(duì)象正好屬于已歸的兩類(lèi),則把這兩類(lèi)并為一類(lèi);每一次歸并,都劃去該對(duì)象所在的列與列序相同的行;
④、那么,經(jīng)過(guò)m-1次就可以把全部分類(lèi)對(duì)象歸為一類(lèi),這樣就可以根據(jù)歸并的先后順序作出聚類(lèi)譜系圖,直接聚類(lèi)法雖然簡(jiǎn)便,但在歸并過(guò)程中是劃去行和列的,因而難免有信息損失,因此,直接聚類(lèi)法并不是最好的系統(tǒng)聚類(lèi)方法。
(2)、最短距離聚類(lèi)法
最短距離聚類(lèi)法是在原來(lái)的m×m距離矩陣的非對(duì)角元素中找出 ,把分類(lèi)對(duì)象Gp和Gq歸并為一新類(lèi)Gr,然后按計(jì)算公式計(jì)算原來(lái)各類(lèi)與新類(lèi)之間的距離,這樣就得到一個(gè)新的(m-1)階的距離矩陣。
再?gòu)男碌木嚯x矩陣中選出最小者,把Gi和Gj歸并成新類(lèi);再計(jì)算各類(lèi)與新類(lèi)的距離,這樣一直下去,直至各分類(lèi)對(duì)象被歸為一類(lèi)為止。
(3)、最遠(yuǎn)距離聚類(lèi)法
最遠(yuǎn)距離聚類(lèi)法與最短距離聚類(lèi)法的區(qū)別在于計(jì)算原來(lái)的類(lèi)與新類(lèi)距離采用的公式不同。
6、系統(tǒng)聚類(lèi)方法的步驟
(1)、對(duì)數(shù)據(jù)進(jìn)行變換處理;(不是必須的,當(dāng)數(shù)量級(jí)相差很大或指標(biāo)變量具有不同單位時(shí)是必要的)
(2)、構(gòu)造n個(gè)類(lèi),每個(gè)類(lèi)只包含一個(gè)樣本;
(3)、計(jì)算n個(gè)樣本兩兩間的距離;
(4)、合并距離最近的兩類(lèi)為一新類(lèi);
(5)、計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離,若類(lèi)的個(gè)數(shù)等于1,轉(zhuǎn)到6;否則回4;
(6)、畫(huà)聚類(lèi)圖;
(7)、決定類(lèi)的個(gè)數(shù),從而得出分類(lèi)結(jié)果。
7、聚類(lèi)分析的主要應(yīng)用
對(duì)于聚類(lèi)分析的應(yīng)用,馬海祥簡(jiǎn)單的從以下6個(gè)領(lǐng)域?yàn)榇蠹铱偨Y(jié)了一下:
(1)、商業(yè)
聚類(lèi)分析被用來(lái)發(fā)現(xiàn)不同的客戶(hù)群,并且通過(guò)購(gòu)買(mǎi)模式刻畫(huà)不同的客戶(hù)群的特征。
聚類(lèi)分析是細(xì)分市場(chǎng)的有效工具,同時(shí)也可用于研究消費(fèi)者行為,尋找新的潛在市場(chǎng)、選擇實(shí)驗(yàn)的市場(chǎng),并作為多元分析的預(yù)處理。
(2)、生物
聚類(lèi)分析被用來(lái)動(dòng)植物分類(lèi)和對(duì)基因進(jìn)行分類(lèi),獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí)。
(3)、地理
聚類(lèi)能夠幫助在地球中被觀察的數(shù)據(jù)庫(kù)商趨于的相似性。
(4)、保險(xiǎn)行業(yè)
聚類(lèi)分析通過(guò)一個(gè)高的平均消費(fèi)來(lái)鑒定汽車(chē)保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類(lèi)型,價(jià)值,地理位置來(lái)鑒定一個(gè)城市的房產(chǎn)分組。
(5)、因特網(wǎng)
聚類(lèi)分析被用來(lái)在網(wǎng)上進(jìn)行文檔歸類(lèi)來(lái)修復(fù)信息(關(guān)于這點(diǎn)我也曾在馬海祥博客的《實(shí)例解析關(guān)鍵詞聚類(lèi)的方法策略》一文中跟大家詳細(xì)的介紹過(guò))。
(6)、電子商務(wù)
聚類(lèi)分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個(gè)方面,通過(guò)分組聚類(lèi)出具有相似瀏覽行為的客戶(hù),并分析客戶(hù)的共同特征,,可以更好的幫助電子商務(wù)的用戶(hù)了解自己的客戶(hù),向客戶(hù)提供更合適的服務(wù)。
馬海祥博客點(diǎn)評(píng):
聚類(lèi)分析是一種探索性的分析,在分類(lèi)的過(guò)程中,人們不必事先給出一個(gè)分類(lèi)的標(biāo)準(zhǔn),聚類(lèi)分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類(lèi),聚類(lèi)分析所使用方法的不同,常常會(huì)得到不同的結(jié)論,不同研究者對(duì)于同一組數(shù)據(jù)進(jìn)行聚類(lèi)分析,所得到的聚類(lèi)數(shù)未必一致。
本文為馬海祥博客原創(chuàng)文章,如想轉(zhuǎn)載,請(qǐng)注明原文網(wǎng)址摘自于,注明出處;否則,禁止轉(zhuǎn)載;謝謝配合!本文關(guān)鍵詞:聚類(lèi)分析,由筆耕文化傳播整理發(fā)布。
本文編號(hào):130035
本文鏈接:http://sikaile.net/zhongyixuelunwen/130035.html