天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 醫(yī)學(xué)論文 > 中醫(yī)論文 >

大數(shù)據(jù)聚類分析實(shí)例_聚類分析的方法及應(yīng)用

發(fā)布時(shí)間:2016-10-03 16:27

  本文關(guān)鍵詞:聚類分析,由筆耕文化傳播整理發(fā)布。


通常,我們在研究與處理事物時(shí),經(jīng)常需要將事物進(jìn)行分類,例如地質(zhì)勘探中根據(jù)物探、化探的指標(biāo)將樣本進(jìn)行分類;古生物研究中根據(jù)挖掘出的骨骼形狀和尺寸將它們分類;大壩監(jiān)控中由于所得的觀測數(shù)據(jù)量十分龐大,有時(shí)亦需將它們分類歸并,獲得其典型代表再進(jìn)行深入分析等,對事物進(jìn)行分類,進(jìn)而歸納并發(fā)現(xiàn)其規(guī)律已成為人們認(rèn)識世界、改造世界的一種重要方法。

聚類分析的方法及應(yīng)用-馬海祥博客

由于對象的復(fù)雜性,僅憑經(jīng)驗(yàn)和專業(yè)知識有時(shí)不能確切地分類,隨著多元統(tǒng)計(jì)技術(shù)的發(fā)展和計(jì)算機(jī)技術(shù)的普及,利用數(shù)學(xué)方法進(jìn)行更科學(xué)的分類不僅非常必要而且完全可能。

近些年來,數(shù)值分類學(xué)逐漸形成了一個(gè)新的分支,稱為聚類分析,聚類分析適用于很多不同類型的數(shù)據(jù)集合,很多研究領(lǐng)域,如工程、生物、醫(yī)藥、語言、人類學(xué)、心理學(xué)和市場學(xué)等,都對聚類技術(shù)的發(fā)展和應(yīng)用起到了推動作用。

1、什么是聚類分析?

聚類分析也稱群分析或點(diǎn)群分析,它是研究多要素事物分類問題的數(shù)量方法,是一種新興的多元統(tǒng)計(jì)方法,是當(dāng)代分類學(xué)與多元分析的結(jié)合。其基本原理是,根據(jù)樣本自身的屬性,用數(shù)學(xué)方法按照某種相似性或差異性指標(biāo),定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對樣本進(jìn)行聚類。

聚類分析是將分類對象置于一個(gè)多維空問中,按照它們空問關(guān)系的親疏程度進(jìn)行分類。

通俗的講,聚類分析就是根據(jù)事物彼此不同的屬性進(jìn)行辨認(rèn),將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性。

聚類分析方法,是定量地研究地理事物分類問題和地理分區(qū)問題的重要方法,常見的聚類分析方法有系統(tǒng)聚類法、動態(tài)聚類法和模糊聚類法等。

2、聚類分析方法的特征

(1)、聚類分析簡單、直觀。

(2)、聚類分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個(gè)可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析。

(3)、不管實(shí)際數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解。

(4)、聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產(chǎn)生實(shí)質(zhì)性的影響。

(5)、研究者在使用聚類分析時(shí)應(yīng)特別注意可能影響結(jié)果的各個(gè)因素。

(6)、異常值和特殊的變量對聚類有較大影響,當(dāng)分類變量的測量尺度不一致時(shí),需要事先做標(biāo)準(zhǔn)化處理。

3、聚類分析的發(fā)展歷程

在過去的幾年中聚類分析發(fā)展方向有兩個(gè):加強(qiáng)現(xiàn)有的聚類算法和發(fā)明新的聚類算法,F(xiàn)在已經(jīng)有一些加強(qiáng)的算法用來處理大型數(shù)據(jù)庫和高維度數(shù)據(jù),例如小波變換使用多分辨率算法,網(wǎng)格從粗糙到密集從而提高聚類簇的質(zhì)量。

然而,對于數(shù)據(jù)量大、維度高并且包含許多噪聲的集合,要找到一個(gè)“全能”的聚類算法是非常困難的。某些算法只能解決其中的兩個(gè)問題,同時(shí)能很好解決三個(gè)問題的算法還沒有,現(xiàn)在最大的困難是高維度(同時(shí)包含大量噪聲)數(shù)據(jù)的處理。

算法的可伸縮性是一個(gè)重要的指標(biāo),通過采用各種技術(shù),一些算法具有很好的伸縮性。這些技術(shù)包括:數(shù)據(jù)采樣、信息濃縮、網(wǎng)格和索引。

CLARANS是最早使用數(shù)據(jù)采樣的算法,CURE使用優(yōu)選的采樣點(diǎn),信息濃縮技術(shù)在BIRCH方法和DECLIJE方法中得到應(yīng)用。

許多算法都使用了索引技術(shù),典型的有:BIRCH方法、DBSCAN方法、小波變換方法、DENCLUE方法、DENCLUE方法、小波變換方法、STING方法和CLIQUE方法使用了網(wǎng)格技術(shù)。

但是以上方法仍然不能很好地處理高維度并且大數(shù)據(jù)量的集合。

最近馬海祥還發(fā)現(xiàn)了一些新的技術(shù)如:STING+方法引入動態(tài)數(shù)據(jù)挖掘觸發(fā)器:mAFIA方法引入間距尺寸自適應(yīng)網(wǎng)格分割算法;OptiGrid算法使用迭代和網(wǎng)格等技術(shù)處理高維度數(shù)據(jù)。

新技術(shù)的引進(jìn)大大加強(qiáng)了聚類算法的效能,尤其提升了處理高維度數(shù)據(jù)的能力,但是由于這些算法剛剛形成,所以在某些地方還有待完善,對于剛接觸數(shù)據(jù)分析的博友,可以先看下馬海祥博客的《解讀常用的10種可用性研究數(shù)據(jù)類型方法》相關(guān)介紹。

4、系統(tǒng)聚類分析

系統(tǒng)聚類法(Hierarchical Clustering Method)是目前國內(nèi)外使用晟多的一種方法,有關(guān)它的研究極為豐富。其基本思想是:先將11個(gè)樣本各自看成一類,然后規(guī)定樣本之間的距離和類與類之間的距離;然后選擇距離最小的一對并成一個(gè)新類,計(jì)算新類和其他類的距離;再將距離最小的兩類合并,這樣每次減少一類,直至所有的樣本都成為一類為止。

在馬海祥看來系統(tǒng)聚類法的優(yōu)點(diǎn)在于:利用樣本之問的距離最近原則進(jìn)行聚類。這種系統(tǒng)歸類過程與所規(guī)定的歸類指數(shù)有關(guān),同時(shí)也與具體的歸類方法有關(guān)系,整個(gè)聚類過程可用一張聚類圖(樹)形象表示。

聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結(jié)果的準(zhǔn)確性和可靠性,在地理分類和研究分區(qū)中,被聚類的對象常常是多個(gè)要素構(gòu)成的。

不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會對分類結(jié)果產(chǎn)生影響,因此當(dāng)分類要素的對象確定之后,在進(jìn)行聚類分析之前,首先要對數(shù)據(jù)要素進(jìn)行處理。

聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有如下幾種:

①、總和標(biāo)準(zhǔn)化

②、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化

③、極大值標(biāo)準(zhǔn)化

④、極差的標(biāo)準(zhǔn)化

經(jīng)過這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。

距離是事物之間差異性的測度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類分析的依據(jù)和基礎(chǔ)。

5、聚類分析的3種方法

聚類分析是數(shù)據(jù)挖掘中的一個(gè)很活躍的研究領(lǐng)域,并提出了許多聚類算法。

(1)、直接聚類法

直接聚類法是根據(jù)距離矩陣的結(jié)構(gòu)一次并類得到結(jié)果,其基本步驟如下:

①、把各個(gè)分類對象單獨(dú)視為一類;

②、根據(jù)距離最小的原則,依次選出一對分類對象,并成新類;

③、如果其中一個(gè)分類對象已歸于一類,則把另一個(gè)也歸入該類;如果一對分類對象正好屬于已歸的兩類,則把這兩類并為一類;每一次歸并,都劃去該對象所在的列與列序相同的行;

④、那么,經(jīng)過m-1次就可以把全部分類對象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖,直接聚類法雖然簡便,但在歸并過程中是劃去行和列的,因而難免有信息損失,因此,直接聚類法并不是最好的系統(tǒng)聚類方法。

(2)、最短距離聚類法

最短距離聚類法是在原來的m×m距離矩陣的非對角元素中找出 ,把分類對象Gp和Gq歸并為一新類Gr,然后按計(jì)算公式計(jì)算原來各類與新類之間的距離,這樣就得到一個(gè)新的(m-1)階的距離矩陣。

再從新的距離矩陣中選出最小者,把Gi和Gj歸并成新類;再計(jì)算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。

(3)、最遠(yuǎn)距離聚類法

最遠(yuǎn)距離聚類法與最短距離聚類法的區(qū)別在于計(jì)算原來的類與新類距離采用的公式不同。

6、系統(tǒng)聚類方法的步驟

(1)、對數(shù)據(jù)進(jìn)行變換處理;(不是必須的,當(dāng)數(shù)量級相差很大或指標(biāo)變量具有不同單位時(shí)是必要的)

(2)、構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣本;

(3)、計(jì)算n個(gè)樣本兩兩間的距離;

(4)、合并距離最近的兩類為一新類;

(5)、計(jì)算新類與當(dāng)前各類的距離,若類的個(gè)數(shù)等于1,轉(zhuǎn)到6;否則回4;

(6)、畫聚類圖;

(7)、決定類的個(gè)數(shù),從而得出分類結(jié)果。

7、聚類分析的主要應(yīng)用

對于聚類分析的應(yīng)用,馬海祥簡單的從以下6個(gè)領(lǐng)域?yàn)榇蠹铱偨Y(jié)了一下:

(1)、商業(yè)

聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。

聚類分析是細(xì)分市場的有效工具,同時(shí)也可用于研究消費(fèi)者行為,尋找新的潛在市場、選擇實(shí)驗(yàn)的市場,并作為多元分析的預(yù)處理。

(2)、生物

聚類分析被用來動植物分類和對基因進(jìn)行分類,獲取對種群固有結(jié)構(gòu)的認(rèn)識。

(3)、地理

聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性。

(4)、保險(xiǎn)行業(yè)

聚類分析通過一個(gè)高的平均消費(fèi)來鑒定汽車保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類型,價(jià)值,地理位置來鑒定一個(gè)城市的房產(chǎn)分組。

(5)、因特網(wǎng)

聚類分析被用來在網(wǎng)上進(jìn)行文檔歸類來修復(fù)信息(關(guān)于這點(diǎn)我也曾在馬海祥博客的《實(shí)例解析關(guān)鍵詞聚類的方法策略》一文中跟大家詳細(xì)的介紹過)。

(6)、電子商務(wù)

聚類分析在電子商務(wù)中網(wǎng)站建設(shè)數(shù)據(jù)挖掘中也是很重要的一個(gè)方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,,可以更好的幫助電子商務(wù)的用戶了解自己的客戶,向客戶提供更合適的服務(wù)。

馬海祥博客點(diǎn)評:

聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進(jìn)行分類,聚類分析所使用方法的不同,常常會得到不同的結(jié)論,不同研究者對于同一組數(shù)據(jù)進(jìn)行聚類分析,所得到的聚類數(shù)未必一致。

本文為馬海祥博客原創(chuàng)文章,如想轉(zhuǎn)載,請注明原文網(wǎng)址摘自于,注明出處;否則,禁止轉(zhuǎn)載;謝謝配合!


  本文關(guān)鍵詞:聚類分析,由筆耕文化傳播整理發(fā)布。



本文編號:130035

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/zhongyixuelunwen/130035.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶84029***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
国产精品香蕉在线的人| 99福利一区二区视频| 日韩三极片在线免费播放| 日韩精品一区二区亚洲| 九九热最新视频免费观看| 国产精品一区欧美二区| 国产熟女一区二区不卡| 久久精品国产亚洲熟女| 成人日韩在线播放视频| 亚洲欧洲一区二区中文字幕| 丁香七月啪啪激情综合| 日韩国产传媒在线精品| 沐浴偷拍一区二区视频| 欧美三级精品在线观看| 国产成人精品国产亚洲欧洲 | 97人妻精品一区二区三区男同 | 国内女人精品一区二区三区| 国产午夜免费在线视频| 91在线爽的少妇嗷嗷叫| 午夜国产精品国自产拍av| 免费在线播放不卡视频| 观看日韩精品在线视频| 丁香七月啪啪激情综合| 一级片二级片欧美日韩| 国产真人无遮挡免费视频一区| 日韩欧美好看的剧情片免费| 亚洲伦片免费偷拍一区| 欧美人妻免费一区二区三区| 欧美在线视频一区观看| 国产亚洲系列91精品| 中文字幕人妻一区二区免费 | 午夜视频免费观看成人| 亚洲女同一区二区另类| 国产中文字幕一区二区| 亚洲午夜av久久久精品| 美女被后入视频在线观看| 久久中文字人妻熟女小妇| 九九九热在线免费视频| 亚洲国产丝袜一区二区三区四| 欧美精品二区中文乱码字幕高清| 久久热中文字幕在线视频|