K-means聚類算法的改進研究

發(fā)布時間：2017-04-08 00:09

本文關(guān)鍵詞：K-means聚類算法的改進研究，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著計算機網(wǎng)絡(luò)的普及,人們的工作和生活更多的與數(shù)據(jù)信息產(chǎn)生聯(lián)系,制造和使用的數(shù)據(jù)量越來越巨大,我們進入了一個大數(shù)據(jù)時代。人們每天接觸大量的數(shù)據(jù)資源,而所需的信息只是其中極小的一部分,或者是隱藏于其中的潛在信息。如何快速高效的從海量的數(shù)據(jù)資源中獲取所需的那部分信息,如何找出數(shù)據(jù)之間的聯(lián)系和規(guī)律是我們亟需研究的課題,數(shù)據(jù)挖掘技術(shù)便是在這種需求驅(qū)動下出現(xiàn)的多學科交叉的技術(shù)。數(shù)據(jù)挖掘技術(shù)的核心功能是從大量的信息資源中發(fā)現(xiàn)隱藏的、有效的、有價值的知識,從而更好的理解和應(yīng)用隱藏在數(shù)據(jù)中的有效信息,充分發(fā)揮數(shù)據(jù)的價值,為科學決策或政策的制定提供幫助。聚類分析是數(shù)據(jù)挖掘中常用的技術(shù),在圖像分割、電子商務(wù)、市場分析、生物學、地理學以及文檔分類等眾多領(lǐng)域有著廣泛的應(yīng)用。聚類分析的基本原理是：在沒有先驗知識的情況下,將一個數(shù)據(jù)集劃分成多個簇,使得同一個簇中的數(shù)據(jù)對象的特征較相似,而不同簇間的數(shù)據(jù)對象的特征相似性小。聚類分析中有眾多的聚類算法,其中基于劃分的算法應(yīng)用最為廣泛,因為算法的思想原理簡單、算法實現(xiàn)相對容易且對大規(guī)模數(shù)據(jù)集聚類收斂性好等優(yōu)點而成為應(yīng)用最為廣泛的聚類算法之一,其最具代表性的是k-means聚類算法。然而,傳統(tǒng)k-means算法也有多個明顯的缺點：如聚類需要憑借經(jīng)驗先指定一個聚類數(shù)k值,并且隨機選擇k個初始聚類中心；聚類結(jié)果對初始聚類中心和聚類數(shù)k值的依賴性強,對孤立點和噪聲點敏感。針對以上缺點,本文提出了一個改進的k-means聚類初始中心點選擇算法和一種確定聚類數(shù)k值的算法,并用實驗驗證了改進算法的有效性,兩個算法的改進之處在于：(1)針對k-means算法聚類結(jié)果受初始聚類中心和異常數(shù)據(jù)的制約,易出現(xiàn)聚類結(jié)果不穩(wěn)定和收斂于聚類局部最優(yōu)的問題,提出了一種選取數(shù)據(jù)集中k個處于密集區(qū)域的數(shù)據(jù)對象作為初始聚類中心的改進算法。該算法提出了一個用于表示數(shù)據(jù)集中每個數(shù)據(jù)對象密度的參數(shù)m-dist,然后根據(jù)該密度參數(shù)的值,選取k個相對分散且密度較高的數(shù)據(jù)對象作為初始聚類中心。該算法可以有效的避免選取到數(shù)據(jù)集中的孤立點和噪聲點作為初始聚類中心,能有效減少聚類的迭代次數(shù),對聚類結(jié)果的準確性提高顯著。(2)經(jīng)典k-means算法需要憑經(jīng)驗給定一個聚類數(shù)k值,k值的確定具有一定的主觀性,容易產(chǎn)生偏差,本文提出了一種確定聚類數(shù)的方法,首先根據(jù)樣本的密度從數(shù)據(jù)集中選擇處于高密度區(qū)域的若干數(shù)據(jù)對象產(chǎn)生一個初始聚類中心點候選集合U,然后根據(jù)提出的聚類有效性指標AIBWP的值搜索最佳聚類數(shù),當AIBWP的值達到最大時,聚類有效性指標最優(yōu),指標值所對應(yīng)的聚類數(shù)就是最佳聚類數(shù)。
【關(guān)鍵詞】：聚類分析 k-means算法 初始聚類中心 最佳聚類數(shù) 樣本密度
【學位授予單位】：安徽大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：TP311.13
【目錄】：

摘要3-5
Abstract5-9
第1章緒論9-14
1.1 選題背景及研究意義9-11
1.2 國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢11-12
1.3 本文主要內(nèi)容及組織結(jié)構(gòu)12-14
1.3.1 本文主要研究內(nèi)容12-13
1.3.2 論文的章節(jié)安排13-14
第2章聚類分析技術(shù)14-23
2.1 聚類分析技術(shù)概述14-15
2.2 聚類分析中的度量函數(shù)15-18
2.3 聚類算法的基本要求18-19
2.4 常用聚類算法分類19-22
2.4.1 基于劃分的聚類算法19-20
2.4.2 基于層次的聚類算法20
2.4.3 基于密度的聚類算法20-21
2.4.4 基于網(wǎng)格的聚類算法21
2.4.5 基于模型的聚類算法21
2.4.6 其他常見聚類算法21-22
2.5 本章小結(jié)22-23
第3章 k-means聚類算法23-28
3.1 經(jīng)典k-means聚類算法介紹23
3.2 k-means算法的研究現(xiàn)狀23-24
3.3 k-means算法實現(xiàn)步驟描述24-26
3.4 k-means算法的優(yōu)缺點分析26-27
3.5 本章小結(jié)27-28
第4章初始中心點優(yōu)化k-means算法28-34
4.1 問題的提出28-30
4.2 密度參數(shù)優(yōu)化的k-means算法30-31
4.3 實驗結(jié)果與分析31-33
4.4 本章小結(jié)33-34
第5章改進k-means聚類數(shù)確定方法34-45
5.1 現(xiàn)有的k-means聚類數(shù)確定方法34-36
5.2 聚類中心優(yōu)化的k-means最佳聚類數(shù)確定方法36-41
5.2.1 獲得初始中心點候選集36-38
5.2.2 新的聚類有效性指標38-40
5.2.3 最佳聚類數(shù)確定算法描述40-41
5.3 實驗結(jié)果與分析41-44
5.4 本章小結(jié)44-45
第6章總結(jié)與展望45-47
6.1 論文總結(jié)45
6.2 下一步的工作45-47
參考文獻47-51
致謝51-52
攻讀碩士學位期間學術(shù)論文發(fā)表情況52-53
附錄53-54
附錄A 圖索引53
附錄B 表索引53-54
Appendix54
Appendix A Figure Index54
Appendix B Table Index54

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 周世兵;徐振源;唐旭清;;新的K-均值算法最佳聚類數(shù)確定方法[J];計算機工程與應(yīng)用;2010年16期

2 周世兵;徐振源;唐旭清;;基于近鄰傳播算法的最佳聚類數(shù)確定方法比較研究[J];計算機科學;2011年02期

3 周世兵;徐振源;唐旭清;;一種基于近鄰傳播算法的最佳聚類數(shù)確定方法[J];控制與決策;2011年08期

4 李旭;林偉;溫金環(huán);史彩云;;基于圖譜理論的圖像聚類數(shù)的確定及應(yīng)用[J];工程數(shù)學學報;2012年05期

5 秦振濤;楊武年;;一種新的最佳聚類數(shù)確定方法[J];電子技術(shù)應(yīng)用;2013年01期

6 宋銘利;高新科;;基于距離的最大聚類數(shù)探索算法的探討[J];礦山機械;2006年09期

7 普運偉;朱明;金煒東;胡來招;;核聚類算法最佳聚類數(shù)的自適應(yīng)確定方法[J];計算機工程;2007年04期

8 楊欣斌,孫京誥,黃道;一種進化聚類學習新方法[J];計算機工程與應(yīng)用;2003年15期

9 田彥山;;基于山峰聚類的聚類上限確定方法[J];江西師范大學學報(自然科學版);2007年02期

10 褚娜;馬利莊;王彥;;聚類趨勢問題的研究綜述[J];計算機應(yīng)用研究;2009年03期

中國重要會議論文全文數(shù)據(jù)庫前9條

1 高翠芳;吳小俊;;基于二階差分的聚類數(shù)自動確定方法[A];江蘇省系統(tǒng)工程學會第十一屆學術(shù)年會論文集[C];2009年

2 劉洋;江志綱;丁增喜;王大玲;鮑玉斌;于戈;;一種基于圖的聚類算法GB-Cluster[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集（技術(shù)報告篇）[C];2002年

3 李浪波;傅彥;劉紅;;基于范例推理的網(wǎng)格和密度聚類算法[A];第二十二屆中國數(shù)據(jù)庫學術(shù)會議論文集（技術(shù)報告篇）[C];2005年

4 婁冬梅;陳明;朱有娜;;一種基于密度的無參數(shù)聚類算法[A];第二十三屆中國數(shù)據(jù)庫學術(shù)會議論文集（研究報告篇）[C];2006年

5 魏昕路;洪志令;姜青山;;一種基于樣本縮減策略的新窗口式聚類算法[A];第二十四屆中國數(shù)據(jù)庫學術(shù)會議論文集（研究報告篇）[C];2007年

6 程尊平;周鼎;王晨;周皓峰;汪衛(wèi);施伯樂;;SDPHC——基于密度的分割和分層的自校聚類算法[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集（研究報告篇）[C];2004年

7 張曉峰;王麗珍;陸葉;;一種基于屬性加權(quán)的不確定K-means聚類算法[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集（B輯）[C];2009年

8 蔡軍;袁華鵬;陳金海;施伯樂;;一種基于相似性分析的聚類新算法:PDS算法[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集（研究報告篇）[C];2001年

9 胡仲義;郭超;王永炎;劉勝航;王宏安;;基于時間衰減和特征變量的數(shù)據(jù)流聚類算法[A];第29屆中國數(shù)據(jù)庫學術(shù)會議論文集（B輯）（NDBC2012）[C];2012年

中國博士學位論文全文數(shù)據(jù)庫前10條

1 王振佳;基于基因表達數(shù)據(jù)的雙聚類算法研究[D];山東大學;2016年

2 胡雅婷;可能性聚類方法研究及應(yīng)用[D];吉林大學;2012年

3 王縱虎;聚類分析優(yōu)化關(guān)鍵技術(shù)研究[D];西安電子科技大學;2012年

4 周世兵;聚類分析中的最佳聚類數(shù)確定方法研究及應(yīng)用[D];江南大學;2011年

5 楊燕;基于計算智能的聚類組合算法研究[D];西南交通大學;2006年

6 馮永;基于計算智能的聚類技術(shù)及其應(yīng)用研究[D];重慶大學;2006年

7 劉晨;高伸縮性聚類分析方法研究[D];哈爾濱工程大學;2013年

8 王強;局部疊加基因表達模式聚類分析方法研究[D];哈爾濱工業(yè)大學;2012年

9 姜磊;混合演化聚類算法研究及其應(yīng)用[D];武漢大學;2012年

10 尹學松;半監(jiān)督聚類分析策略設(shè)計及其拓展性研究[D];南京航空航天大學;2009年

中國碩士學位論文全文數(shù)據(jù)庫前10條

1 魏建東;K-means初始化算法研究[D];南京理工大學;2015年

2 張依;基于MapReduce的k-means聚類算法并行化研究[D];中央民族大學;2015年

3 劉嬋;蟻群與K均值聚類算法融合研究及其在用戶分群中的應(yīng)用[D];西南科技大學;2015年

4 朱琪;基于減法聚類的混合算法研究[D];湖南科技大學;2015年

5 韓偉森;聚類集成研究與應(yīng)用[D];貴州大學;2015年

6 譚浩;K-Means算法改進及其在森林健康評價中的應(yīng)用[D];中南林業(yè)科技大學;2015年

7 嚴巍;以KPCA為核心的FCM算法改進[D];成都理工大學;2015年

8 汪娟;基于權(quán)重設(shè)計的聚類集成算法研究[D];重慶大學;2015年

9 牛品菽;基于圖模型的高效聚類算法研究[D];北京交通大學;2016年

10 蔡洪山;大數(shù)據(jù)分析中的聚類算法研究[D];安徽理工大學;2016年

本文關(guān)鍵詞：K-means聚類算法的改進研究，，由筆耕文化傳播整理發(fā)布。

本文編號：291629

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/291629.html

上一篇：健康管理技術(shù)在電子系統(tǒng)空間應(yīng)用中的研究與實現(xiàn)
下一篇：車道偏離預警系統(tǒng)關(guān)鍵技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

K-means聚類算法的改進研究