K-means聚類算法的改進研究
本文關(guān)鍵詞:K-means聚類算法的改進研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著計算機網(wǎng)絡(luò)的普及,人們的工作和生活更多的與數(shù)據(jù)信息產(chǎn)生聯(lián)系,制造和使用的數(shù)據(jù)量越來越巨大,我們進入了一個大數(shù)據(jù)時代。人們每天接觸大量的數(shù)據(jù)資源,而所需的信息只是其中極小的一部分,或者是隱藏于其中的潛在信息。如何快速高效的從海量的數(shù)據(jù)資源中獲取所需的那部分信息,如何找出數(shù)據(jù)之間的聯(lián)系和規(guī)律是我們亟需研究的課題,數(shù)據(jù)挖掘技術(shù)便是在這種需求驅(qū)動下出現(xiàn)的多學科交叉的技術(shù)。數(shù)據(jù)挖掘技術(shù)的核心功能是從大量的信息資源中發(fā)現(xiàn)隱藏的、有效的、有價值的知識,從而更好的理解和應(yīng)用隱藏在數(shù)據(jù)中的有效信息,充分發(fā)揮數(shù)據(jù)的價值,為科學決策或政策的制定提供幫助。聚類分析是數(shù)據(jù)挖掘中常用的技術(shù),在圖像分割、電子商務(wù)、市場分析、生物學、地理學以及文檔分類等眾多領(lǐng)域有著廣泛的應(yīng)用。聚類分析的基本原理是:在沒有先驗知識的情況下,將一個數(shù)據(jù)集劃分成多個簇,使得同一個簇中的數(shù)據(jù)對象的特征較相似,而不同簇間的數(shù)據(jù)對象的特征相似性小。聚類分析中有眾多的聚類算法,其中基于劃分的算法應(yīng)用最為廣泛,因為算法的思想原理簡單、算法實現(xiàn)相對容易且對大規(guī)模數(shù)據(jù)集聚類收斂性好等優(yōu)點而成為應(yīng)用最為廣泛的聚類算法之一,其最具代表性的是k-means聚類算法。然而,傳統(tǒng)k-means算法也有多個明顯的缺點:如聚類需要憑借經(jīng)驗先指定一個聚類數(shù)k值,并且隨機選擇k個初始聚類中心;聚類結(jié)果對初始聚類中心和聚類數(shù)k值的依賴性強,對孤立點和噪聲點敏感。針對以上缺點,本文提出了一個改進的k-means聚類初始中心點選擇算法和一種確定聚類數(shù)k值的算法,并用實驗驗證了改進算法的有效性,兩個算法的改進之處在于:(1)針對k-means算法聚類結(jié)果受初始聚類中心和異常數(shù)據(jù)的制約,易出現(xiàn)聚類結(jié)果不穩(wěn)定和收斂于聚類局部最優(yōu)的問題,提出了一種選取數(shù)據(jù)集中k個處于密集區(qū)域的數(shù)據(jù)對象作為初始聚類中心的改進算法。該算法提出了一個用于表示數(shù)據(jù)集中每個數(shù)據(jù)對象密度的參數(shù)m-dist,然后根據(jù)該密度參數(shù)的值,選取k個相對分散且密度較高的數(shù)據(jù)對象作為初始聚類中心。該算法可以有效的避免選取到數(shù)據(jù)集中的孤立點和噪聲點作為初始聚類中心,能有效減少聚類的迭代次數(shù),對聚類結(jié)果的準確性提高顯著。(2)經(jīng)典k-means算法需要憑經(jīng)驗給定一個聚類數(shù)k值,k值的確定具有一定的主觀性,容易產(chǎn)生偏差,本文提出了一種確定聚類數(shù)的方法,首先根據(jù)樣本的密度從數(shù)據(jù)集中選擇處于高密度區(qū)域的若干數(shù)據(jù)對象產(chǎn)生一個初始聚類中心點候選集合U,然后根據(jù)提出的聚類有效性指標AIBWP的值搜索最佳聚類數(shù),當AIBWP的值達到最大時,聚類有效性指標最優(yōu),指標值所對應(yīng)的聚類數(shù)就是最佳聚類數(shù)。
【關(guān)鍵詞】:聚類分析 k-means算法 初始聚類中心 最佳聚類數(shù) 樣本密度
【學位授予單位】:安徽大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要3-5
- Abstract5-9
- 第1章 緒論9-14
- 1.1 選題背景及研究意義9-11
- 1.2 國內(nèi)外研究現(xiàn)狀及發(fā)展趨勢11-12
- 1.3 本文主要內(nèi)容及組織結(jié)構(gòu)12-14
- 1.3.1 本文主要研究內(nèi)容12-13
- 1.3.2 論文的章節(jié)安排13-14
- 第2章 聚類分析技術(shù)14-23
- 2.1 聚類分析技術(shù)概述14-15
- 2.2 聚類分析中的度量函數(shù)15-18
- 2.3 聚類算法的基本要求18-19
- 2.4 常用聚類算法分類19-22
- 2.4.1 基于劃分的聚類算法19-20
- 2.4.2 基于層次的聚類算法20
- 2.4.3 基于密度的聚類算法20-21
- 2.4.4 基于網(wǎng)格的聚類算法21
- 2.4.5 基于模型的聚類算法21
- 2.4.6 其他常見聚類算法21-22
- 2.5 本章小結(jié)22-23
- 第3章 k-means聚類算法23-28
- 3.1 經(jīng)典k-means聚類算法介紹23
- 3.2 k-means算法的研究現(xiàn)狀23-24
- 3.3 k-means算法實現(xiàn)步驟描述24-26
- 3.4 k-means算法的優(yōu)缺點分析26-27
- 3.5 本章小結(jié)27-28
- 第4章 初始中心點優(yōu)化k-means算法28-34
- 4.1 問題的提出28-30
- 4.2 密度參數(shù)優(yōu)化的k-means算法30-31
- 4.3 實驗結(jié)果與分析31-33
- 4.4 本章小結(jié)33-34
- 第5章 改進k-means聚類數(shù)確定方法34-45
- 5.1 現(xiàn)有的k-means聚類數(shù)確定方法34-36
- 5.2 聚類中心優(yōu)化的k-means最佳聚類數(shù)確定方法36-41
- 5.2.1 獲得初始中心點候選集36-38
- 5.2.2 新的聚類有效性指標38-40
- 5.2.3 最佳聚類數(shù)確定算法描述40-41
- 5.3 實驗結(jié)果與分析41-44
- 5.4 本章小結(jié)44-45
- 第6章 總結(jié)與展望45-47
- 6.1 論文總結(jié)45
- 6.2 下一步的工作45-47
- 參考文獻47-51
- 致謝51-52
- 攻讀碩士學位期間學術(shù)論文發(fā)表情況52-53
- 附錄53-54
- 附錄A 圖索引53
- 附錄B 表索引53-54
- Appendix54
- Appendix A Figure Index54
- Appendix B Table Index54
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 周世兵;徐振源;唐旭清;;新的K-均值算法最佳聚類數(shù)確定方法[J];計算機工程與應(yīng)用;2010年16期
2 周世兵;徐振源;唐旭清;;基于近鄰傳播算法的最佳聚類數(shù)確定方法比較研究[J];計算機科學;2011年02期
3 周世兵;徐振源;唐旭清;;一種基于近鄰傳播算法的最佳聚類數(shù)確定方法[J];控制與決策;2011年08期
4 李旭;林偉;溫金環(huán);史彩云;;基于圖譜理論的圖像聚類數(shù)的確定及應(yīng)用[J];工程數(shù)學學報;2012年05期
5 秦振濤;楊武年;;一種新的最佳聚類數(shù)確定方法[J];電子技術(shù)應(yīng)用;2013年01期
6 宋銘利;高新科;;基于距離的最大聚類數(shù)探索算法的探討[J];礦山機械;2006年09期
7 普運偉;朱明;金煒東;胡來招;;核聚類算法最佳聚類數(shù)的自適應(yīng)確定方法[J];計算機工程;2007年04期
8 楊欣斌,孫京誥,黃道;一種進化聚類學習新方法[J];計算機工程與應(yīng)用;2003年15期
9 田彥山;;基于山峰聚類的聚類上限確定方法[J];江西師范大學學報(自然科學版);2007年02期
10 褚娜;馬利莊;王彥;;聚類趨勢問題的研究綜述[J];計算機應(yīng)用研究;2009年03期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 高翠芳;吳小俊;;基于二階差分的聚類數(shù)自動確定方法[A];江蘇省系統(tǒng)工程學會第十一屆學術(shù)年會論文集[C];2009年
2 劉洋;江志綱;丁增喜;王大玲;鮑玉斌;于戈;;一種基于圖的聚類算法GB-Cluster[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2002年
3 李浪波;傅彥;劉紅;;基于范例推理的網(wǎng)格和密度聚類算法[A];第二十二屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2005年
4 婁冬梅;陳明;朱有娜;;一種基于密度的無參數(shù)聚類算法[A];第二十三屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2006年
5 魏昕路;洪志令;姜青山;;一種基于樣本縮減策略的新窗口式聚類算法[A];第二十四屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2007年
6 程尊平;周鼎;王晨;周皓峰;汪衛(wèi);施伯樂;;SDPHC——基于密度的分割和分層的自校聚類算法[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2004年
7 張曉峰;王麗珍;陸葉;;一種基于屬性加權(quán)的不確定K-means聚類算法[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2009年
8 蔡軍;袁華鵬;陳金海;施伯樂;;一種基于相似性分析的聚類新算法:PDS算法[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2001年
9 胡仲義;郭超;王永炎;劉勝航;王宏安;;基于時間衰減和特征變量的數(shù)據(jù)流聚類算法[A];第29屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)(NDBC2012)[C];2012年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 王振佳;基于基因表達數(shù)據(jù)的雙聚類算法研究[D];山東大學;2016年
2 胡雅婷;可能性聚類方法研究及應(yīng)用[D];吉林大學;2012年
3 王縱虎;聚類分析優(yōu)化關(guān)鍵技術(shù)研究[D];西安電子科技大學;2012年
4 周世兵;聚類分析中的最佳聚類數(shù)確定方法研究及應(yīng)用[D];江南大學;2011年
5 楊燕;基于計算智能的聚類組合算法研究[D];西南交通大學;2006年
6 馮永;基于計算智能的聚類技術(shù)及其應(yīng)用研究[D];重慶大學;2006年
7 劉晨;高伸縮性聚類分析方法研究[D];哈爾濱工程大學;2013年
8 王強;局部疊加基因表達模式聚類分析方法研究[D];哈爾濱工業(yè)大學;2012年
9 姜磊;混合演化聚類算法研究及其應(yīng)用[D];武漢大學;2012年
10 尹學松;半監(jiān)督聚類分析策略設(shè)計及其拓展性研究[D];南京航空航天大學;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 魏建東;K-means初始化算法研究[D];南京理工大學;2015年
2 張依;基于MapReduce的k-means聚類算法并行化研究[D];中央民族大學;2015年
3 劉嬋;蟻群與K均值聚類算法融合研究及其在用戶分群中的應(yīng)用[D];西南科技大學;2015年
4 朱琪;基于減法聚類的混合算法研究[D];湖南科技大學;2015年
5 韓偉森;聚類集成研究與應(yīng)用[D];貴州大學;2015年
6 譚浩;K-Means算法改進及其在森林健康評價中的應(yīng)用[D];中南林業(yè)科技大學;2015年
7 嚴巍;以KPCA為核心的FCM算法改進[D];成都理工大學;2015年
8 汪娟;基于權(quán)重設(shè)計的聚類集成算法研究[D];重慶大學;2015年
9 牛品菽;基于圖模型的高效聚類算法研究[D];北京交通大學;2016年
10 蔡洪山;大數(shù)據(jù)分析中的聚類算法研究[D];安徽理工大學;2016年
本文關(guān)鍵詞:K-means聚類算法的改進研究,,由筆耕文化傳播整理發(fā)布。
本文編號:291629
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/291629.html