基于動(dòng)態(tài)權(quán)重的k-modes聚類算法
發(fā)布時(shí)間:2020-12-26 00:57
隨著信息技術(shù)的迅猛發(fā)展,數(shù)據(jù)的規(guī)模與日俱增、類型日益復(fù)雜,如何對(duì)現(xiàn)實(shí)中海量數(shù)據(jù)進(jìn)行有效的處理、分析和應(yīng)用成為迫在眉睫的課題。在這樣的背景形勢(shì)下,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,而且在各行各業(yè)得到了廣泛應(yīng)用。聚類分析是數(shù)據(jù)挖掘領(lǐng)域最重要的分支之一,是根據(jù)某種相似度度量對(duì)數(shù)據(jù)集進(jìn)行劃分的數(shù)據(jù)挖掘技術(shù)。目前,數(shù)值型數(shù)據(jù)的聚類分析取得了很多成果,但實(shí)際的數(shù)據(jù)庫(kù)和大型數(shù)據(jù)集不僅包括數(shù)值型數(shù)據(jù),也包括大量的分類屬性數(shù)據(jù),如生物信息數(shù)據(jù)、疫情防控?cái)?shù)據(jù)等。由于分類型數(shù)據(jù)不具有數(shù)值型數(shù)據(jù)固有的幾何特性,針對(duì)數(shù)值型數(shù)據(jù)的聚類方法并不適用于分類型數(shù)據(jù)的聚類。因此,研究分類型數(shù)據(jù)聚類分析算法是非常必要的。論文詳細(xì)介紹了聚類分析的概念及聚類分析中常用的數(shù)據(jù)結(jié)構(gòu)、相似度量、目標(biāo)函數(shù)等,分析了k-modes算法及其各種改進(jìn)算法,對(duì)算法在相異度度量和初始中心選擇兩方面進(jìn)行了改進(jìn),具體工作如下:(1)以信息共現(xiàn)知識(shí)為基礎(chǔ),基于數(shù)據(jù)對(duì)象屬性之間的相互依存關(guān)系,建立了數(shù)據(jù)集屬性之間的依存關(guān)聯(lián)矩陣,提出了一種加權(quán)相互依存冗余度的距離度量方法,定義數(shù)據(jù)對(duì)象屬性值之間的距離由內(nèi)部距離和外部距離兩部分的加權(quán)和組成,兩個(gè)數(shù)據(jù)的距離為數(shù)據(jù)對(duì)象所...
【文章來(lái)源】:延安大學(xué)陜西省
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 引言
1.1 研究背景及意義
1.2 聚類分析的研究現(xiàn)狀
1.2.1 聚類分析算法
1.2.2 分類型數(shù)據(jù)的距離度量方法
1.2.3 分類型數(shù)據(jù)的初始中心選擇方法
1.3 主要工作
1.4 論文的組織結(jié)構(gòu)
第二章 聚類分析
2.1 聚類分析定義
2.2 聚類分析方法分類
2.3 聚類分析中的數(shù)據(jù)類型
2.4 聚類分析中的數(shù)據(jù)結(jié)構(gòu)
2.5 聚類算法中的相異度度量
2.6 聚類準(zhǔn)則函數(shù)
2.7 聚類算法評(píng)價(jià)標(biāo)準(zhǔn)
2.8 小結(jié)
第三章 k-modes聚類算法
3.1 k-means算法
3.2 k-modes算法
3.3 k-modes算法的相異度度量
3.4 k-modes算法的迭代策略
3.5 k-modes算法分析
3.6 k-modes算法的改進(jìn)
3.6.1 Huang﹐s k-modes算法的擴(kuò)展算法
3.6.2 改進(jìn)相異度度量方法
3.6.3 改進(jìn)初始中心選擇方法
3.7 小結(jié)
第四章 基于加權(quán)相互依存冗余度距離的k-modes算法
4.1 基本概念
4.2 基于加權(quán)相互依存冗余度的距離度量
4.2.1 內(nèi)部距離
4.2.2 相互依存度矩陣
4.2.3 外部距離
4.2.4 加權(quán)相互依存冗余度距離
4.3 基于加權(quán)相互依存冗余度距離的改進(jìn)k-modes算法
4.3.1 改進(jìn)k-modes算法的步驟
4.3.2 改進(jìn)k-modes算法的復(fù)雜度分析
4.4 實(shí)驗(yàn)結(jié)果與分析
4.4.1 實(shí)驗(yàn)環(huán)境
4.4.2 測(cè)試數(shù)據(jù)集
4.4.3 聚類結(jié)果評(píng)價(jià)指標(biāo)
4.4.4 程序結(jié)構(gòu)
4.4.5 實(shí)驗(yàn)結(jié)果與分析
4.5 小結(jié)
第五章 基于密度和距離動(dòng)態(tài)權(quán)重的初始中心選擇方法
5.1 基于密度和距離的初始中心選擇方法
5.2 基于密度與距離動(dòng)態(tài)權(quán)重的初始中心選擇方法
5.3 基于改進(jìn)距離的離群點(diǎn)檢測(cè)
5.4 算法步驟
5.5 實(shí)驗(yàn)結(jié)果與分析
5.5.1 實(shí)驗(yàn)環(huán)境
5.5.2 測(cè)試數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
5.5.3 實(shí)驗(yàn)結(jié)果與分析
5.6 小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 工作展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表論文
【參考文獻(xiàn)】:
期刊論文
[1]聚類算法綜述[J]. 章永來(lái),周耀鑒. 計(jì)算機(jī)應(yīng)用. 2019(07)
[2]大數(shù)據(jù)聚類算法綜述[J]. 海沫. 計(jì)算機(jī)科學(xué). 2016(S1)
[3]K-means聚類算法研究綜述[J]. 王千,王成,馮振元,葉金鳳. 電子設(shè)計(jì)工程. 2012(07)
[4]基于新的距離度量的K-Modes聚類算法[J]. 梁吉業(yè),白亮,曹付元. 計(jì)算機(jī)研究與發(fā)展. 2010(10)
[5]基于粗糙集的改進(jìn)K-Modes聚類算法[J]. 白亮,梁吉業(yè),曹付元. 計(jì)算機(jī)科學(xué). 2009(01)
[6]基于近鄰傳播算法的半監(jiān)督聚類[J]. 肖宇,于劍. 軟件學(xué)報(bào). 2008(11)
[7]聚類算法研究[J]. 孫吉貴,劉杰,趙連宇. 軟件學(xué)報(bào). 2008(01)
[8]一種基于動(dòng)態(tài)近鄰選擇模型的聚類算法[J]. 金陽(yáng),左萬(wàn)利. 計(jì)算機(jī)學(xué)報(bào). 2007(05)
[9]動(dòng)態(tài)的模糊K-Modes初始化算法[J]. 張偉,周霆,陳蕓,鄒漢斌. 計(jì)算機(jī)工程與設(shè)計(jì). 2006(04)
[10]用改進(jìn)的遺傳算法實(shí)現(xiàn)架構(gòu)恢復(fù)[J]. 李青山,陳平. 軟件學(xué)報(bào). 2003(07)
碩士論文
[1]面向分類型數(shù)據(jù)的模糊聚類算法研究[D]. 王思杰.西南大學(xué) 2018
[2]分類型數(shù)據(jù)的聚類算法研究[D]. 黃苑華.廣東工業(yè)大學(xué) 2016
[3]相異度量的k-modes聚類算法研究[D]. 陳彩棠.太原理工大學(xué) 2012
本文編號(hào):2938722
【文章來(lái)源】:延安大學(xué)陜西省
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 引言
1.1 研究背景及意義
1.2 聚類分析的研究現(xiàn)狀
1.2.1 聚類分析算法
1.2.2 分類型數(shù)據(jù)的距離度量方法
1.2.3 分類型數(shù)據(jù)的初始中心選擇方法
1.3 主要工作
1.4 論文的組織結(jié)構(gòu)
第二章 聚類分析
2.1 聚類分析定義
2.2 聚類分析方法分類
2.3 聚類分析中的數(shù)據(jù)類型
2.4 聚類分析中的數(shù)據(jù)結(jié)構(gòu)
2.5 聚類算法中的相異度度量
2.6 聚類準(zhǔn)則函數(shù)
2.7 聚類算法評(píng)價(jià)標(biāo)準(zhǔn)
2.8 小結(jié)
第三章 k-modes聚類算法
3.1 k-means算法
3.2 k-modes算法
3.3 k-modes算法的相異度度量
3.4 k-modes算法的迭代策略
3.5 k-modes算法分析
3.6 k-modes算法的改進(jìn)
3.6.1 Huang﹐s k-modes算法的擴(kuò)展算法
3.6.2 改進(jìn)相異度度量方法
3.6.3 改進(jìn)初始中心選擇方法
3.7 小結(jié)
第四章 基于加權(quán)相互依存冗余度距離的k-modes算法
4.1 基本概念
4.2 基于加權(quán)相互依存冗余度的距離度量
4.2.1 內(nèi)部距離
4.2.2 相互依存度矩陣
4.2.3 外部距離
4.2.4 加權(quán)相互依存冗余度距離
4.3 基于加權(quán)相互依存冗余度距離的改進(jìn)k-modes算法
4.3.1 改進(jìn)k-modes算法的步驟
4.3.2 改進(jìn)k-modes算法的復(fù)雜度分析
4.4 實(shí)驗(yàn)結(jié)果與分析
4.4.1 實(shí)驗(yàn)環(huán)境
4.4.2 測(cè)試數(shù)據(jù)集
4.4.3 聚類結(jié)果評(píng)價(jià)指標(biāo)
4.4.4 程序結(jié)構(gòu)
4.4.5 實(shí)驗(yàn)結(jié)果與分析
4.5 小結(jié)
第五章 基于密度和距離動(dòng)態(tài)權(quán)重的初始中心選擇方法
5.1 基于密度和距離的初始中心選擇方法
5.2 基于密度與距離動(dòng)態(tài)權(quán)重的初始中心選擇方法
5.3 基于改進(jìn)距離的離群點(diǎn)檢測(cè)
5.4 算法步驟
5.5 實(shí)驗(yàn)結(jié)果與分析
5.5.1 實(shí)驗(yàn)環(huán)境
5.5.2 測(cè)試數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
5.5.3 實(shí)驗(yàn)結(jié)果與分析
5.6 小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 工作展望
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表論文
【參考文獻(xiàn)】:
期刊論文
[1]聚類算法綜述[J]. 章永來(lái),周耀鑒. 計(jì)算機(jī)應(yīng)用. 2019(07)
[2]大數(shù)據(jù)聚類算法綜述[J]. 海沫. 計(jì)算機(jī)科學(xué). 2016(S1)
[3]K-means聚類算法研究綜述[J]. 王千,王成,馮振元,葉金鳳. 電子設(shè)計(jì)工程. 2012(07)
[4]基于新的距離度量的K-Modes聚類算法[J]. 梁吉業(yè),白亮,曹付元. 計(jì)算機(jī)研究與發(fā)展. 2010(10)
[5]基于粗糙集的改進(jìn)K-Modes聚類算法[J]. 白亮,梁吉業(yè),曹付元. 計(jì)算機(jī)科學(xué). 2009(01)
[6]基于近鄰傳播算法的半監(jiān)督聚類[J]. 肖宇,于劍. 軟件學(xué)報(bào). 2008(11)
[7]聚類算法研究[J]. 孫吉貴,劉杰,趙連宇. 軟件學(xué)報(bào). 2008(01)
[8]一種基于動(dòng)態(tài)近鄰選擇模型的聚類算法[J]. 金陽(yáng),左萬(wàn)利. 計(jì)算機(jī)學(xué)報(bào). 2007(05)
[9]動(dòng)態(tài)的模糊K-Modes初始化算法[J]. 張偉,周霆,陳蕓,鄒漢斌. 計(jì)算機(jī)工程與設(shè)計(jì). 2006(04)
[10]用改進(jìn)的遺傳算法實(shí)現(xiàn)架構(gòu)恢復(fù)[J]. 李青山,陳平. 軟件學(xué)報(bào). 2003(07)
碩士論文
[1]面向分類型數(shù)據(jù)的模糊聚類算法研究[D]. 王思杰.西南大學(xué) 2018
[2]分類型數(shù)據(jù)的聚類算法研究[D]. 黃苑華.廣東工業(yè)大學(xué) 2016
[3]相異度量的k-modes聚類算法研究[D]. 陳彩棠.太原理工大學(xué) 2012
本文編號(hào):2938722
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2938722.html
最近更新
教材專著