聚類分析中的最佳聚類數(shù)確定方法研究
發(fā)布時間:2021-11-14 18:17
作為無監(jiān)督學(xué)習(xí)方法的一種,聚類分析是從無標(biāo)記數(shù)據(jù)集中獲取信息和知識的重要手段,是數(shù)據(jù)挖掘、統(tǒng)計學(xué)、模式識別等領(lǐng)域的重要研究內(nèi)容。通過有效的聚類分析,數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)與特征可以被很好地發(fā)掘出來。隨著數(shù)據(jù)挖掘和人工智能技術(shù)的不斷發(fā)展,對于聚類分析的研究也得到了較大的發(fā)展,目前聚類分析已經(jīng)被廣泛應(yīng)用于客戶推薦、模式分割、視頻圖像處理等不同的領(lǐng)域。然而,當(dāng)前已有的聚類分析方法依舊存在著許多不足之處。作為聚類分析中最為重要的一部分,最佳聚類數(shù)確定方法是決定聚類質(zhì)量的關(guān)鍵因素。圍繞著這個主題,本文深入的研究了聚類分析中的聚類算法和聚類有效性評價,主要工作如下:(1)針對現(xiàn)有的部分聚類分析方法存在的聚類效果不穩(wěn)定、無法對多種結(jié)構(gòu)的數(shù)據(jù)集進(jìn)行正確聚類的問題,我們將K-means算法和AHC(Agglomerative Hierarchical Clustering,凝聚層次聚類算法)算法的聚類思想相結(jié)合,提出了一種混合聚類算法Kmeans-AHC。該算法可以對多種數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)集進(jìn)行有效聚類,并且相對傳統(tǒng)的AHC算法有效降低了時間復(fù)雜度。(2)其次,采用拐點檢測的思想,提出了一個基于平均綜合度的新聚類...
【文章來源】:安徽大學(xué)安徽省 211工程院校
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
DAS指標(biāo)的類簇結(jié)構(gòu)分布圖
安徽大學(xué)碩士學(xué)位論文23圖3.3不同K值下測試數(shù)據(jù)集的聚類結(jié)果圖3.4不同類簇數(shù)下的E(K)和DAS(K)值的變化3.3最佳聚類數(shù)的確定算法基于Kmeans-AHC算法和DAS聚類有效性指標(biāo),本文設(shè)計了確定最佳聚類數(shù)的算法。通常,類簇數(shù)的搜索范圍是[2,Kmax]。根據(jù)通行的經(jīng)驗規(guī)則∈[2,√],本文將Kmax的上限被設(shè)定為√。與此同時,由于Kmeans-AHC算法在生成初始類簇的時候不必指定一個準(zhǔn)確的K值,只需要給出一個較大的初始值即可。即由Kmeans-AHC算法生成的初始類簇的數(shù)量要比目標(biāo)數(shù)據(jù)集D的真實劃分?jǐn)?shù)量要多。在本文當(dāng)中,K的初始值定為2√。相應(yīng)的,Kmeans-AHC算法生成的初始類簇的數(shù)量|C|也為2√。其中,C為生成的目標(biāo)數(shù)據(jù)集D的初始劃分。圖3.5給出了本文提出的最佳聚類數(shù)和最優(yōu)劃分確定算法的流程。在該算法當(dāng)中,第(1)步確定數(shù)據(jù)集D的初始類簇數(shù)量2√。第(2)步根據(jù)設(shè)定的初始類簇數(shù)量并利用Kmeans-AHC算法的第(1)~第(4)步形成數(shù)據(jù)集D的初始劃分。在第(3)步利用Kmeans-AHC算法的第(5)步逐步合并距離較近的相鄰的類簇。與此同時,該
不同類簇數(shù)下的E(K)和DAS(K)值的變化
【參考文獻(xiàn)】:
期刊論文
[1]基于密度比例的密度峰值聚類算法[J]. 高詩瑩,周曉鋒,李帥. 計算機工程與應(yīng)用. 2017(16)
[2]一種基于簇中心點自動選擇策略的密度峰值聚類算法[J]. 馬春來,單洪,馬濤. 計算機科學(xué). 2016(07)
[3]基于劃分的聚類算法研究綜述[J]. 賈璦瑋. 電子設(shè)計工程. 2014(23)
[4]聚類有效性研究綜述[J]. 周開樂,楊善林,丁帥,羅賀. 系統(tǒng)工程理論與實踐. 2014(09)
[5]聚類有效性評價綜述[J]. 楊燕,靳蕃,KAMEL Mohamed. 計算機應(yīng)用研究. 2008(06)
博士論文
[1]數(shù)據(jù)挖掘中聚類若干問題研究[D]. 趙恒.西安電子科技大學(xué) 2005
碩士論文
[1]聚類分析中最佳聚類數(shù)確定方法研究[D]. 張雄.南京郵電大學(xué) 2018
[2]聚類分析中新聚類有效性指標(biāo)的研究[D]. 李朋.安徽大學(xué) 2018
[3]聚類有效性指標(biāo)的研究與對比分析[D]. 侯雙雙.中國石油大學(xué)(華東) 2016
本文編號:3495119
【文章來源】:安徽大學(xué)安徽省 211工程院校
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
DAS指標(biāo)的類簇結(jié)構(gòu)分布圖
安徽大學(xué)碩士學(xué)位論文23圖3.3不同K值下測試數(shù)據(jù)集的聚類結(jié)果圖3.4不同類簇數(shù)下的E(K)和DAS(K)值的變化3.3最佳聚類數(shù)的確定算法基于Kmeans-AHC算法和DAS聚類有效性指標(biāo),本文設(shè)計了確定最佳聚類數(shù)的算法。通常,類簇數(shù)的搜索范圍是[2,Kmax]。根據(jù)通行的經(jīng)驗規(guī)則∈[2,√],本文將Kmax的上限被設(shè)定為√。與此同時,由于Kmeans-AHC算法在生成初始類簇的時候不必指定一個準(zhǔn)確的K值,只需要給出一個較大的初始值即可。即由Kmeans-AHC算法生成的初始類簇的數(shù)量要比目標(biāo)數(shù)據(jù)集D的真實劃分?jǐn)?shù)量要多。在本文當(dāng)中,K的初始值定為2√。相應(yīng)的,Kmeans-AHC算法生成的初始類簇的數(shù)量|C|也為2√。其中,C為生成的目標(biāo)數(shù)據(jù)集D的初始劃分。圖3.5給出了本文提出的最佳聚類數(shù)和最優(yōu)劃分確定算法的流程。在該算法當(dāng)中,第(1)步確定數(shù)據(jù)集D的初始類簇數(shù)量2√。第(2)步根據(jù)設(shè)定的初始類簇數(shù)量并利用Kmeans-AHC算法的第(1)~第(4)步形成數(shù)據(jù)集D的初始劃分。在第(3)步利用Kmeans-AHC算法的第(5)步逐步合并距離較近的相鄰的類簇。與此同時,該
不同類簇數(shù)下的E(K)和DAS(K)值的變化
【參考文獻(xiàn)】:
期刊論文
[1]基于密度比例的密度峰值聚類算法[J]. 高詩瑩,周曉鋒,李帥. 計算機工程與應(yīng)用. 2017(16)
[2]一種基于簇中心點自動選擇策略的密度峰值聚類算法[J]. 馬春來,單洪,馬濤. 計算機科學(xué). 2016(07)
[3]基于劃分的聚類算法研究綜述[J]. 賈璦瑋. 電子設(shè)計工程. 2014(23)
[4]聚類有效性研究綜述[J]. 周開樂,楊善林,丁帥,羅賀. 系統(tǒng)工程理論與實踐. 2014(09)
[5]聚類有效性評價綜述[J]. 楊燕,靳蕃,KAMEL Mohamed. 計算機應(yīng)用研究. 2008(06)
博士論文
[1]數(shù)據(jù)挖掘中聚類若干問題研究[D]. 趙恒.西安電子科技大學(xué) 2005
碩士論文
[1]聚類分析中最佳聚類數(shù)確定方法研究[D]. 張雄.南京郵電大學(xué) 2018
[2]聚類分析中新聚類有效性指標(biāo)的研究[D]. 李朋.安徽大學(xué) 2018
[3]聚類有效性指標(biāo)的研究與對比分析[D]. 侯雙雙.中國石油大學(xué)(華東) 2016
本文編號:3495119
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3495119.html
最近更新
教材專著