基于支持向量排序的分割聚類算法研究
發(fā)布時(shí)間:2017-08-21 08:33
本文關(guān)鍵詞:基于支持向量排序的分割聚類算法研究
更多相關(guān)文章: 聚類分析 支持向量排序 分割聚類 核寬度系數(shù) 懲罰因子
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的普及,各種信息泛濫、信息冗余的問題日漸增多,如何幫助用戶找到、提煉其中的潛在價(jià)值信息推動(dòng)了對(duì)海量數(shù)據(jù)進(jìn)行分類的研究。聚類算法可以探索數(shù)據(jù)集分布情況并能將其進(jìn)行聚類,它是數(shù)據(jù)挖掘的重要工具和統(tǒng)計(jì)分析方法。目前,聚類分析在各類學(xué)科和行業(yè)等都有普遍的應(yīng)用。常用的聚類方法根據(jù)其算法思想的不同可以歸納為以下幾類方法:基于劃分法、基于模型法、基于密度法、基于網(wǎng)格法以及層次法。隨著聚類方法的不斷深入研究,聚類方法體系的不斷完善,核聚類算法逐漸受到關(guān)注。支持向量聚類(Support Vector Clustering,SVC)算法就是一類基于核的聚類分析方法。相比于其他的聚類算法,支持向量聚類有一些特別的優(yōu)勢(shì):第一,SVC對(duì)數(shù)據(jù)集的形狀和數(shù)目沒有特別要求,可以識(shí)別任何分布狀態(tài)的簇。第二,SVC可以識(shí)別一部分噪聲數(shù)據(jù)點(diǎn)并能夠分類相互交錯(cuò)重疊的簇。第三,SVC利用核函數(shù)的思想實(shí)現(xiàn)數(shù)據(jù)空間到特征空間的非線性與線性轉(zhuǎn)換,可處理結(jié)構(gòu)復(fù)雜的數(shù)據(jù)。但是SVC仍然存在一定的缺陷,它的高耗費(fèi)和低性能也影響到了它的廣泛應(yīng)用。而一種基于相似度的點(diǎn)排序分割聚類算法正好可以彌補(bǔ)SVC算法在算法性能上的不足,該算法在數(shù)據(jù)處理上速度較快,聚類質(zhì)量也比一般的聚類效果要好,但是由于其在點(diǎn)排序階段未加處理的直接根據(jù)距離度量對(duì)所有的樣本點(diǎn)進(jìn)行排序,使得同簇的樣本點(diǎn)被拆開排到其他簇的元素之中,造成非同簇元素間的錯(cuò)排,在某種程度上也影響了聚類質(zhì)量。綜合支持向量聚類和點(diǎn)排序分割聚類這兩種算法各自的優(yōu)缺點(diǎn),本文提出一種基于支持向量排序的分割聚類算法(Partitioning Clustering Based on Support Vector Ranking,PC-SVR)。該算法從理論上繼承了這兩種算法的一些優(yōu)點(diǎn),并有效地避免了它們各自的一些缺點(diǎn),既保證了聚類質(zhì)量,又提高了聚類的速度。為驗(yàn)證PC-SVR算法的可行性與聚類性能,本文分別使用了兩組人工模擬數(shù)據(jù)集和四組真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并與其他幾種經(jīng)典聚類算法做對(duì)比,聚類結(jié)果表明此算法具有可行性并且運(yùn)行效率和聚類質(zhì)量相較于一般聚類算法表現(xiàn)要好。
【關(guān)鍵詞】:聚類分析 支持向量排序 分割聚類 核寬度系數(shù) 懲罰因子
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP18;TP311.13
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-15
- 1.1 研究背景和意義10-11
- 1.2 領(lǐng)域研究現(xiàn)狀11-12
- 1.3 本文主要工作12-13
- 1.4 本文組織結(jié)構(gòu)13-15
- 第2章 聚類分析背景15-26
- 2.1 聚類分析定義15
- 2.2 聚類分析基礎(chǔ)理論15-19
- 2.2.1 聚類相似性度量15-17
- 2.2.2 聚類目標(biāo)函數(shù)17-18
- 2.2.3 聚類評(píng)價(jià)標(biāo)準(zhǔn)18-19
- 2.3 幾種常見聚類算法19-24
- 2.3.1 基于劃分聚類算法19-20
- 2.3.2 基于層次聚類算法20-21
- 2.3.3 基于網(wǎng)格聚類算法21-22
- 2.3.4 基于密度聚類算法22-23
- 2.3.5 基于模型聚類算法23
- 2.3.6 支持向量聚類算法23-24
- 2.3.7 混合聚類算法24
- 2.4 本章小結(jié)24-26
- 第3章 基于支持向量排序的分割聚類算法26-38
- 3.1 點(diǎn)排序分割聚類算法26-28
- 3.1.1 點(diǎn)排序26-27
- 3.1.2 分割聚類27-28
- 3.2 支持向量聚類算法28-31
- 3.2.1 聚類訓(xùn)練28-30
- 3.2.2 聚類分配30-31
- 3.2.3 SVC算法特征分析31
- 3.3 PC-SVR算法過程31-35
- 3.3.1 SV排序32-34
- 3.3.2 分割聚類34-35
- 3.4 PC-SVR算法實(shí)現(xiàn)流程35-37
- 3.5 本章小結(jié)37-38
- 第4章 實(shí)驗(yàn)仿真與結(jié)果分析38-52
- 4.1 實(shí)驗(yàn)數(shù)據(jù)集38-39
- 4.1.1 人工數(shù)據(jù)集38-39
- 4.1.2 真實(shí)數(shù)據(jù)集39
- 4.2 實(shí)驗(yàn)結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)39-41
- 4.2.1 Rand指數(shù)39-40
- 4.2.2 Adjust Rand指數(shù)40
- 4.2.3 Accuracy指標(biāo)40-41
- 4.3 實(shí)驗(yàn)結(jié)果及分析41-51
- 4.3.1 PC-SVR性能影響因素41-44
- 4.3.2 PC-SVR實(shí)驗(yàn)結(jié)果與分析44-51
- 4.4 本章小結(jié)51-52
- 第5章 總結(jié)與展望52-54
- 5.1 總結(jié)52-53
- 5.2 展望53-54
- 參考文獻(xiàn)54-57
- 作者簡(jiǎn)介及在學(xué)期間所取得的科研成果57-58
- 致謝58
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 陶新民;徐晶;楊立標(biāo);劉玉;;一種改進(jìn)的粒子群和K均值混合聚類算法[J];電子與信息學(xué)報(bào);2010年01期
2 宋浩遠(yuǎn);;基于模型的聚類方法研究[J];重慶科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年03期
3 曾志雄;;一種有效的基于劃分和層次的混合聚類算法[J];計(jì)算機(jī)應(yīng)用;2007年07期
4 吳文麗;劉玉樹;趙基海;;一種新的混合聚類算法[J];系統(tǒng)仿真學(xué)報(bào);2007年01期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李明達(dá);基于點(diǎn)排序的相似度分割聚類算法研究[D];吉林大學(xué);2015年
,本文編號(hào):711868
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/711868.html
最近更新
教材專著