基于特征關(guān)系的聚類集成研究
發(fā)布時(shí)間:2017-12-10 17:25
本文關(guān)鍵詞:基于特征關(guān)系的聚類集成研究
更多相關(guān)文章: 機(jī)器學(xué)習(xí) 聚類分析 集成學(xué)習(xí) 特征工程 提升學(xué)習(xí)
【摘要】:聚類分析是一種應(yīng)用性很強(qiáng)的機(jī)器學(xué)習(xí)策略,它主要用于將原數(shù)據(jù)集劃分成具有明顯區(qū)分邊界的若干組數(shù)據(jù)。由于該策略對(duì)數(shù)據(jù)自身性質(zhì)的敏感性,所以在聚類分析的具體實(shí)現(xiàn)方法中不存在一種通用的方法,可以處理任意性質(zhì)的數(shù)據(jù)集。為了解決這個(gè)問(wèn)題,許多學(xué)者提出并研究使用集成學(xué)習(xí)來(lái)改進(jìn)聚類分析,取得了很好的的效果。然而,在大部分學(xué)者的研究中,他們將重點(diǎn)放在了集成學(xué)習(xí)的算法實(shí)現(xiàn)上,而對(duì)數(shù)據(jù)本身并沒(méi)有過(guò)多的關(guān)注。但是,在機(jī)器學(xué)習(xí)這一領(lǐng)域中,數(shù)據(jù)自身性質(zhì)會(huì)對(duì)其最終的學(xué)習(xí)質(zhì)量產(chǎn)生很大的影響,特別是當(dāng)數(shù)據(jù)中特征較多并且關(guān)系較為復(fù)雜時(shí),特征工程可以非常顯著地提升機(jī)器學(xué)習(xí)的學(xué)習(xí)質(zhì)量。因此,論文從數(shù)據(jù)特征的角度出發(fā),對(duì)聚類集成進(jìn)行了如下研究:1.對(duì)于聚類集成的第一個(gè)過(guò)程,我們以降低特征之間相關(guān)性為目標(biāo),生成聚類成員所使用的的特征子集,由此可以提高聚類成員之間的差異性,使其在集成時(shí)獲得更優(yōu)的聚類質(zhì)量。2.對(duì)于聚類集成的第二個(gè)過(guò)程,我們根據(jù)數(shù)據(jù)自身性質(zhì)的差別,提出了 4種用于評(píng)價(jià)聚類成員自身效果的權(quán)重計(jì)算方法。在對(duì)聚類成員進(jìn)行融合時(shí),根據(jù)數(shù)據(jù)自身的性質(zhì)針對(duì)性地使用這些權(quán)重計(jì)算方法,可以得到最佳的聚類結(jié)果。3.對(duì)于以迭代優(yōu)化為核心的聚類集成策略,我們考察了一種傳統(tǒng)的基于提升學(xué)習(xí)(Boosting)的聚類集成方法,并深入分析了該方法應(yīng)用于聚類集成的困難與挑戰(zhàn),同時(shí)以數(shù)據(jù)特征為出發(fā)點(diǎn)對(duì)其進(jìn)行了改進(jìn)。改進(jìn)后的方法在判斷數(shù)據(jù)的聚類質(zhì)量時(shí)更加穩(wěn)定,并且比傳統(tǒng)方法具有更好的時(shí)間性能。
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP311.13;TP181
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 潘俊;王瑞琴;;基于選擇性聚類集成的客戶細(xì)分[J];計(jì)算機(jī)集成制造系統(tǒng);2015年06期
2 沈暢;樂(lè)天;;遺傳算法中的變異算子的述評(píng)[J];科技視界;2012年23期
3 張玉芳;王勇;熊忠陽(yáng);劉明;;不平衡數(shù)據(jù)集上的文本分類特征選擇新方法[J];計(jì)算機(jī)應(yīng)用研究;2011年12期
4 鄧春燕;;遺傳算法的交叉算子分析[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年05期
5 陽(yáng)琳峗;周海京;卓晴;王文淵;;基于屬性重要性的加權(quán)聚類融合[J];計(jì)算機(jī)科學(xué);2009年04期
6 朱強(qiáng)生;何華燦;周延泉;;譜聚類算法對(duì)輸入數(shù)據(jù)順序的敏感性[J];計(jì)算機(jī)應(yīng)用研究;2007年04期
,本文編號(hào):1275318
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1275318.html
最近更新
教材專著