無(wú)監(jiān)督符號(hào)數(shù)據(jù)的原型和屬性協(xié)同約簡(jiǎn)研究
發(fā)布時(shí)間:2021-02-02 00:55
在機(jī)器學(xué)習(xí)中,原型選擇(即實(shí)例選擇、樣本選擇)和屬性約簡(jiǎn)(即特征選擇、屬性選擇)成了數(shù)據(jù)挖掘中必不可少的步驟,在機(jī)器學(xué)習(xí)中變得越來(lái)越重要。屬性選擇以及樣本選擇在機(jī)器學(xué)習(xí)中,是兩個(gè)重要的數(shù)據(jù)預(yù)處理步驟,其中前者旨在從給定的數(shù)據(jù)集中去除一些不相關(guān)或者冗余的特征,而后者則是通過(guò)一定的指標(biāo)去除有缺陷或者重復(fù)的記錄。本文圍繞無(wú)監(jiān)督環(huán)境下樣本和特征的協(xié)同選擇展開(kāi)了研究,其主要工作和創(chuàng)新點(diǎn)如下:(1)提出了一種基于數(shù)據(jù)集中屬性或?qū)嵗鶖y帶信息量的衡量的重要度指標(biāo)。針對(duì)無(wú)監(jiān)督學(xué)習(xí)任務(wù),可以通過(guò)聚類生成偽標(biāo)簽,將其轉(zhuǎn)換為監(jiān)督學(xué)習(xí)任務(wù)。利用模糊粗糙集的相關(guān)知識(shí),以距離的方式度量特征之間的相似性,將屬性之間的相關(guān)性衡量以及樣本之間的關(guān)聯(lián)性量化相結(jié)合,同時(shí),與已有的基于信息熵的方法不同,該指標(biāo)通過(guò)考慮關(guān)系的勢(shì)而不是相似類來(lái)達(dá)到減低計(jì)算復(fù)雜度的目的。同時(shí)就所提出的指標(biāo)的相關(guān)性質(zhì)進(jìn)行了討論和驗(yàn)證,指標(biāo)的單調(diào)性也保證了進(jìn)行選擇學(xué)習(xí)任務(wù)結(jié)果的有效性;谔岢龅闹笜(biāo),給出了一種用于特征選擇的貪心前向選擇算法,并利用實(shí)驗(yàn)驗(yàn)證了所提出指標(biāo)的有效性和實(shí)用性。(2)提出了一種新的算法,將譜聚類與字典學(xué)習(xí)相結(jié)合,能夠?qū)崿F(xiàn)無(wú)監(jiān)督特...
【文章來(lái)源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【圖文】:
實(shí)驗(yàn)性能結(jié)果vs不同參數(shù)α和β取值.27
第3章基于字典對(duì)的聚類結(jié)構(gòu)保留的無(wú)監(jiān)督特征選擇算法表3-2不同特征選擇算法在數(shù)據(jù)集上分類精度性能表現(xiàn)DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.9883(4)0.99670.9950(3)0.93780.9982(1)warpAR10P0.7283(5)0.7342(3)0.7567(2)0.7292(4)0.8125(1)isolet0.8355(2)0.6053(5)0.7778(3)0.7603(4)0.8442(1)LUNG0.9146(4)0.9185(3)0.8661(5)0.9195(2)0.9414(1)Carcinom0.7971(4)0.7121(5)0.8984(2)0.8706(3)0.9491(1)USPS0.9604(2)0.9590(4)0.9595(3)0.9478(5)0.9674(1)表3-3不同算法在數(shù)據(jù)集上NMI指標(biāo)性能表現(xiàn)DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.5708(2)0.5821(1)0.3116(4)0.2122(5)0.3889(3)warpAR10P0.3482(3)0.3597(2)0.3367(4)0.2200(5)0.3986(1)isolet0.638(2)0.4081(5)0.6136(3)0.5497(4)0.7757(1)LUNG0.6048(5)0.6223(4)0.6379(3)0.7399(2)0.8030(1)Carcinom0.6048(4)0.5603(5)0.7439(2)0.7385(3)0.7904(1)USPS0.6659(2)0.6430(5)0.6568(4)0.6580(3)0.6889(1)表3-4不同選擇算法在數(shù)據(jù)集上的聚類精度性能表現(xiàn)DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.6769(3)0.6829(2)0.3414(4)0.2148(5)0.6950(1)warpAR10P0.3705(4)0.4078(2)0.3712(3)0.2285(5)0.7975(1)isolet0.7654(2)0.5272(5)0.7192(3)0.7068(4)0.8442(1)LUNG0.5310(4)0.5296(5)0.5666(3)0.6220(2)0.9414(1)Carcinom0.6112(4)0.5644(5)0.7830(3)0.7949(2)0.9491(1)USPS0.6338(2)0.6093(5)0.6161(4)0.6220(3)0.9674(1)圖3-2實(shí)驗(yàn)結(jié)果vs不同參數(shù)α和β取值.29
本文編號(hào):3013745
【文章來(lái)源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【圖文】:
實(shí)驗(yàn)性能結(jié)果vs不同參數(shù)α和β取值.27
第3章基于字典對(duì)的聚類結(jié)構(gòu)保留的無(wú)監(jiān)督特征選擇算法表3-2不同特征選擇算法在數(shù)據(jù)集上分類精度性能表現(xiàn)DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.9883(4)0.99670.9950(3)0.93780.9982(1)warpAR10P0.7283(5)0.7342(3)0.7567(2)0.7292(4)0.8125(1)isolet0.8355(2)0.6053(5)0.7778(3)0.7603(4)0.8442(1)LUNG0.9146(4)0.9185(3)0.8661(5)0.9195(2)0.9414(1)Carcinom0.7971(4)0.7121(5)0.8984(2)0.8706(3)0.9491(1)USPS0.9604(2)0.9590(4)0.9595(3)0.9478(5)0.9674(1)表3-3不同算法在數(shù)據(jù)集上NMI指標(biāo)性能表現(xiàn)DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.5708(2)0.5821(1)0.3116(4)0.2122(5)0.3889(3)warpAR10P0.3482(3)0.3597(2)0.3367(4)0.2200(5)0.3986(1)isolet0.638(2)0.4081(5)0.6136(3)0.5497(4)0.7757(1)LUNG0.6048(5)0.6223(4)0.6379(3)0.7399(2)0.8030(1)Carcinom0.6048(4)0.5603(5)0.7439(2)0.7385(3)0.7904(1)USPS0.6659(2)0.6430(5)0.6568(4)0.6580(3)0.6889(1)表3-4不同選擇算法在數(shù)據(jù)集上的聚類精度性能表現(xiàn)DatasetsDPFSEUFSL2FSLaplacianCDLUFSwarpPIE10P0.6769(3)0.6829(2)0.3414(4)0.2148(5)0.6950(1)warpAR10P0.3705(4)0.4078(2)0.3712(3)0.2285(5)0.7975(1)isolet0.7654(2)0.5272(5)0.7192(3)0.7068(4)0.8442(1)LUNG0.5310(4)0.5296(5)0.5666(3)0.6220(2)0.9414(1)Carcinom0.6112(4)0.5644(5)0.7830(3)0.7949(2)0.9491(1)USPS0.6338(2)0.6093(5)0.6161(4)0.6220(3)0.9674(1)圖3-2實(shí)驗(yàn)結(jié)果vs不同參數(shù)α和β取值.29
本文編號(hào):3013745
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3013745.html
最近更新
教材專著