不平衡標(biāo)記密度學(xué)習(xí)的特征選擇研究
【文章頁數(shù)】:50 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2.1 信息熵與互信息的關(guān)系圖
由此可知,若I(X;Y)越大,則X與Y之間關(guān)聯(lián)越緊密,若X與Y無關(guān),則I(X;Y)=0。通過文氏圖(Venndiagram)可以更直觀的展示信息熵與互信息的關(guān)聯(lián)性(見圖2.1)。2.2.3特征與標(biāo)記集合互信息
圖2.2 特征選擇流程圖
特征選擇是指從全部特征中選取一個(gè)使構(gòu)造出來的模型效果更好且推廣能力更強(qiáng)的特征子集,即通過篩選出全局或局部最優(yōu)特征子集用以降低特征空間維數(shù)的過程。而為了得到一個(gè)新的較優(yōu)特征子集,對(duì)冗余不相關(guān)、欠刻畫能力的特征進(jìn)行了剔除,達(dá)到減少特征個(gè)數(shù)、減少訓(xùn)練或者運(yùn)行時(shí)間、提高模型精確度的作用,....
圖2.3 特征選擇方法分類
在機(jī)器學(xué)習(xí)、大數(shù)據(jù)和數(shù)據(jù)挖掘等高新技術(shù)領(lǐng)域,特征選擇擁有著舉足輕重的影響。在特征選擇過程中,評(píng)價(jià)函數(shù)作為一個(gè)評(píng)價(jià)準(zhǔn)則,可以判斷一個(gè)特征子集是否較優(yōu),而依據(jù)評(píng)價(jià)準(zhǔn)則的不同,有關(guān)特征選擇方面的算法可以分為:過濾式模型(Filter)、封裝式模型(Wrapper)以及嵌入式模型(Emb....
圖3.1 Computer數(shù)據(jù)集標(biāo)記分布圖
研究發(fā)現(xiàn)在多標(biāo)記學(xué)習(xí)中,由于標(biāo)記對(duì)樣本的描述存在著差異性,即在每個(gè)標(biāo)記下正類與負(fù)類出現(xiàn)的頻率并不一樣,而這種標(biāo)記頻率分布可以為多標(biāo)記學(xué)習(xí)的研究提供一定的輔助信息從而提高分類的精度。基于此,本章提出一種MSIO算法:首先計(jì)算標(biāo)記空間中每個(gè)標(biāo)記下正標(biāo)記(正類)樣本和負(fù)標(biāo)記(負(fù)類)樣本....
本文編號(hào):4012635
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/4012635.html
下一篇:沒有了