基于多分類器集成及半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類研究
發(fā)布時(shí)間:2017-10-03 09:23
本文關(guān)鍵詞:基于多分類器集成及半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類研究
更多相關(guān)文章: 不平衡數(shù)據(jù)分類 多分類器集成 半監(jiān)督學(xué)習(xí) 協(xié)同訓(xùn)練 Tri-training
【摘要】:隨著網(wǎng)絡(luò)媒體和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,Internet上充斥著各種海量的信息,且在不斷變化更新,來源也更為廣泛。怎樣從海量的且不斷變化的大數(shù)據(jù)中得到符合用戶所需信息已經(jīng)成為各機(jī)器學(xué)習(xí)的一個(gè)重要課題。同時(shí),不平衡數(shù)據(jù)的分類問題也日益突出,原有的機(jī)器學(xué)習(xí)方法已經(jīng)不適合解決這類問題。因此對(duì)不平衡數(shù)據(jù)的分類問題的研究存在著更大的挑戰(zhàn)。一般來講,解決不平衡數(shù)據(jù)分類問題通常使用的方法主要從兩個(gè)角度出發(fā):從數(shù)據(jù)層面和從算法層面對(duì)不平衡數(shù)據(jù)分類問題都分別進(jìn)行了相關(guān)的深入研究。本文對(duì)于不衡數(shù)據(jù)分類問題所做的工作主要如下:1.基于多分類器集成的不平衡數(shù)據(jù)分類不平衡數(shù)據(jù)分類問題中用到的一個(gè)關(guān)鍵技術(shù)就是多分類器集成,為確保其集成的學(xué)習(xí)效果,必須改進(jìn)以下兩方面的內(nèi)容,一是要使單個(gè)弱分類器的分類準(zhǔn)確率提高,另一方面要增強(qiáng)單個(gè)弱分類器之間互相的差異性以及多樣性。對(duì)于不平衡數(shù)據(jù)集來說,正負(fù)樣本的分布不均衡,使訓(xùn)練所得的分類器對(duì)稀有類的識(shí)別率極低,從而導(dǎo)致分類器的分類性能差。針對(duì)這種情況,本文提出一種基于KPCA和RST的多分類器集成方法,首先將不平衡數(shù)據(jù)集采取降維的方式,并提取其主要特征,獲取有代表性的樣本信息,其次通過重構(gòu)數(shù)據(jù)集的方法改變訓(xùn)練集樣本分布,降低其不平衡度,這就使得單個(gè)弱分類器的分類準(zhǔn)確率大大提高。由于重構(gòu)數(shù)據(jù)集時(shí),對(duì)訓(xùn)練集合的劃分是采用隨機(jī)采樣的方式,這在一定程度上又增強(qiáng)了單個(gè)弱分類器之間的差異性。2.基于半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類在不平衡數(shù)據(jù)分類問題中,由于稀有類樣本的數(shù)量稀缺,為更有效的利用數(shù)據(jù)集中存在的數(shù)量豐富的且不帶標(biāo)記的樣本數(shù)據(jù)信息,本文創(chuàng)新的將半監(jiān)督學(xué)習(xí)的方法應(yīng)用于解決不平衡數(shù)據(jù)的分類問題中,并對(duì)Tri-training算法進(jìn)行改進(jìn)處理。首先將三個(gè)互不相同的分類器引入到訓(xùn)練和學(xué)習(xí)過程中,進(jìn)而使各個(gè)分類器互相的差異性增強(qiáng)。其次,改進(jìn)的Tri-training算法不是采用多數(shù)投票法來對(duì)分類器集成,而是在加權(quán)投票時(shí),引入了分類器對(duì)樣本標(biāo)記的準(zhǔn)確率來實(shí)現(xiàn)分類器的集成,進(jìn)而使學(xué)習(xí)所得的分類器對(duì)未知數(shù)據(jù)樣本的預(yù)測(cè)更加準(zhǔn)確。實(shí)驗(yàn)結(jié)果顯示,本文改進(jìn)的方法可使不平衡數(shù)據(jù)分類的準(zhǔn)確率和查全率有效提高。
【關(guān)鍵詞】:不平衡數(shù)據(jù)分類 多分類器集成 半監(jiān)督學(xué)習(xí) 協(xié)同訓(xùn)練 Tri-training
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP181
【目錄】:
- 摘要6-7
- ABSTRACT7-9
- 第一章 緒論9-14
- 1.1 研究背景與意義9
- 1.2 不平衡數(shù)據(jù)分類的基本概念及國內(nèi)外研究現(xiàn)狀9-12
- 1.2.1 不平衡數(shù)據(jù)分類的基本概念9-10
- 1.2.2 國內(nèi)外研究現(xiàn)狀10-11
- 1.2.3 不平衡數(shù)據(jù)分類面臨的問題和挑戰(zhàn)11-12
- 1.3 本文的主要工作12-13
- 1.4 本文的組織結(jié)構(gòu)13-14
- 第二章 不平衡數(shù)據(jù)分類研究綜述14-21
- 2.1 不平衡數(shù)據(jù)分類14-18
- 2.1.1 數(shù)據(jù)層面的方法14-16
- 2.1.2 算法層面的方法16-18
- 2.2 不平衡數(shù)據(jù)分類評(píng)價(jià)指標(biāo)18-20
- 2.3 本章小結(jié)20-21
- 第三章 基于多分類器集成的不平衡數(shù)據(jù)分類21-33
- 3.1 數(shù)據(jù)預(yù)處理21-24
- 3.1.1 KPCA主成分分析21-23
- 3.1.2 重構(gòu)數(shù)據(jù)集23-24
- 3.2 多分類器集成24-30
- 3.2.1 KNN最近鄰分類算法24-25
- 3.2.2 SVM分類算法25-27
- 3.2.3 樸素貝葉斯分類算法27-28
- 3.2.4 多分類器集成28-30
- 3.3 實(shí)驗(yàn)結(jié)果及其分析30-32
- 3.4 本章小結(jié)32-33
- 第四章 基于半監(jiān)督學(xué)習(xí)的不平衡數(shù)據(jù)分類33-39
- 4.1 半監(jiān)督學(xué)習(xí)33-35
- 4.1.1 協(xié)同訓(xùn)練算法(Co-training)34-35
- 4.1.2 Tri-training算法35
- 4.2 改進(jìn)的Tri-training算法35-37
- 4.3 實(shí)驗(yàn)結(jié)果及其分析37-38
- 4.4 本章小結(jié)38-39
- 第五章 總結(jié)與展望39-41
- 5.1 本文內(nèi)容總結(jié)39-40
- 5.2 進(jìn)一步工作40-41
- 參考文獻(xiàn)41-44
- 攻讀碩士學(xué)位期間發(fā)表的論文44-45
- 致謝45
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 蘇艷;居勝峰;王中卿;李壽山;周國棟;;基于隨機(jī)特征子空間的半監(jiān)督情感分類方法研究[J];中文信息學(xué)報(bào);2012年04期
2 付忠良;;多分類問題代價(jià)敏感AdaBoost算法[J];自動(dòng)化學(xué)報(bào);2011年08期
3 葉志飛;文益民;呂寶糧;;不平衡分類問題研究綜述[J];智能系統(tǒng)學(xué)報(bào);2009年02期
4 鄧超;郭茂祖;;基于Tri-Training和數(shù)據(jù)剪輯的半監(jiān)督聚類算法[J];軟件學(xué)報(bào);2008年03期
5 劉胥影;吳建鑫;周志華;;一種基于級(jí)聯(lián)模型的類別不平衡數(shù)據(jù)分類方法[J];南京大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年02期
,本文編號(hào):964401
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/964401.html
最近更新
教材專著