基于多分類器集成及半監(jiān)督學習的不平衡數(shù)據(jù)分類研究
發(fā)布時間:2017-10-03 09:23
本文關鍵詞:基于多分類器集成及半監(jiān)督學習的不平衡數(shù)據(jù)分類研究
更多相關文章: 不平衡數(shù)據(jù)分類 多分類器集成 半監(jiān)督學習 協(xié)同訓練 Tri-training
【摘要】:隨著網絡媒體和互聯(lián)網技術的高速發(fā)展,Internet上充斥著各種海量的信息,且在不斷變化更新,來源也更為廣泛。怎樣從海量的且不斷變化的大數(shù)據(jù)中得到符合用戶所需信息已經成為各機器學習的一個重要課題。同時,不平衡數(shù)據(jù)的分類問題也日益突出,原有的機器學習方法已經不適合解決這類問題。因此對不平衡數(shù)據(jù)的分類問題的研究存在著更大的挑戰(zhàn)。一般來講,解決不平衡數(shù)據(jù)分類問題通常使用的方法主要從兩個角度出發(fā):從數(shù)據(jù)層面和從算法層面對不平衡數(shù)據(jù)分類問題都分別進行了相關的深入研究。本文對于不衡數(shù)據(jù)分類問題所做的工作主要如下:1.基于多分類器集成的不平衡數(shù)據(jù)分類不平衡數(shù)據(jù)分類問題中用到的一個關鍵技術就是多分類器集成,為確保其集成的學習效果,必須改進以下兩方面的內容,一是要使單個弱分類器的分類準確率提高,另一方面要增強單個弱分類器之間互相的差異性以及多樣性。對于不平衡數(shù)據(jù)集來說,正負樣本的分布不均衡,使訓練所得的分類器對稀有類的識別率極低,從而導致分類器的分類性能差。針對這種情況,本文提出一種基于KPCA和RST的多分類器集成方法,首先將不平衡數(shù)據(jù)集采取降維的方式,并提取其主要特征,獲取有代表性的樣本信息,其次通過重構數(shù)據(jù)集的方法改變訓練集樣本分布,降低其不平衡度,這就使得單個弱分類器的分類準確率大大提高。由于重構數(shù)據(jù)集時,對訓練集合的劃分是采用隨機采樣的方式,這在一定程度上又增強了單個弱分類器之間的差異性。2.基于半監(jiān)督學習的不平衡數(shù)據(jù)分類在不平衡數(shù)據(jù)分類問題中,由于稀有類樣本的數(shù)量稀缺,為更有效的利用數(shù)據(jù)集中存在的數(shù)量豐富的且不帶標記的樣本數(shù)據(jù)信息,本文創(chuàng)新的將半監(jiān)督學習的方法應用于解決不平衡數(shù)據(jù)的分類問題中,并對Tri-training算法進行改進處理。首先將三個互不相同的分類器引入到訓練和學習過程中,進而使各個分類器互相的差異性增強。其次,改進的Tri-training算法不是采用多數(shù)投票法來對分類器集成,而是在加權投票時,引入了分類器對樣本標記的準確率來實現(xiàn)分類器的集成,進而使學習所得的分類器對未知數(shù)據(jù)樣本的預測更加準確。實驗結果顯示,本文改進的方法可使不平衡數(shù)據(jù)分類的準確率和查全率有效提高。
【關鍵詞】:不平衡數(shù)據(jù)分類 多分類器集成 半監(jiān)督學習 協(xié)同訓練 Tri-training
【學位授予單位】:山東師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP181
【目錄】:
- 摘要6-7
- ABSTRACT7-9
- 第一章 緒論9-14
- 1.1 研究背景與意義9
- 1.2 不平衡數(shù)據(jù)分類的基本概念及國內外研究現(xiàn)狀9-12
- 1.2.1 不平衡數(shù)據(jù)分類的基本概念9-10
- 1.2.2 國內外研究現(xiàn)狀10-11
- 1.2.3 不平衡數(shù)據(jù)分類面臨的問題和挑戰(zhàn)11-12
- 1.3 本文的主要工作12-13
- 1.4 本文的組織結構13-14
- 第二章 不平衡數(shù)據(jù)分類研究綜述14-21
- 2.1 不平衡數(shù)據(jù)分類14-18
- 2.1.1 數(shù)據(jù)層面的方法14-16
- 2.1.2 算法層面的方法16-18
- 2.2 不平衡數(shù)據(jù)分類評價指標18-20
- 2.3 本章小結20-21
- 第三章 基于多分類器集成的不平衡數(shù)據(jù)分類21-33
- 3.1 數(shù)據(jù)預處理21-24
- 3.1.1 KPCA主成分分析21-23
- 3.1.2 重構數(shù)據(jù)集23-24
- 3.2 多分類器集成24-30
- 3.2.1 KNN最近鄰分類算法24-25
- 3.2.2 SVM分類算法25-27
- 3.2.3 樸素貝葉斯分類算法27-28
- 3.2.4 多分類器集成28-30
- 3.3 實驗結果及其分析30-32
- 3.4 本章小結32-33
- 第四章 基于半監(jiān)督學習的不平衡數(shù)據(jù)分類33-39
- 4.1 半監(jiān)督學習33-35
- 4.1.1 協(xié)同訓練算法(Co-training)34-35
- 4.1.2 Tri-training算法35
- 4.2 改進的Tri-training算法35-37
- 4.3 實驗結果及其分析37-38
- 4.4 本章小結38-39
- 第五章 總結與展望39-41
- 5.1 本文內容總結39-40
- 5.2 進一步工作40-41
- 參考文獻41-44
- 攻讀碩士學位期間發(fā)表的論文44-45
- 致謝45
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 蘇艷;居勝峰;王中卿;李壽山;周國棟;;基于隨機特征子空間的半監(jiān)督情感分類方法研究[J];中文信息學報;2012年04期
2 付忠良;;多分類問題代價敏感AdaBoost算法[J];自動化學報;2011年08期
3 葉志飛;文益民;呂寶糧;;不平衡分類問題研究綜述[J];智能系統(tǒng)學報;2009年02期
4 鄧超;郭茂祖;;基于Tri-Training和數(shù)據(jù)剪輯的半監(jiān)督聚類算法[J];軟件學報;2008年03期
5 劉胥影;吳建鑫;周志華;;一種基于級聯(lián)模型的類別不平衡數(shù)據(jù)分類方法[J];南京大學學報(自然科學版);2006年02期
,本文編號:964401
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/964401.html
最近更新
教材專著