天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

綜合過(guò)采樣和欠采樣的不平衡數(shù)據(jù)集的學(xué)習(xí)研究

發(fā)布時(shí)間:2017-05-20 11:07

  本文關(guān)鍵詞:綜合過(guò)采樣和欠采樣的不平衡數(shù)據(jù)集的學(xué)習(xí)研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:不平衡數(shù)據(jù)學(xué)習(xí)已經(jīng)逐漸成為當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域研究熱點(diǎn)之一。在解決不平衡數(shù)據(jù)集的學(xué)習(xí)分類(lèi)的問(wèn)題時(shí),需要盡可能大的提高分類(lèi)器對(duì)少數(shù)類(lèi)的預(yù)測(cè)精度,而且也要保證分類(lèi)器的分類(lèi)精度受到特別大的影響。本課題在對(duì)不平衡數(shù)據(jù)的特殊性的研究基礎(chǔ)上,結(jié)合實(shí)際數(shù)據(jù)集中數(shù)據(jù)分布特性和數(shù)據(jù)各個(gè)屬性的在分類(lèi)過(guò)程中的作用,對(duì)目前常用于不平衡數(shù)據(jù)的重采樣方法進(jìn)行改進(jìn),有效的解決存在于傳統(tǒng)方法中的不足,得到了新的重采樣方法。為了確保對(duì)少數(shù)類(lèi)的識(shí)別性能,對(duì)集成分類(lèi)器進(jìn)行相應(yīng)的改進(jìn),最終得到一個(gè)針對(duì)不平衡數(shù)據(jù)集的完整的分類(lèi)學(xué)習(xí)系統(tǒng)。首先,本課題提出了一種針對(duì)不平衡數(shù)據(jù)集的基于數(shù)據(jù)密度分布的欠采樣方法。該算法引入數(shù)據(jù)密度的概念,并以此將多數(shù)類(lèi)數(shù)據(jù)劃分為高密度數(shù)據(jù)簇和低密度數(shù)據(jù)簇,針對(duì)不同密度的數(shù)據(jù)簇,執(zhí)行不同的重采樣策略,以達(dá)到改善數(shù)據(jù)平衡度的目的。實(shí)驗(yàn)通過(guò)選取6組UCI數(shù)據(jù)集進(jìn)行驗(yàn)證,選取C4.5、SVM作為分類(lèi)器,將該方法與隨機(jī)欠采樣、KNN-Near Miss等方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,該方法對(duì)不平衡數(shù)據(jù)分類(lèi)有較好的效果,能有效提升分類(lèi)器對(duì)少數(shù)類(lèi)的識(shí)別性能。其次,該方法通過(guò)研究不同屬性對(duì)少數(shù)類(lèi)樣本識(shí)別的不同作用,將屬性劃分為顯性屬性、隱性屬性。顯性屬性偏向于少數(shù)類(lèi),為少數(shù)類(lèi)樣本的識(shí)別提供可靠、充分的信息,隱形屬性偏向于多數(shù)類(lèi),對(duì)少數(shù)類(lèi)的識(shí)別形成干擾。因此,針對(duì)不同屬性,采用不同復(fù)制策略,最終實(shí)現(xiàn)對(duì)合成少數(shù)類(lèi)樣本的樣本質(zhì)量提升。通過(guò)選取6組UCI數(shù)據(jù)集,與SMOTE、隨機(jī)過(guò)采樣等方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)該方法重采樣的不平衡數(shù)據(jù)集,其數(shù)據(jù)分類(lèi)學(xué)習(xí)效果、少數(shù)類(lèi)的識(shí)別率得到了提升。最后,為了進(jìn)一步提高對(duì)不平衡數(shù)據(jù)集中少數(shù)類(lèi)的識(shí)別率,對(duì)Databoost-IM方法進(jìn)行深入研究,針對(duì)其過(guò)分強(qiáng)調(diào)難分樣本的缺點(diǎn),提出一種新的集成分類(lèi)方法,該方法每次迭代時(shí)確定出難分樣本中的種子樣本,然后利用這些種子樣本來(lái)生成合成數(shù)據(jù),并添加到訓(xùn)練樣本中進(jìn)一步訓(xùn)練分類(lèi)器,最終得到新的訓(xùn)練集去訓(xùn)練新的分類(lèi)器。
【關(guān)鍵詞】:機(jī)器學(xué)習(xí) 不平衡數(shù)據(jù) 重采樣 集成學(xué)習(xí)
【學(xué)位授予單位】:東北電力大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP181
【目錄】:
  • 摘要6-7
  • Abstract7-11
  • 第1章 緒論11-16
  • 1.1 研究背景和研究意義11-12
  • 1.2 國(guó)內(nèi)外研究動(dòng)態(tài)12-14
  • 1.3 本文的研究?jī)?nèi)容14-15
  • 1.4 本文的章節(jié)安排15-16
  • 第2章 不平衡數(shù)據(jù)集研究16-25
  • 2.1 不平衡數(shù)據(jù)集16
  • 2.2 不平衡數(shù)據(jù)集的分類(lèi)學(xué)習(xí)的難點(diǎn)16-18
  • 2.3 不平衡數(shù)據(jù)學(xué)習(xí)的主要方法18-22
  • 2.3.1 基于數(shù)據(jù)層面的方法18-20
  • 2.3.2 基于算法層面的方法20-22
  • 2.4 不平衡數(shù)據(jù)的評(píng)價(jià)準(zhǔn)則22-24
  • 2.4.1 F-measure準(zhǔn)則23
  • 2.4.2 G-mean準(zhǔn)則23-24
  • 2.4.3 ROC曲線以及AUC24
  • 2.5 本章小結(jié)24-25
  • 第3章 基于數(shù)據(jù)密度分布的欠采樣方法25-31
  • 3.1 基于數(shù)據(jù)密度分布的欠采樣方法25-27
  • 3.1.1 US-DD算法思想25-26
  • 3.1.2 數(shù)據(jù)密度26
  • 3.1.3 US-DD算法描述26-27
  • 3.2 實(shí)驗(yàn)過(guò)程與結(jié)果分析27-30
  • 3.2.1 實(shí)驗(yàn)數(shù)據(jù)集27-28
  • 3.2.2 實(shí)驗(yàn)結(jié)果與分析28-30
  • 3.3 本章小結(jié)30-31
  • 第4章 基于屬性偏向的過(guò)采樣方法31-39
  • 4.1 SMOTE方法31-32
  • 4.2 SMOTE方法的不足之處32-33
  • 4.3 基于屬性偏向的過(guò)采樣方法33-38
  • 4.3.1 GE-SMOTE算法思想33
  • 4.3.2 GE-SMOTE算法描述33-36
  • 4.3.3 實(shí)驗(yàn)結(jié)果與分析36-38
  • 4.4 本章小結(jié)38-39
  • 第5章 綜合重采樣的集成學(xué)習(xí)方法研究39-44
  • 5.1 DataBoost-IM算法的不足39
  • 5.2 綜合重采樣的集成算法DataBoost-DG39-42
  • 5.2.1 US-DD在DataBoost-DG中的作用39-40
  • 5.2.2 GE-SMOTE在DataBoost-DG中的作用40-41
  • 5.2.3 DataBoost-DG算法步驟41-42
  • 5.3 實(shí)驗(yàn)與結(jié)果分析42-43
  • 5.4 本章小結(jié)43-44
  • 結(jié)論44-46
  • 參考文獻(xiàn)46-49
  • 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文49-50
  • 致謝50

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 李勇;;結(jié)合欠抽樣與集成的軟件缺陷預(yù)測(cè)[J];計(jì)算機(jī)應(yīng)用;2014年08期

2 李勇;劉戰(zhàn)東;張海軍;;不平衡數(shù)據(jù)的集成分類(lèi)算法綜述[J];計(jì)算機(jī)應(yīng)用研究;2014年05期

3 孟光勝;趙志宇;;基于兩層主動(dòng)學(xué)習(xí)策略的SVM分類(lèi)方法[J];河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期

4 謝科;;融合協(xié)同訓(xùn)練和兩層主動(dòng)學(xué)習(xí)策略的SVM分類(lèi)方法[J];湖南師范大學(xué)自然科學(xué)學(xué)報(bào);2014年01期

5 郭麗娟;倪子偉;江弋;鄒權(quán);;集成降采樣不平衡數(shù)據(jù)分類(lèi)方法研究[J];計(jì)算機(jī)科學(xué)與探索;2013年07期

6 袁興梅;楊明;楊楊;;一種面向不平衡數(shù)據(jù)的結(jié)構(gòu)化SVM集成分類(lèi)器[J];模式識(shí)別與人工智能;2013年03期

7 李秋潔;茅耀斌;葉曙光;王執(zhí)銓;;代價(jià)敏感Boosting算法研究[J];南京理工大學(xué)學(xué)報(bào);2013年01期

8 張伶衛(wèi);萬(wàn)文強(qiáng);;基于云計(jì)算平臺(tái)的代價(jià)敏感集成學(xué)習(xí)算法研究[J];山東大學(xué)學(xué)報(bào)(工學(xué)版);2012年04期

9 于重重;田蕊;譚勵(lì);涂序彥;;非平衡樣本分類(lèi)的集成遷移學(xué)習(xí)算法[J];電子學(xué)報(bào);2012年07期

10 趙衛(wèi)中;馬慧芳;李志清;史忠植;;一種結(jié)合主動(dòng)學(xué)習(xí)的半監(jiān)督文檔聚類(lèi)算法[J];軟件學(xué)報(bào);2012年06期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 尹華;面向高維和不平衡數(shù)據(jù)分類(lèi)的集成學(xué)習(xí)研究[D];武漢大學(xué);2012年

2 李軍;不平衡數(shù)據(jù)學(xué)習(xí)的研究[D];吉林大學(xué);2011年


  本文關(guān)鍵詞:綜合過(guò)采樣和欠采樣的不平衡數(shù)據(jù)集的學(xué)習(xí)研究,由筆耕文化傳播整理發(fā)布。



本文編號(hào):381423

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/381423.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶eeea2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
99久久精品午夜一区二区| 熟女高潮一区二区三区| 中文字字幕在线中文乱码二区| 欧美人妻免费一区二区三区 | 亚洲国产成人久久一区二区三区| 精品伊人久久大香线蕉综合| 国产精品伦一区二区三区在线| 亚洲高清一区二区高清| 亚洲熟女乱色一区二区三区| 色播五月激情五月婷婷| 午夜福利大片亚洲一区| 美女黄片大全在线观看| 欧美大黄片在线免费观看| 在线观看日韩欧美综合黄片| 色播五月激情五月婷婷| 午夜传媒视频免费在线观看| 日本不卡一区视频欧美| 香港国产三级久久精品三级| 日本熟妇五十一区二区三区| 欧美大胆美女a级视频| 粉嫩一区二区三区粉嫩视频| 精品日韩国产高清毛片| 91亚洲精品国产一区| 亚洲欧美国产精品一区二区| 亚洲av专区在线观看| 91超频在线视频中文字幕| 久热人妻中文字幕一区二区| 亚洲综合精品天堂夜夜| 爱在午夜降临前在线观看| 扒开腿狂躁女人爽出白浆av| 婷婷色国产精品视频一区| 国产麻豆一区二区三区在| 日韩精品中文字幕在线视频| 欧美整片精品日韩综合| 免费午夜福利不卡片在线 视频| 风间中文字幕亚洲一区| 国产精品免费自拍视频| 午夜福利视频六七十路熟女| 男生和女生哪个更好色| 台湾综合熟女一区二区| 高清在线精品一区二区|