天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

遷移與集成學(xué)習(xí)在文本分類中的應(yīng)用研究

發(fā)布時(shí)間:2017-04-17 06:20

  本文關(guān)鍵詞:遷移與集成學(xué)習(xí)在文本分類中的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。


【摘要】:遷移學(xué)習(xí)是解決數(shù)據(jù)跨領(lǐng)域問題的一種有效方式,它從過期數(shù)據(jù)中學(xué)習(xí)知識(shí)來幫助認(rèn)知新任務(wù),由于其打破了傳統(tǒng)機(jī)器學(xué)習(xí)“獨(dú)立同分布”的假設(shè),被成功應(yīng)用于很多領(lǐng)域。集成學(xué)習(xí)通過組建多個(gè)有差異的分類器建立預(yù)測(cè)模型,由于其突出的穩(wěn)定性和泛化性,成為機(jī)器學(xué)習(xí)研究的熱點(diǎn)之一。本文以新聞文本分類為背景,對(duì)遷移學(xué)習(xí)和集成Bagging算法進(jìn)行了研究,并得出一種改進(jìn)的組合算法,為在少量目標(biāo)訓(xùn)練集的情況下進(jìn)行分類提供了一種適用的框架。首先闡述了集成學(xué)習(xí)的概念、發(fā)展現(xiàn)狀,遷移學(xué)習(xí)的概念、對(duì)比分類、應(yīng)用領(lǐng)域。之后,對(duì)新聞文本數(shù)據(jù)集的預(yù)處理過程進(jìn)行詳細(xì)的描述,討論確認(rèn)了參數(shù)和特征選擇算法,使預(yù)測(cè)分類模型的訓(xùn)練數(shù)據(jù)輸入更精準(zhǔn)合適。最后,本文針對(duì)目標(biāo)域的訓(xùn)練樣本數(shù)量較少,無法建立優(yōu)質(zhì)分類模型的問題,探討了一種在遷移框架下基于集成Bagging算法的跨領(lǐng)域分類模型。該模型引入源域的數(shù)據(jù)并對(duì)其進(jìn)行篩選,學(xué)習(xí)混合數(shù)據(jù)集,從而建立基于集成Bagging算法的分類模型,最終投票得出預(yù)測(cè)結(jié)果。通過仿真實(shí)驗(yàn)的對(duì)比,采用基于貝葉斯基分類器的集成Bagging算法能使源域的遷移和目標(biāo)域的分類準(zhǔn)確率、泛化性能最好。同時(shí),本文分析了源域中的噪音數(shù)據(jù)的數(shù)量對(duì)分類模型的影響,實(shí)驗(yàn)結(jié)果表明基于遷移集成Bagging算法的模型可以部分地規(guī)避負(fù)遷移。綜上所述,本文針對(duì)不同的特征選擇算法,研究了文本預(yù)處理過程中特征選擇算法的差異。針對(duì)國(guó)內(nèi)搜索引擎中很少能找到完整的英文預(yù)處理流程,本文改進(jìn)了中文文本處理程序,整理出一套完整的圖形化的英文文本預(yù)處理方式。將遷移學(xué)習(xí)與集成學(xué)習(xí)結(jié)合起來,綜合探討了跨領(lǐng)域的數(shù)據(jù)和不平衡數(shù)據(jù)的解決方式,給出了一種基于選擇遷移的集成Bagging算法的分類模型,實(shí)驗(yàn)表明該模型整體性能較好,并且能規(guī)避一定的負(fù)遷移。
【關(guān)鍵詞】:文本分類 遷移學(xué)習(xí) 集成Bagging 預(yù)處理 負(fù)遷移
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
  • 摘要6-7
  • Abstract7-13
  • 第1章 緒論13-17
  • 1.1 研究背景13-14
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀14-15
  • 1.3 本文工作15-16
  • 1.4 組織結(jié)構(gòu)16-17
  • 第2章 集成學(xué)習(xí)與遷移學(xué)習(xí)的相關(guān)理論17-25
  • 2.1 集成學(xué)習(xí)17-20
  • 2.1.1 集成學(xué)習(xí)概念17
  • 2.1.2 現(xiàn)狀與發(fā)展17-18
  • 2.1.3 Bagging與Boosting算法簇18-20
  • 2.2 遷移學(xué)習(xí)20-24
  • 2.2.1 遷移學(xué)習(xí)概念20-21
  • 2.2.2 遷移學(xué)習(xí)的分類21-23
  • 2.2.3 遷移學(xué)習(xí)的對(duì)比23
  • 2.2.4 遷移學(xué)習(xí)的應(yīng)用23-24
  • 2.3 本章小結(jié)24-25
  • 第3章 文本數(shù)據(jù)預(yù)處理25-41
  • 3.1 引言25
  • 3.2 建立數(shù)據(jù)集25-27
  • 3.3 文本表示27-28
  • 3.4 特征選擇28-31
  • 3.5 仿真實(shí)驗(yàn)31-37
  • 3.5.1 短文本處理實(shí)驗(yàn)31-34
  • 3.5.2 特征選擇算法對(duì)比實(shí)驗(yàn)34-37
  • 3.6 文本預(yù)處理系統(tǒng)設(shè)計(jì)37-40
  • 3.7 本章小結(jié)40-41
  • 第4章 基于選擇遷移的Bagging文本分類算法41-47
  • 4.1 引言41-42
  • 4.2 問題描述42-43
  • 4.3 基于分類的選擇遷移算法(ADS)43-45
  • 4.3.1 相關(guān)分類器43-44
  • 4.3.2 基于分類的選擇遷移算法描述(ADS)44-45
  • 4.4 基于選擇遷移的Bagging算法描述(A-TTB)45-46
  • 4.4.1 相關(guān)Transfer Bagging算法45
  • 4.4.2 基于選擇遷移的Bagging算法(A-TTB)45-46
  • 4.5 本章小結(jié)46-47
  • 第5章 實(shí)驗(yàn)與分析47-63
  • 5.1 數(shù)據(jù)集介紹47-49
  • 5.2 實(shí)驗(yàn)環(huán)境與工具49-50
  • 5.3 實(shí)驗(yàn)過程50-55
  • 5.4 實(shí)驗(yàn)結(jié)果與分析55-62
  • 5.4.1 ADS實(shí)驗(yàn)結(jié)果與分析55-57
  • 5.4.2 A-TTB實(shí)驗(yàn)結(jié)果與分析57-62
  • 5.5 本章小結(jié)62-63
  • 結(jié)論與展望63-65
  • 參考文獻(xiàn)65-69
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文69-70
  • 致謝70

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

1 劉偉;張化祥;;數(shù)據(jù)集動(dòng)態(tài)重構(gòu)的集成遷移學(xué)習(xí)[J];計(jì)算機(jī)工程與應(yīng)用;2010年12期


  本文關(guān)鍵詞:遷移與集成學(xué)習(xí)在文本分類中的應(yīng)用研究,由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):312638

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/312638.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fa7db***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com