基于多模型融合的新聞文本分類研究
發(fā)布時間:2022-12-08 21:51
文本分類是通過訓(xùn)練一個分類模型來對未歸類文本進(jìn)行分類的一項(xiàng)技術(shù),目前在許多應(yīng)用領(lǐng)域取得了一定的成果,但主要集中在郵件和微博等短文本上,針對類似新聞這樣的長文本仍存在分類效果不理想的現(xiàn)象,有待更進(jìn)一步的研究,F(xiàn)有的分類方法雖然能在一定程度上提高分類的準(zhǔn)確性,但是仍存在特征高維和稀疏的問題。針對上述問題,本文提出一種基于三支決策的特征選擇算法,在特征選擇過程中融入三支的思想對分類方法進(jìn)行改進(jìn),增加樣本空間中特征詞的考察維度,在保證分類性能的前提下減少提取的特征詞數(shù)量,改善特征高維與稀疏的問題。同時,本文設(shè)計(jì)了一種多模型融合的文本語義生成模型(TR-CNN模型),有效地提升深度學(xué)習(xí)模型在長文本領(lǐng)域的語義生成。本文的主要研究工作包括:1.針對傳統(tǒng)的特征選擇算法存在特征高維和稀疏的問題,本文提出一種基于三支決策的特征選擇算法。首先,對傳統(tǒng)特征選擇算法進(jìn)行系統(tǒng)分析和研究,發(fā)現(xiàn)傳統(tǒng)特征選擇算法在給特征詞賦權(quán)重時比較單一和片面;其次,結(jié)合三支決策的思想,利用雙決策函數(shù)投票的方式對特征詞進(jìn)行篩選,將樣本空間的特征詞劃分到正域、邊界域和負(fù)域中;然后,對邊界域中的特征詞做進(jìn)一步地處理,確定最終的特征集合;最...
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 引言
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類國內(nèi)外研究現(xiàn)狀
1.2.2 基于深度學(xué)習(xí)的文本分類國內(nèi)外研究現(xiàn)狀
1.2.3 多模型融合的國內(nèi)外研究現(xiàn)狀
1.2.4 三支決策國內(nèi)外研究現(xiàn)狀
1.3 論文的主要工作
1.4 論文主要組織結(jié)構(gòu)
第2章 三支決策與文本分類算法
2.1 三支決策理論介紹
2.1.1 三支決策描述
2.1.2 三支決策分類表示
2.2 文本分類概述
2.2.1 文本特征選擇算法
2.2.2 文本分類算法
2.3 本章小結(jié)
第3章 基于三支決策的特征選擇算法
3.1 基于三支決策的特征選擇算法
3.1.1 三支決策劃分及決策
3.1.2 相關(guān)定義
3.1.3 算法描述
3.2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
3.2.1 數(shù)據(jù)集與度量標(biāo)準(zhǔn)
3.2.2 實(shí)驗(yàn)方法
3.2.3 實(shí)驗(yàn)結(jié)果
3.3 本章小結(jié)
第4章 基于多模型融合的新聞文本分類算法
4.1 深度語義與文本分類
4.1.1 文本表示方法
4.1.2 深度學(xué)習(xí)與文本分類
4.2 基于多模型融合的文本語義向量表示
4.2.1 Transformer模型
4.2.2 多模型文本語義向量表示
4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.3.1 數(shù)據(jù)集與運(yùn)行環(huán)境
4.3.2 實(shí)驗(yàn)方法
4.3.3 實(shí)驗(yàn)結(jié)果
4.4 本章小結(jié)
第5章 總結(jié)與展望
5.1 主要工作與創(chuàng)新點(diǎn)
5.2 未來工作
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌. 計(jì)算機(jī)應(yīng)用. 2018(11)
[2]一種基于屬性加權(quán)補(bǔ)集的樸素貝葉斯文本分類算法[J]. 陳凱,黃英來,高文韜,趙鵬. 哈爾濱理工大學(xué)學(xué)報(bào). 2018(04)
[3]基于三支決策的形式概念分析、粗糙集與粒計(jì)算[J]. 姚一豫,祁建軍,魏玲. 西北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(04)
[4]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀. 電子學(xué)報(bào). 2018(01)
[5]基于協(xié)同過濾的三支粒推薦算法研究[J]. 葉曉慶,劉盾,梁德翠. 計(jì)算機(jī)科學(xué). 2018(01)
[6]基于三支決策的多粒度文本情感分類模型[J]. 張?jiān)奖?苗奪謙,張志飛. 計(jì)算機(jī)科學(xué). 2017(12)
[7]一種基于郵件頭信息的三支決策郵件過濾方法[J]. 袁國鑫,于洪. 計(jì)算機(jī)科學(xué). 2017(09)
[8]基于三支決策的多類分類模型[J]. 徐怡,魏貴瑩. 計(jì)算機(jī)應(yīng)用與軟件. 2017(05)
[9]詞向量與LDA相融合的短文本分類方法[J]. 張群,王紅軍,王倫文. 現(xiàn)代圖書情報(bào)技術(shù). 2016(12)
[10]基于改進(jìn)的CHI統(tǒng)計(jì)方法在文本分類中的應(yīng)用[J]. 黃章樹,葉志龍. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2016(11)
碩士論文
[1]基于深度學(xué)習(xí)的短文本分類及信息抽取研究[D]. 李超.鄭州大學(xué) 2017
[2]基于模型融合的廣告推薦算法的研究與實(shí)現(xiàn)[D]. 鄭屹.北京理工大學(xué) 2016
[3]中文文本分類中卡方統(tǒng)計(jì)特征選擇方法和TF-IDF權(quán)重計(jì)算方法的研究[D]. 姚海英.吉林大學(xué) 2016
本文編號:3714197
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 引言
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的文本分類國內(nèi)外研究現(xiàn)狀
1.2.2 基于深度學(xué)習(xí)的文本分類國內(nèi)外研究現(xiàn)狀
1.2.3 多模型融合的國內(nèi)外研究現(xiàn)狀
1.2.4 三支決策國內(nèi)外研究現(xiàn)狀
1.3 論文的主要工作
1.4 論文主要組織結(jié)構(gòu)
第2章 三支決策與文本分類算法
2.1 三支決策理論介紹
2.1.1 三支決策描述
2.1.2 三支決策分類表示
2.2 文本分類概述
2.2.1 文本特征選擇算法
2.2.2 文本分類算法
2.3 本章小結(jié)
第3章 基于三支決策的特征選擇算法
3.1 基于三支決策的特征選擇算法
3.1.1 三支決策劃分及決策
3.1.2 相關(guān)定義
3.1.3 算法描述
3.2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
3.2.1 數(shù)據(jù)集與度量標(biāo)準(zhǔn)
3.2.2 實(shí)驗(yàn)方法
3.2.3 實(shí)驗(yàn)結(jié)果
3.3 本章小結(jié)
第4章 基于多模型融合的新聞文本分類算法
4.1 深度語義與文本分類
4.1.1 文本表示方法
4.1.2 深度學(xué)習(xí)與文本分類
4.2 基于多模型融合的文本語義向量表示
4.2.1 Transformer模型
4.2.2 多模型文本語義向量表示
4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.3.1 數(shù)據(jù)集與運(yùn)行環(huán)境
4.3.2 實(shí)驗(yàn)方法
4.3.3 實(shí)驗(yàn)結(jié)果
4.4 本章小結(jié)
第5章 總結(jié)與展望
5.1 主要工作與創(chuàng)新點(diǎn)
5.2 未來工作
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌. 計(jì)算機(jī)應(yīng)用. 2018(11)
[2]一種基于屬性加權(quán)補(bǔ)集的樸素貝葉斯文本分類算法[J]. 陳凱,黃英來,高文韜,趙鵬. 哈爾濱理工大學(xué)學(xué)報(bào). 2018(04)
[3]基于三支決策的形式概念分析、粗糙集與粒計(jì)算[J]. 姚一豫,祁建軍,魏玲. 西北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(04)
[4]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀. 電子學(xué)報(bào). 2018(01)
[5]基于協(xié)同過濾的三支粒推薦算法研究[J]. 葉曉慶,劉盾,梁德翠. 計(jì)算機(jī)科學(xué). 2018(01)
[6]基于三支決策的多粒度文本情感分類模型[J]. 張?jiān)奖?苗奪謙,張志飛. 計(jì)算機(jī)科學(xué). 2017(12)
[7]一種基于郵件頭信息的三支決策郵件過濾方法[J]. 袁國鑫,于洪. 計(jì)算機(jī)科學(xué). 2017(09)
[8]基于三支決策的多類分類模型[J]. 徐怡,魏貴瑩. 計(jì)算機(jī)應(yīng)用與軟件. 2017(05)
[9]詞向量與LDA相融合的短文本分類方法[J]. 張群,王紅軍,王倫文. 現(xiàn)代圖書情報(bào)技術(shù). 2016(12)
[10]基于改進(jìn)的CHI統(tǒng)計(jì)方法在文本分類中的應(yīng)用[J]. 黃章樹,葉志龍. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2016(11)
碩士論文
[1]基于深度學(xué)習(xí)的短文本分類及信息抽取研究[D]. 李超.鄭州大學(xué) 2017
[2]基于模型融合的廣告推薦算法的研究與實(shí)現(xiàn)[D]. 鄭屹.北京理工大學(xué) 2016
[3]中文文本分類中卡方統(tǒng)計(jì)特征選擇方法和TF-IDF權(quán)重計(jì)算方法的研究[D]. 姚海英.吉林大學(xué) 2016
本文編號:3714197
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3714197.html
最近更新
教材專著