改進的深度學(xué)習(xí)算法在中文文本分類中的應(yīng)用
發(fā)布時間:2023-06-03 00:35
分類問題是目前非常重要并且具有普遍意義的問題,我們生活中有很多問題歸根到底都是分類問題。文本分類作為互聯(lián)網(wǎng)文本處理以及信息檢索的核心,在自然語言處理領(lǐng)域中占據(jù)十分重要的地位。如今互聯(lián)網(wǎng)上中文新聞文本數(shù)量呈指數(shù)級水平爆炸增加,如何準確有效地對海量新聞數(shù)據(jù)進行分類進而從中挖掘到有效的信息,是當(dāng)前急需解決的問題。傳統(tǒng)的文本分類方法雖然能夠提高分類效果,但仍然存在維度爆炸、特征稀疏等問題。隨著深度學(xué)習(xí)在文本分類中的廣泛應(yīng)用,其能夠有效地避免這些問題,并取得顯著的效果。本文重點研究基于深度學(xué)習(xí)技術(shù)并使用更高效的方法實現(xiàn)新聞文本分類,以提高信息檢索的效率,主要將深度學(xué)習(xí)中的模型融合技術(shù)應(yīng)用在搜狗新聞文本分類任務(wù)中,具體的研究內(nèi)容如下:(1)以搜狗新聞文本數(shù)據(jù)為目標數(shù)據(jù)集,首先針對樣本數(shù)據(jù)存在的嚴重不均衡問題引入了簡單數(shù)據(jù)增強(Easy Data Augmentation,EDA),對樣本數(shù)量很少的類別進行擴增,通過多組實驗表明數(shù)據(jù)增強后的分類效果優(yōu)于數(shù)據(jù)增強前,證明了引入EDA能夠有效地提高模型的泛化能力。然后將卷積神經(jīng)網(wǎng)絡(luò)(CNN)、雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(BiGRU)與注意力機制(Attenti...
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 文本分類技術(shù)介紹
2.1 文本預(yù)處理
2.1.1 文本數(shù)據(jù)增強
2.1.2 分詞
2.1.3 去停用詞
2.1.4 文本表示
2.2 傳統(tǒng)文本分類方法
2.2.1 樸素貝葉斯
2.2.2 K-最近鄰
2.2.3 支持向量機
2.2.4 Softmax分類器
2.3 深度學(xué)習(xí)文本分類方法
2.3.1 卷積神經(jīng)網(wǎng)絡(luò)
2.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.3.3 注意力機制
2.4 集成學(xué)習(xí)方法
2.5 性能評價指標
2.6 本章小結(jié)
第三章 基于CBA模型的新聞文本分類研究
3.1 基于EDA進行新聞文本數(shù)據(jù)增強
3.2 CBA模型設(shè)計
3.3 基于CBA模型的新聞文本分類流程
3.3.1 數(shù)據(jù)預(yù)處理
3.3.2 特征提取
3.3.3 訓(xùn)練模型進行分類
3.4 實驗與分析
3.4.1 實驗環(huán)境和數(shù)據(jù)
3.4.2 實驗具體設(shè)計
3.4.3 實驗參數(shù)設(shè)置
3.4.4 實驗結(jié)果與分析
3.5 本章小結(jié)
第四章 基于ECBA模型的新聞文本分類研究
4.1 ECBA模型設(shè)計
4.2 ECBA模型處理流程
4.3 實驗與分析
4.3.1 實驗環(huán)境和數(shù)據(jù)
4.3.2 實驗具體設(shè)計
4.3.3 實驗參數(shù)設(shè)置
4.3.4 實驗結(jié)果與分析
4.4 本章小結(jié)
總結(jié)與展望
參考文獻
攻讀碩士學(xué)位期間取得的學(xué)術(shù)成果
致謝
本文編號:3828326
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第二章 文本分類技術(shù)介紹
2.1 文本預(yù)處理
2.1.1 文本數(shù)據(jù)增強
2.1.2 分詞
2.1.3 去停用詞
2.1.4 文本表示
2.2 傳統(tǒng)文本分類方法
2.2.1 樸素貝葉斯
2.2.2 K-最近鄰
2.2.3 支持向量機
2.2.4 Softmax分類器
2.3 深度學(xué)習(xí)文本分類方法
2.3.1 卷積神經(jīng)網(wǎng)絡(luò)
2.3.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.3.3 注意力機制
2.4 集成學(xué)習(xí)方法
2.5 性能評價指標
2.6 本章小結(jié)
第三章 基于CBA模型的新聞文本分類研究
3.1 基于EDA進行新聞文本數(shù)據(jù)增強
3.2 CBA模型設(shè)計
3.3 基于CBA模型的新聞文本分類流程
3.3.1 數(shù)據(jù)預(yù)處理
3.3.2 特征提取
3.3.3 訓(xùn)練模型進行分類
3.4 實驗與分析
3.4.1 實驗環(huán)境和數(shù)據(jù)
3.4.2 實驗具體設(shè)計
3.4.3 實驗參數(shù)設(shè)置
3.4.4 實驗結(jié)果與分析
3.5 本章小結(jié)
第四章 基于ECBA模型的新聞文本分類研究
4.1 ECBA模型設(shè)計
4.2 ECBA模型處理流程
4.3 實驗與分析
4.3.1 實驗環(huán)境和數(shù)據(jù)
4.3.2 實驗具體設(shè)計
4.3.3 實驗參數(shù)設(shè)置
4.3.4 實驗結(jié)果與分析
4.4 本章小結(jié)
總結(jié)與展望
參考文獻
攻讀碩士學(xué)位期間取得的學(xué)術(shù)成果
致謝
本文編號:3828326
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3828326.html
最近更新
教材專著