基于改進(jìn)BiGRU的類別不平衡文本分類算法研究
發(fā)布時(shí)間:2023-08-18 16:40
伴隨著信息技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)每天都會產(chǎn)生海量的數(shù)據(jù)。數(shù)據(jù)分類是信息管理的一種重要手段而文本分類是數(shù)據(jù)分類中重要的一種。然而,在現(xiàn)實(shí)中,由于數(shù)據(jù)收集方法等原因,需要進(jìn)行分類的文本數(shù)據(jù)往往是類別不平衡的,即不同類別的樣本數(shù)目差異較大。在訓(xùn)練時(shí),若樣本數(shù)目少的類(少數(shù)類)的特征不明顯,在預(yù)測時(shí)少數(shù)類樣本傾向被預(yù)測成樣本數(shù)目多的類(多數(shù)類),極大地影響分類效果。一般的文本分類算法較少考慮到文本數(shù)據(jù)的類別不平衡問題,在類別不平衡文本分類任務(wù)中,分類器無法很好地學(xué)習(xí)到少數(shù)類的特征。雙向門控循環(huán)單元(BiGRU)是一種深度神經(jīng)網(wǎng)絡(luò),在文本分類任務(wù)中,以低維詞向量作為文本的特征輸入到網(wǎng)絡(luò),從前后兩個(gè)方向提取文本的特征,具有較強(qiáng)的提取文本特征的能力。但BiGRU沒有專門針對類別不平衡問題進(jìn)行設(shè)計(jì),不能很好地應(yīng)用在類別不平衡文本分類任務(wù)中。為此,結(jié)合類別不平衡問題中特征選擇、欠采樣和模型集成三種解決方法對BiGRU改進(jìn),本文提出了多通道詞向量增強(qiáng)BiGRU-Attention模型,用于解決類別不平衡文本分類問題。(1)在特征選擇方面,通過卡方檢驗(yàn)方法提取各個(gè)類別的特征詞得到類特征詞詞典,然后將文本中的...
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景以及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于深度學(xué)習(xí)的文本分類
1.2.2 類別不平衡問題
1.3 主要研究工作
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)理論
2.1 文本分類
2.2 類別不平衡問題
2.3 Word2vec
2.3.1 CBOW
2.3.2 Skip-gram
2.4 注意力機(jī)制
2.5 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.6 本章小結(jié)
第三章 問題分析與解決思路
3.1 問題分析
3.2 傳統(tǒng)方法
3.3 算法思路
3.4 本章小結(jié)
第四章 算法設(shè)計(jì)
4.1 算法流程
4.2 詞類別特征提取
4.2.1 類特征詞提取
4.2.2 詞類別特征表示獲取
4.3 詞向量增強(qiáng)BiGRU-Attention模型
4.3.1 嵌入層
4.3.2 BiGRU層
4.3.3 注意力層
4.3.4 分類結(jié)果輸出與模型訓(xùn)練
4.4 多通道詞向量增強(qiáng)BiGRU-Attention模型
4.5 本章小結(jié)
第五章 實(shí)驗(yàn)與分析
5.1 數(shù)據(jù)集與評價(jià)指標(biāo)
5.1.1 數(shù)據(jù)集
5.1.2 評價(jià)指標(biāo)
5.2 實(shí)驗(yàn)設(shè)置
5.2.1 實(shí)驗(yàn)環(huán)境
5.2.2 數(shù)據(jù)預(yù)處理
5.2.3 實(shí)驗(yàn)參數(shù)設(shè)置
5.3 實(shí)驗(yàn)結(jié)果與對比分析
5.3.1 對比實(shí)驗(yàn)結(jié)果與分析
5.3.2 消融實(shí)驗(yàn)結(jié)果與分析
5.3.3 不同特征融合方式實(shí)驗(yàn)結(jié)果與分析
5.3.4 不同通道數(shù)實(shí)驗(yàn)結(jié)果與分析
5.4 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的成果
致謝
本文編號:3842560
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景以及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 基于深度學(xué)習(xí)的文本分類
1.2.2 類別不平衡問題
1.3 主要研究工作
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)理論
2.1 文本分類
2.2 類別不平衡問題
2.3 Word2vec
2.3.1 CBOW
2.3.2 Skip-gram
2.4 注意力機(jī)制
2.5 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.6 本章小結(jié)
第三章 問題分析與解決思路
3.1 問題分析
3.2 傳統(tǒng)方法
3.3 算法思路
3.4 本章小結(jié)
第四章 算法設(shè)計(jì)
4.1 算法流程
4.2 詞類別特征提取
4.2.1 類特征詞提取
4.2.2 詞類別特征表示獲取
4.3 詞向量增強(qiáng)BiGRU-Attention模型
4.3.1 嵌入層
4.3.2 BiGRU層
4.3.3 注意力層
4.3.4 分類結(jié)果輸出與模型訓(xùn)練
4.4 多通道詞向量增強(qiáng)BiGRU-Attention模型
4.5 本章小結(jié)
第五章 實(shí)驗(yàn)與分析
5.1 數(shù)據(jù)集與評價(jià)指標(biāo)
5.1.1 數(shù)據(jù)集
5.1.2 評價(jià)指標(biāo)
5.2 實(shí)驗(yàn)設(shè)置
5.2.1 實(shí)驗(yàn)環(huán)境
5.2.2 數(shù)據(jù)預(yù)處理
5.2.3 實(shí)驗(yàn)參數(shù)設(shè)置
5.3 實(shí)驗(yàn)結(jié)果與對比分析
5.3.1 對比實(shí)驗(yàn)結(jié)果與分析
5.3.2 消融實(shí)驗(yàn)結(jié)果與分析
5.3.3 不同特征融合方式實(shí)驗(yàn)結(jié)果與分析
5.3.4 不同通道數(shù)實(shí)驗(yàn)結(jié)果與分析
5.4 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的成果
致謝
本文編號:3842560
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3842560.html
最近更新
教材專著