融合全局和局部特征的文本分類方法研究
發(fā)布時間:2023-04-08 01:54
文本分類是數(shù)據(jù)挖掘和自然語言處理領域中的一個重要處理步驟,是許多應用技術實現(xiàn)的前提,當前已經(jīng)成為學術界和工業(yè)界最受關注的研究前沿問題之一。大多數(shù)基于深度學習技術的文本分類方法將單詞作為文本特征,然后對這些文本特征進行一層層的提煉得到表達能力強的局部特征。最后的分類結果也完全依賴于這些提取的局部特征。雖然這些局部特征可以很好的描述單詞的特性以及上下文關系,但是難以從全局的角度對各個類別的文檔語義信息進行描述。因此,為了進一步提高文本分類方法的準確率和適應性,提取能夠表示文檔全局語義信息的全局特征,是當前文本分類領域的關鍵性和熱點問題。進一步提升文本分類方法的準確率仍具有很大的挑戰(zhàn)性:(1)不同數(shù)據(jù)集的局部特征分布差異較大,輸入數(shù)據(jù)未經(jīng)提煉可能會導致中性詞干擾的問題;(2)一部分數(shù)據(jù)集的分布不均衡,同時有標簽的數(shù)據(jù)偏少,可能會導致文本分類模型的泛化能力不足;(3)現(xiàn)有的深度學習方法對不同主題構建統(tǒng)一的模型框架進行處理,未能考慮不同主題文檔之間的差異和區(qū)別;(4)現(xiàn)有方法忽略了能表示不同類別樣本之間空間距離的全局特征,文檔類別距離信息缺失。因此,僅僅選擇將局部特征作為分類模型的輸入,會缺失不...
【文章頁數(shù)】:115 頁
【學位級別】:博士
【文章目錄】:
論文創(chuàng)新點
中文摘要
ABSTRACT
第一章 引言
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 傳統(tǒng)的文本分類方法
1.2.2 基于CNNs的文本分類
1.2.3 基于RNNs的文本分類
1.2.4 基于GANs的文本分類
1.2.5 基于Caps Net的文本分類
1.2.6 詞向量表示工具
1.3 文本分類面臨的挑戰(zhàn)
1.4 本文主要的工作內(nèi)容
1.5 全文組織結構
第二章 基于高效用神經(jīng)網(wǎng)絡的文本分類
2.1 問題描述
2.2 相關工作
2.3 模型框架
2.3.1 挖掘層
2.3.2 特征提取層
2.4 實驗分析
2.4.1 實驗數(shù)據(jù)集
2.4.2 基準算法與實驗設置
2.4.3 實驗結果與分析
2.4.4 不同的效用閾值對結果的影響
2.5 本章小結
第三章 基于成對詞神經(jīng)網(wǎng)絡的文本分類
3.1 問題描述
3.2 相關工作
3.3 模型框架
3.3.1 顯式成對詞挖掘
3.3.2 隱式成對詞挖掘
3.3.3 成對詞神經(jīng)網(wǎng)絡框架
3.4 實驗結果
3.4.1 實驗數(shù)據(jù)集
3.4.2 基準算法和參數(shù)設置
3.4.3 在One-hot編碼下的實驗結果
3.4.4 在Word2vec編碼下的實驗結果
3.4.5 在Glove編碼下的實驗結果
3.4.6 不同的成對詞數(shù)量對結果的影響
3.5 本章小結
第四章 基于攣生膠囊網(wǎng)絡的文本分類
4.1 問題描述
4.2 相關工作
4.3 模型框架
4.3.1 問題形式化
4.3.2 基本膠囊網(wǎng)絡
4.3.3 孿生膠囊網(wǎng)絡
4.3.4 全局記憶機制
4.4 實驗結果
4.4.1 基準算法
4.4.2 實驗設置和超參數(shù)
4.4.3 總體性能
4.4.4 模型穩(wěn)定性分析
4.4.5 比較實驗
4.5 本章小結
第五章 基于三重膠囊網(wǎng)絡的文本分類
5.1 問題描述
5.2 相關工作
5.3 模型框架
5.3.1 問題形式化
5.3.2 三重損失函數(shù)
5.3.3 局部特征提取
5.4 實驗結果
5.4.1 實驗配置
5.4.2 基準算法
5.4.3 總體實驗結果
5.4.4 訓練規(guī)模的影響
5.5 本章小結
第六章 總結與展望
6.1 論文的主要貢獻
6.2 未來的工作展望
參考文獻
致謝
攻博期間發(fā)表的科研成果目錄
發(fā)表的論文
發(fā)明專利
攻博期間參與的項目
本文編號:3785764
【文章頁數(shù)】:115 頁
【學位級別】:博士
【文章目錄】:
論文創(chuàng)新點
中文摘要
ABSTRACT
第一章 引言
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 傳統(tǒng)的文本分類方法
1.2.2 基于CNNs的文本分類
1.2.3 基于RNNs的文本分類
1.2.4 基于GANs的文本分類
1.2.5 基于Caps Net的文本分類
1.2.6 詞向量表示工具
1.3 文本分類面臨的挑戰(zhàn)
1.4 本文主要的工作內(nèi)容
1.5 全文組織結構
第二章 基于高效用神經(jīng)網(wǎng)絡的文本分類
2.1 問題描述
2.2 相關工作
2.3 模型框架
2.3.1 挖掘層
2.3.2 特征提取層
2.4 實驗分析
2.4.1 實驗數(shù)據(jù)集
2.4.2 基準算法與實驗設置
2.4.3 實驗結果與分析
2.4.4 不同的效用閾值對結果的影響
2.5 本章小結
第三章 基于成對詞神經(jīng)網(wǎng)絡的文本分類
3.1 問題描述
3.2 相關工作
3.3 模型框架
3.3.1 顯式成對詞挖掘
3.3.2 隱式成對詞挖掘
3.3.3 成對詞神經(jīng)網(wǎng)絡框架
3.4 實驗結果
3.4.1 實驗數(shù)據(jù)集
3.4.2 基準算法和參數(shù)設置
3.4.3 在One-hot編碼下的實驗結果
3.4.4 在Word2vec編碼下的實驗結果
3.4.5 在Glove編碼下的實驗結果
3.4.6 不同的成對詞數(shù)量對結果的影響
3.5 本章小結
第四章 基于攣生膠囊網(wǎng)絡的文本分類
4.1 問題描述
4.2 相關工作
4.3 模型框架
4.3.1 問題形式化
4.3.2 基本膠囊網(wǎng)絡
4.3.3 孿生膠囊網(wǎng)絡
4.3.4 全局記憶機制
4.4 實驗結果
4.4.1 基準算法
4.4.2 實驗設置和超參數(shù)
4.4.3 總體性能
4.4.4 模型穩(wěn)定性分析
4.4.5 比較實驗
4.5 本章小結
第五章 基于三重膠囊網(wǎng)絡的文本分類
5.1 問題描述
5.2 相關工作
5.3 模型框架
5.3.1 問題形式化
5.3.2 三重損失函數(shù)
5.3.3 局部特征提取
5.4 實驗結果
5.4.1 實驗配置
5.4.2 基準算法
5.4.3 總體實驗結果
5.4.4 訓練規(guī)模的影響
5.5 本章小結
第六章 總結與展望
6.1 論文的主要貢獻
6.2 未來的工作展望
參考文獻
致謝
攻博期間發(fā)表的科研成果目錄
發(fā)表的論文
發(fā)明專利
攻博期間參與的項目
本文編號:3785764
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3785764.html
最近更新
教材專著