融合全局和局部特征的文本分類方法研究

發(fā)布時間：2023-04-08 01:54

　　文本分類是數(shù)據(jù)挖掘和自然語言處理領域中的一個重要處理步驟,是許多應用技術實現(xiàn)的前提,當前已經(jīng)成為學術界和工業(yè)界最受關注的研究前沿問題之一。大多數(shù)基于深度學習技術的文本分類方法將單詞作為文本特征,然后對這些文本特征進行一層層的提煉得到表達能力強的局部特征。最后的分類結果也完全依賴于這些提取的局部特征。雖然這些局部特征可以很好的描述單詞的特性以及上下文關系,但是難以從全局的角度對各個類別的文檔語義信息進行描述。因此,為了進一步提高文本分類方法的準確率和適應性,提取能夠表示文檔全局語義信息的全局特征,是當前文本分類領域的關鍵性和熱點問題。進一步提升文本分類方法的準確率仍具有很大的挑戰(zhàn)性:(1)不同數(shù)據(jù)集的局部特征分布差異較大,輸入數(shù)據(jù)未經(jīng)提煉可能會導致中性詞干擾的問題;(2)一部分數(shù)據(jù)集的分布不均衡,同時有標簽的數(shù)據(jù)偏少,可能會導致文本分類模型的泛化能力不足;(3)現(xiàn)有的深度學習方法對不同主題構建統(tǒng)一的模型框架進行處理,未能考慮不同主題文檔之間的差異和區(qū)別;(4)現(xiàn)有方法忽略了能表示不同類別樣本之間空間距離的全局特征,文檔類別距離信息缺失。因此,僅僅選擇將局部特征作為分類模型的輸入,會缺失不...

【文章頁數(shù)】：115 頁

【學位級別】：博士

【文章目錄】：
論文創(chuàng)新點
中文摘要
ABSTRACT
第一章引言
    1.1 研究背景與意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 傳統(tǒng)的文本分類方法
        1.2.2 基于CNNs的文本分類
        1.2.3 基于RNNs的文本分類
        1.2.4 基于GANs的文本分類
        1.2.5 基于Caps Net的文本分類
        1.2.6 詞向量表示工具
    1.3 文本分類面臨的挑戰(zhàn)
    1.4 本文主要的工作內(nèi)容
    1.5 全文組織結構
第二章基于高效用神經(jīng)網(wǎng)絡的文本分類
    2.1 問題描述
    2.2 相關工作
    2.3 模型框架
        2.3.1 挖掘層
        2.3.2 特征提取層
    2.4 實驗分析
        2.4.1 實驗數(shù)據(jù)集
        2.4.2 基準算法與實驗設置
        2.4.3 實驗結果與分析
        2.4.4 不同的效用閾值對結果的影響
    2.5 本章小結
第三章基于成對詞神經(jīng)網(wǎng)絡的文本分類
    3.1 問題描述
    3.2 相關工作
    3.3 模型框架
        3.3.1 顯式成對詞挖掘
        3.3.2 隱式成對詞挖掘
        3.3.3 成對詞神經(jīng)網(wǎng)絡框架
    3.4 實驗結果
        3.4.1 實驗數(shù)據(jù)集
        3.4.2 基準算法和參數(shù)設置
        3.4.3 在One-hot編碼下的實驗結果
        3.4.4 在Word2vec編碼下的實驗結果
        3.4.5 在Glove編碼下的實驗結果
        3.4.6 不同的成對詞數(shù)量對結果的影響
    3.5 本章小結
第四章基于攣生膠囊網(wǎng)絡的文本分類
    4.1 問題描述
    4.2 相關工作
    4.3 模型框架
        4.3.1 問題形式化
        4.3.2 基本膠囊網(wǎng)絡
        4.3.3 孿生膠囊網(wǎng)絡
        4.3.4 全局記憶機制
    4.4 實驗結果
        4.4.1 基準算法
        4.4.2 實驗設置和超參數(shù)
        4.4.3 總體性能
        4.4.4 模型穩(wěn)定性分析
        4.4.5 比較實驗
    4.5 本章小結
第五章基于三重膠囊網(wǎng)絡的文本分類
    5.1 問題描述
    5.2 相關工作
    5.3 模型框架
        5.3.1 問題形式化
        5.3.2 三重損失函數(shù)
        5.3.3 局部特征提取
    5.4 實驗結果
        5.4.1 實驗配置
        5.4.2 基準算法
        5.4.3 總體實驗結果
        5.4.4 訓練規(guī)模的影響
    5.5 本章小結
第六章總結與展望
    6.1 論文的主要貢獻
    6.2 未來的工作展望
參考文獻
致謝
攻博期間發(fā)表的科研成果目錄
    發(fā)表的論文
    發(fā)明專利
    攻博期間參與的項目

本文編號：3785764

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/shoufeilunwen/xxkjbs/3785764.html

上一篇：極化編碼調(diào)制關鍵技術研究
下一篇：多自主體系統(tǒng)分布式一致性跟蹤控制研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

融合全局和局部特征的文本分類方法研究