天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

融合全局和局部特征的文本分類方法研究

發(fā)布時(shí)間:2023-04-08 01:54
  文本分類是數(shù)據(jù)挖掘和自然語(yǔ)言處理領(lǐng)域中的一個(gè)重要處理步驟,是許多應(yīng)用技術(shù)實(shí)現(xiàn)的前提,當(dāng)前已經(jīng)成為學(xué)術(shù)界和工業(yè)界最受關(guān)注的研究前沿問(wèn)題之一。大多數(shù)基于深度學(xué)習(xí)技術(shù)的文本分類方法將單詞作為文本特征,然后對(duì)這些文本特征進(jìn)行一層層的提煉得到表達(dá)能力強(qiáng)的局部特征。最后的分類結(jié)果也完全依賴于這些提取的局部特征。雖然這些局部特征可以很好的描述單詞的特性以及上下文關(guān)系,但是難以從全局的角度對(duì)各個(gè)類別的文檔語(yǔ)義信息進(jìn)行描述。因此,為了進(jìn)一步提高文本分類方法的準(zhǔn)確率和適應(yīng)性,提取能夠表示文檔全局語(yǔ)義信息的全局特征,是當(dāng)前文本分類領(lǐng)域的關(guān)鍵性和熱點(diǎn)問(wèn)題。進(jìn)一步提升文本分類方法的準(zhǔn)確率仍具有很大的挑戰(zhàn)性:(1)不同數(shù)據(jù)集的局部特征分布差異較大,輸入數(shù)據(jù)未經(jīng)提煉可能會(huì)導(dǎo)致中性詞干擾的問(wèn)題;(2)一部分?jǐn)?shù)據(jù)集的分布不均衡,同時(shí)有標(biāo)簽的數(shù)據(jù)偏少,可能會(huì)導(dǎo)致文本分類模型的泛化能力不足;(3)現(xiàn)有的深度學(xué)習(xí)方法對(duì)不同主題構(gòu)建統(tǒng)一的模型框架進(jìn)行處理,未能考慮不同主題文檔之間的差異和區(qū)別;(4)現(xiàn)有方法忽略了能表示不同類別樣本之間空間距離的全局特征,文檔類別距離信息缺失。因此,僅僅選擇將局部特征作為分類模型的輸入,會(huì)缺失不...

【文章頁(yè)數(shù)】:115 頁(yè)

【學(xué)位級(jí)別】:博士

【文章目錄】:
論文創(chuàng)新點(diǎn)
中文摘要
ABSTRACT
第一章 引言
    1.1 研究背景與意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 傳統(tǒng)的文本分類方法
        1.2.2 基于CNNs的文本分類
        1.2.3 基于RNNs的文本分類
        1.2.4 基于GANs的文本分類
        1.2.5 基于Caps Net的文本分類
        1.2.6 詞向量表示工具
    1.3 文本分類面臨的挑戰(zhàn)
    1.4 本文主要的工作內(nèi)容
    1.5 全文組織結(jié)構(gòu)
第二章 基于高效用神經(jīng)網(wǎng)絡(luò)的文本分類
    2.1 問(wèn)題描述
    2.2 相關(guān)工作
    2.3 模型框架
        2.3.1 挖掘?qū)?br>        2.3.2 特征提取層
    2.4 實(shí)驗(yàn)分析
        2.4.1 實(shí)驗(yàn)數(shù)據(jù)集
        2.4.2 基準(zhǔn)算法與實(shí)驗(yàn)設(shè)置
        2.4.3 實(shí)驗(yàn)結(jié)果與分析
        2.4.4 不同的效用閾值對(duì)結(jié)果的影響
    2.5 本章小結(jié)
第三章 基于成對(duì)詞神經(jīng)網(wǎng)絡(luò)的文本分類
    3.1 問(wèn)題描述
    3.2 相關(guān)工作
    3.3 模型框架
        3.3.1 顯式成對(duì)詞挖掘
        3.3.2 隱式成對(duì)詞挖掘
        3.3.3 成對(duì)詞神經(jīng)網(wǎng)絡(luò)框架
    3.4 實(shí)驗(yàn)結(jié)果
        3.4.1 實(shí)驗(yàn)數(shù)據(jù)集
        3.4.2 基準(zhǔn)算法和參數(shù)設(shè)置
        3.4.3 在One-hot編碼下的實(shí)驗(yàn)結(jié)果
        3.4.4 在Word2vec編碼下的實(shí)驗(yàn)結(jié)果
        3.4.5 在Glove編碼下的實(shí)驗(yàn)結(jié)果
        3.4.6 不同的成對(duì)詞數(shù)量對(duì)結(jié)果的影響
    3.5 本章小結(jié)
第四章 基于攣生膠囊網(wǎng)絡(luò)的文本分類
    4.1 問(wèn)題描述
    4.2 相關(guān)工作
    4.3 模型框架
        4.3.1 問(wèn)題形式化
        4.3.2 基本膠囊網(wǎng)絡(luò)
        4.3.3 孿生膠囊網(wǎng)絡(luò)
        4.3.4 全局記憶機(jī)制
    4.4 實(shí)驗(yàn)結(jié)果
        4.4.1 基準(zhǔn)算法
        4.4.2 實(shí)驗(yàn)設(shè)置和超參數(shù)
        4.4.3 總體性能
        4.4.4 模型穩(wěn)定性分析
        4.4.5 比較實(shí)驗(yàn)
    4.5 本章小結(jié)
第五章 基于三重膠囊網(wǎng)絡(luò)的文本分類
    5.1 問(wèn)題描述
    5.2 相關(guān)工作
    5.3 模型框架
        5.3.1 問(wèn)題形式化
        5.3.2 三重?fù)p失函數(shù)
        5.3.3 局部特征提取
    5.4 實(shí)驗(yàn)結(jié)果
        5.4.1 實(shí)驗(yàn)配置
        5.4.2 基準(zhǔn)算法
        5.4.3 總體實(shí)驗(yàn)結(jié)果
        5.4.4 訓(xùn)練規(guī)模的影響
    5.5 本章小結(jié)
第六章 總結(jié)與展望
    6.1 論文的主要貢獻(xiàn)
    6.2 未來(lái)的工作展望
參考文獻(xiàn)
致謝
攻博期間發(fā)表的科研成果目錄
    發(fā)表的論文
    發(fā)明專利
    攻博期間參與的項(xiàng)目



本文編號(hào):3785764

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3785764.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3ba83***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com