天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機應(yīng)用論文 >

基于文檔表示的文本分類算法研究

發(fā)布時間:2022-02-22 21:07
  隨著深度學(xué)習(xí)的興起,大量數(shù)據(jù)的產(chǎn)生,包括文本、語音、圖片等等,如何從大量數(shù)據(jù)中學(xué)習(xí)到有用的特征是當(dāng)前最重要的組成部分。在自然語言處理領(lǐng)域,學(xué)習(xí)文檔表示對精確理解自然語言至關(guān)重要,同時可以把其運用到各種自然語言處理的任務(wù)中去,包括文本分類,文本相似度匹配,命名體識別等等。本文圍繞循環(huán)神經(jīng)網(wǎng)絡(luò)與BERT模型開展研究,對這兩個網(wǎng)絡(luò)架構(gòu)的輸入或者輸出進(jìn)行優(yōu)化,提高模型的泛化性能,并在文本分類任務(wù)上進(jìn)行研究,驗證分類算法的擴展性。本文的成果與主要工作如下:1.針對長短期記憶網(wǎng)絡(luò)訓(xùn)練文本分類任務(wù)效果不佳,為更好地學(xué)習(xí)文檔表示訓(xùn)練文本分類設(shè)計了帶池化與dropout的長短期記憶網(wǎng)絡(luò)來進(jìn)行文檔的表示,其中池化操作可以保留主要的特征同時減少參數(shù)和計算量,同時獲得定長輸出;dropout也對有監(jiān)督的學(xué)習(xí)文檔表示起到防止過擬合,提高泛化性能的表現(xiàn)。對比詞袋模型、卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)等模型,在四個數(shù)據(jù)集上優(yōu)化后的長短期記憶網(wǎng)絡(luò)比直接利用長短期記憶網(wǎng)絡(luò)在準(zhǔn)確率上至少提升0.2%。2.針對目前在自然語言處理領(lǐng)域表現(xiàn)較好的BERT模型存在輸出層softmax產(chǎn)生類別的概率分布過于單一;同時受mixture ... 

【文章來源】:合肥工業(yè)大學(xué)安徽省211工程院校教育部直屬院校

【文章頁數(shù)】:61 頁

【學(xué)位級別】:碩士

【文章目錄】:
致謝
摘要
abstract
第一章 緒論
    1.1 課題研究背景與意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文研究內(nèi)容與難點
    1.4 本文的組織結(jié)構(gòu)
第二章 文檔表示的相關(guān)算法介紹
    2.1 語言模型
    2.2 文本數(shù)據(jù)的特征提取器
        2.2.1 卷積神經(jīng)網(wǎng)絡(luò)
        2.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
        2.2.3 Transformer模型
        2.2.4 分析三個模型的優(yōu)缺點
    2.3 本章小結(jié)
第三章 基于帶dropout與池化的LSTM文本表示
    3.1 模型的構(gòu)建原理闡述
        3.1.1 詞向量層
        3.1.2 dropout
        3.1.3 雙向長短期記憶網(wǎng)絡(luò)
        3.1.4 池化
        3.1.5 模型的主要架構(gòu)
    3.2 實驗數(shù)據(jù)準(zhǔn)備與模型介紹
        3.2.1 實驗數(shù)據(jù)
        3.2.2 文本數(shù)據(jù)的預(yù)處理
        3.2.3 實驗?zāi)P图皡?shù)設(shè)置
    3.3 實驗結(jié)果分析
        3.3.1 模型之間的比較結(jié)果分析
        3.3.2 dropout對模型的影響
        3.3.3 池化操作對模型的影響
    3.4 本章小結(jié)
第四章 基于混合softmax的 BERT模型
    4.1 混合softmax的 BERT模型原理的闡述
        4.1.1 BERT模型的介紹
        4.1.2 混合softmax
        4.1.3 優(yōu)化函數(shù)
        4.1.4 模型架構(gòu)說明
    4.2 實驗數(shù)據(jù)
        4.2.1 實驗數(shù)據(jù)說明
        4.2.2 文本預(yù)處理過程
    4.3 實驗結(jié)果分析
        4.3.1 預(yù)訓(xùn)練模型與直接訓(xùn)練模型的對比
        4.3.2 混合softmax的實驗分析
        4.3.3 隨機種子對模型的影響
    4.4 本章小結(jié)
第五章 總結(jié)與展望
    5.1 工作總結(jié)
    5.2 工作展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間的學(xué)術(shù)活動及成果情況



本文編號:3640205

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3640205.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e3727***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com