天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多因素特征的文本分類的研究

發(fā)布時(shí)間:2024-02-22 09:43
  傳統(tǒng)對(duì)電商評(píng)論做分類的方法使用詞袋模型或者簡(jiǎn)單的提取文本TF-IDF特征方法使用SVM或者傳統(tǒng)機(jī)器學(xué)習(xí)模型對(duì)評(píng)論文本進(jìn)行分類,近些年嘗試單一使用Word2Vec詞嵌入等靜態(tài)詞向量作為表示使用LSTM等神經(jīng)網(wǎng)絡(luò)模型對(duì)文本進(jìn)行分類,雖然都有一定的效果,但還是無(wú)法滿足用戶與商家對(duì)準(zhǔn)確率的要求。本文對(duì)詞向量表示和分類模型方面做了很多嘗試,本文主要工作內(nèi)容如下:(1)文本同時(shí)使用商品品論文本和非文本特征,文本同時(shí)使用商品評(píng)論文本和評(píng)論的點(diǎn)贊數(shù)、追加評(píng)論數(shù)等非文本信息,并在非文本特征基礎(chǔ)上添加從文本信息中提取的TF-IDF特征與這些非文本特征信息結(jié)合作為非文信息附加的額外特征,并使用Lightgbm模型對(duì)這部分特征進(jìn)行分類,并作為基于多維特征因素模型的重要一部分。(2)文本使用多種詞向量作為文本表示。相較與以往單一使用一種詞向量作為詞語(yǔ)的表示,文本同時(shí)使用Word2Vec和GloVe兩種詞向量作為文本的表示,并使用在同一中分類模型下實(shí)驗(yàn)驗(yàn)證使用混合詞向量模型相較于使用單一詞向量F1值和ROC值提升1.7%左右。(3)文本使用了動(dòng)態(tài)詞向量。使用靜態(tài)詞向量一個(gè)詞對(duì)應(yīng)一個(gè)固定的詞向量,會(huì)造成歧義的問(wèn)題,...

【文章頁(yè)數(shù)】:77 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究工作的背景與意義
    1.2 研究現(xiàn)狀
        1.2.1 文本表示的研究現(xiàn)狀
        1.2.2 文本分類的研究現(xiàn)狀
    1.3 本文的主要工作內(nèi)容
    1.4 本論文的結(jié)構(gòu)安排
第二章 文本分類相關(guān)方法概述
    2.1 文本分類主要步驟
    2.2 中文文本預(yù)處理方法
        2.2.1 數(shù)據(jù)增強(qiáng)
        2.2.2 去停用詞
        2.2.3 文本分詞
    2.3 文本表示方法
        2.3.1 向量空間模型(VSM)
        2.3.2 LDA主題模型
        2.3.3 Word Embedding表示
    2.4 文本分類算法
        2.4.1 邏輯回歸模型
        2.4.2 支持向量機(jī)模型(SVM)
        2.4.3 GBDT模型
        2.4.4 神經(jīng)網(wǎng)絡(luò)分類模型
    2.5 本章小結(jié)
第三章 數(shù)據(jù)預(yù)處理以及數(shù)據(jù)表示方法
    3.1 商品評(píng)論數(shù)據(jù)和外部特征的獲取
    3.2 數(shù)據(jù)預(yù)處理
        3.2.1 文本數(shù)據(jù)清洗
        3.2.2 文本分詞及去停用詞
    3.3 數(shù)據(jù)分析
    3.4 文本數(shù)據(jù)特征表示方法
        3.4.1 詞向量表示
        3.4.2 基于Elmo的表示方法
    3.5 本章小結(jié)
第四章 基于多因素特征的分類模型
    4.1 TRANSFORMER模型
        4.1.1 Scaled Attention
        4.1.2 Multi-head Attention
        4.1.3 引入位置信息 Position Encoding
    4.2 LIGHTGBM模型
    4.3 基于多因素特征的分類模型構(gòu)造
    4.4 本章小結(jié)
第五章 實(shí)驗(yàn)與結(jié)果分析
    5.1 實(shí)驗(yàn)設(shè)計(jì)
        5.1.1 實(shí)驗(yàn)環(huán)境
        5.1.2 評(píng)價(jià)指標(biāo)
        5.1.3 實(shí)驗(yàn)方案以及具體設(shè)計(jì)
    5.2 實(shí)驗(yàn)結(jié)果分析
        5.2.1 實(shí)驗(yàn)一和實(shí)驗(yàn)二對(duì)比分析
        5.2.2 實(shí)驗(yàn)三、實(shí)驗(yàn)四和實(shí)驗(yàn)五對(duì)比分析
        5.2.3 實(shí)驗(yàn)六結(jié)果分析
        5.2.4 實(shí)驗(yàn)七結(jié)果分析
    5.3 本章小結(jié)
第六章 總結(jié)與展望
    6.1 全文總結(jié)
    6.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果



本文編號(hào):3906609

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3906609.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d29d0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com