基于主題模型和注意力機(jī)制的短文本方面提取研究

發(fā)布時(shí)間：2024-01-29 13:37

　　情感分析一直是文本分析領(lǐng)域的研究熱點(diǎn)與難點(diǎn)之一,被廣泛應(yīng)用于個(gè)性化推薦、輿情監(jiān)督等領(lǐng)域,而方面提取又是情感分析中的關(guān)鍵子任務(wù),因此如何準(zhǔn)確抽取出實(shí)體的方面信息對(duì)最終情感分析性能有著至關(guān)重要的影響。傳統(tǒng)的方面提取主要針對(duì)報(bào)刊、雜志、論文等長(zhǎng)文本數(shù)據(jù),而隨著微信、Twitter、淘寶等應(yīng)用的流行,短文本數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)。由于短文本數(shù)據(jù)存在稀疏性大、不平衡等特點(diǎn),傳統(tǒng)方面提取模型不再適用。因此,針對(duì)短文本數(shù)據(jù)的方面提取模型研究迫在眉睫。本文主要針對(duì)短文本數(shù)據(jù)進(jìn)行基于無(wú)監(jiān)督學(xué)習(xí)的方面提取算法研究。本文主要工作內(nèi)容如下:1)針對(duì)傳統(tǒng)的方面提取算法處理短文本數(shù)據(jù)時(shí)的局限性,本文提出了一種基于BTM改進(jìn)的方面提取算法BiDTM-AE。傳統(tǒng)的BTM方面提取算法在生成詞對(duì)時(shí),將所有詞匯同等看待,沒有考慮低頻詞和方面無(wú)關(guān)詞的影響,忽視了詞對(duì)間的相關(guān)性信息,本文對(duì)此提出兩點(diǎn)改進(jìn):一是引入詞對(duì)判別模型削弱低頻詞和方面無(wú)關(guān)詞對(duì)模型的影響;二是引入雙向循環(huán)神經(jīng)網(wǎng)絡(luò)提前訓(xùn)練出詞對(duì)的相互關(guān)系并將其作為先驗(yàn)知識(shí)進(jìn)行建模。本文在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上驗(yàn)證了詞對(duì)判別模型和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的引入對(duì)模型性能的提升有著顯著促進(jìn)作用;...

【文章頁(yè)數(shù)】：81 頁(yè)

【學(xué)位級(jí)別】：碩士

圖3一3:微博新聞

圖3一4:B卜RNN模型圖

圖3‘樂數(shù)據(jù)集班主題聚合度

圖3一6:數(shù)據(jù)集刀2主題聚合度

本文編號(hào)：3888288

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3888288.html

上一篇：認(rèn)知診斷支持下的補(bǔ)救教學(xué)優(yōu)化方法及應(yīng)用研究
下一篇：基于深度學(xué)習(xí)的對(duì)話領(lǐng)域意圖分類方法研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題模型和注意力機(jī)制的短文本方面提取研究