基于主題模型和注意力機(jī)制的短文本方面提取研究
發(fā)布時(shí)間:2024-01-29 13:37
情感分析一直是文本分析領(lǐng)域的研究熱點(diǎn)與難點(diǎn)之一,被廣泛應(yīng)用于個(gè)性化推薦、輿情監(jiān)督等領(lǐng)域,而方面提取又是情感分析中的關(guān)鍵子任務(wù),因此如何準(zhǔn)確抽取出實(shí)體的方面信息對(duì)最終情感分析性能有著至關(guān)重要的影響。傳統(tǒng)的方面提取主要針對(duì)報(bào)刊、雜志、論文等長(zhǎng)文本數(shù)據(jù),而隨著微信、Twitter、淘寶等應(yīng)用的流行,短文本數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)。由于短文本數(shù)據(jù)存在稀疏性大、不平衡等特點(diǎn),傳統(tǒng)方面提取模型不再適用。因此,針對(duì)短文本數(shù)據(jù)的方面提取模型研究迫在眉睫。本文主要針對(duì)短文本數(shù)據(jù)進(jìn)行基于無(wú)監(jiān)督學(xué)習(xí)的方面提取算法研究。本文主要工作內(nèi)容如下:1)針對(duì)傳統(tǒng)的方面提取算法處理短文本數(shù)據(jù)時(shí)的局限性,本文提出了一種基于BTM改進(jìn)的方面提取算法BiDTM-AE。傳統(tǒng)的BTM方面提取算法在生成詞對(duì)時(shí),將所有詞匯同等看待,沒有考慮低頻詞和方面無(wú)關(guān)詞的影響,忽視了詞對(duì)間的相關(guān)性信息,本文對(duì)此提出兩點(diǎn)改進(jìn):一是引入詞對(duì)判別模型削弱低頻詞和方面無(wú)關(guān)詞對(duì)模型的影響;二是引入雙向循環(huán)神經(jīng)網(wǎng)絡(luò)提前訓(xùn)練出詞對(duì)的相互關(guān)系并將其作為先驗(yàn)知識(shí)進(jìn)行建模。本文在兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上驗(yàn)證了詞對(duì)判別模型和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的引入對(duì)模型性能的提升有著顯著促進(jìn)作用;...
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
本文編號(hào):3888288
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
圖3一3:微博新聞
圖3一4:B卜RNN模型圖
圖3‘樂數(shù)據(jù)集班主題聚合度
圖3一6:數(shù)據(jù)集刀2主題聚合度
本文編號(hào):3888288
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3888288.html
最近更新
教材專著