天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LSTM的文本上下文依賴特征的表示方法研究

發(fā)布時間:2021-08-27 21:46
  為了能夠有效地從非結(jié)構(gòu)性的文本數(shù)據(jù)中挖掘知識,研究將自然語言形式化為計算機輸入信號的表示方法是文本意見挖掘任務(wù)的重點;谏疃葘W習的表示方法具有很強的特征學習能力,由該方法生成的文本表示具有連續(xù)、稠密和低維度的特征。在深度學習中,LSTM(Long Short-Term Memory)是長短期記憶網(wǎng)絡(luò),是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Recurrent neural network,RNN)模型。它不僅能夠?qū)哂袝r序特征的輸入信號進行建模,還能夠避免RNN在文本建模過程中發(fā)生梯度消散(或梯度爆炸)的問題;跇藴蔐STM的表示方法對所有的輸入特征一視同仁,并不能明顯地表現(xiàn)出不同特征對特定研究任務(wù)的貢獻程度,更為重要的是,該方法更側(cè)重于學習文本上下文語義信息,而對上下文結(jié)構(gòu)信息并沒有很好的進行學習。本文所做的工作如下:1)在對詞語間上下文依賴特征信息進行建模的過程中,由于基于標準LSTM的文本表示方法未利用向量化的詞性信息去強化文本上下文依賴信息,所以本文提出了一個基于注意力機制的雙向LSTM的文本表示方法。本課題在自采集數(shù)據(jù)集和來自NLPCC&2014的開源數(shù)據(jù)集上進行實驗,用以... 

【文章來源】:河北科技大學河北省

【文章頁數(shù)】:59 頁

【學位級別】:碩士

【部分圖文】:

基于LSTM的文本上下文依賴特征的表示方法研究


圖3-1對稱式基于注意力機制的雙向LSTM模型結(jié)構(gòu)??往更具有重要的價值

長度分布,長度分布,數(shù)據(jù)集,測試集


所以把數(shù)據(jù)集1按篇幅長度大小細分為句子層面和博文層面的數(shù)據(jù)集。評測數(shù)據(jù)分??布如表3-2所示。另外,互聯(lián)網(wǎng)用戶習慣于發(fā)短文來表達自己對產(chǎn)品,事件等的情感。??圖3-3是對評測數(shù)據(jù)的文本長度的統(tǒng)計圖,圖中的橫軸表示文本的長度,縱坐標表示??樣本頻數(shù)。這些數(shù)據(jù)集的長度主要分布在一個明顯的范圍內(nèi),例如句子層面的數(shù)據(jù)長??度范圍主要在100以下,而博文層面的數(shù)據(jù)長度范圍集中在120以下,其中例外情??況非常少。雖然本模型的內(nèi)部處理長度變量輸入,但會選擇文本的最大長度來限制模??型的大小。??表3-2評測數(shù)據(jù)分布圖??句子層面的數(shù)據(jù)集1?博文層面的數(shù)據(jù)集1?數(shù)據(jù)集2??數(shù)據(jù)集???訓練集?測試集?訓練集?測試集?訓練集?測試集??高興(happiness)?2805?641?1460?441?3301?1415??厭惡(disgust)?3130?679?1392?389?825?354??憤怒(anger)?1899?244?669?128?832?357??悲傷(sadness)?2478?302?1174?189?1333?572??恐懼(fear)?299?67?148?46?438?188??喜歡(like)?4259?1630?2204?1024?—?—??驚訝(surprise)?820?259?362?162?—?——??3.3.2評價指標??對于分類任務(wù)而言,本文使用準確率(Accuracy)來評估這些分類方法的整體分??類性能。準確度越高

基于LSTM的文本上下文依賴特征的表示方法研究


F1值對比在句子層面數(shù)據(jù)集1

【參考文獻】:
期刊論文
[1]網(wǎng)絡(luò)意見挖掘、摘要與檢索研究綜述[J]. 侯鋒,王傳廷,李國輝.  計算機科學. 2009(07)



本文編號:3367149

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3367149.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3ac6c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com