基于Attention-Based LSTM模型的文本分類技術(shù)的研究

發(fā)布時間：2017-12-08 01:34

本文關(guān)鍵詞：基于Attention-Based LSTM模型的文本分類技術(shù)的研究

【摘要】：文本分類是自然語言處理領(lǐng)域的一個經(jīng)典的研究方向,傳統(tǒng)的研究涉及到文本的預(yù)處理、文本特征的提取、機器學(xué)習(xí)分類器訓(xùn)練等方面。隨著深度學(xué)習(xí)技術(shù)在圖像識別,機器翻譯等領(lǐng)域取得了很大的進(jìn)展,深度學(xué)習(xí)模型被證明在數(shù)據(jù)預(yù)處理和特征提取方面有著很大優(yōu)勢。本文在研究分析和總結(jié)文本向量表示技術(shù)和深度學(xué)習(xí)模型LSTM原理的基礎(chǔ)上,對運用深度學(xué)習(xí)模型解決文本分類問題做了深入的研究。本文的主要研究工作如下：(1)針對文本分類中數(shù)據(jù)表示的高維度難以訓(xùn)練和向量表示特征無關(guān)的問題,采用了Word Embedding機制,將文本數(shù)據(jù)映射到一個低維度的實數(shù)向量,避免了高維度的輸入導(dǎo)致LSTM模型產(chǎn)生維度災(zāi)難的問題。同時Word Embedding機制訓(xùn)練出的詞向量具有同義詞向量相似的特征,作為LSTM模型的輸入,提高了分類器的性能。(2)針對文本分類的特征選擇問題,本文設(shè)計了Attention-Based LSTM模型用于提取特征,其中LSTM模型解決了傳統(tǒng)RNN的梯度消失的問題,通過3種“門”的控制,解決了RNN模型訓(xùn)練中的長期依賴問題。同時本文通過Attention-Based的方法,得到含有輸入序列節(jié)點注意力概率分布的語義編碼,并將其作為分類器的輸入,減少了特征向量提取過程中的信息丟失和信息冗余。(3)針對LSTM模型的前向依賴問題,本文設(shè)計了組合正逆序Attention-Based LSTM模型,組合正逆序向量作為特征向量,將Bi-LSTM模型作為對比模型,探究文本上下文對文本分類的影響。
【學(xué)位授予單位】：南京大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP391.1

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前2條

1 楊健;汪海航;;基于隱馬爾可夫模型的文本分類算法[J];計算機應(yīng)用;2010年09期

2 侯漢清,黃剛;電子計算機與文獻(xiàn)分類[J];計算機與圖書館;1982年01期

中國碩士學(xué)位論文全文數(shù)據(jù)庫前1條

1 梅君;中文文本分類的研究與應(yīng)用[D];南昌大學(xué);2010年

，

本文編號：1264575

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1264575.html

上一篇：基于移動互聯(lián)的車間管理系統(tǒng)的設(shè)計與實現(xiàn)
下一篇：基于Codebook的運動補償內(nèi)插方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Attention-Based LSTM模型的文本分類技術(shù)的研究