基于多粒度序列注意力機制的短文本分析
發(fā)布時間:2021-07-12 12:33
隨著互聯(lián)網(wǎng)的飛速發(fā)展,海量數(shù)據(jù)不斷更新,數(shù)據(jù)的類型多種多樣,其中文本是最直接和最常見的組織形式之一。挖掘文本的有效信息可更快速、準確地了解人們的觀點和情感傾向等內(nèi)容,有利于人們掌握市場動態(tài)、社會輿情、網(wǎng)絡(luò)安全態(tài)勢等。技術(shù)日趨成熟,人們期望能夠讓機器像人類一樣思考,讓它可以在諸多文本中過濾掉冗余信息,將核心內(nèi)容合理地組織、呈現(xiàn)出來。隨著生活節(jié)奏的逐步加快,越來越多像簡訊、評論等字符數(shù)量較少的“快餐式”信息涌入生活中,如何快速準確地從大量短文本信息中獲取有價值的信息是值得人們深思。因此,本文嘗試模擬人類的認知過程并結(jié)合多粒度的思想,提出了一種基于多粒度序列注意力機制的短文本分析方法,主要研究如下:1.提出一種基于序列注意力機制的卷積神經(jīng)網(wǎng)絡(luò)對URL進行異常檢測。該模型用于檢測網(wǎng)絡(luò)中的異常流量。URL全稱統(tǒng)一資源定位符,是由一些列字符組成的用于向服務(wù)器請求資源的標識符,其具有一定的語義信息并且組成它的字符數(shù)量相對較少,它是屬于短文本的一種。針對該問題提出了由五層網(wǎng)絡(luò)組成的檢測模型,首先,使用word2vec對URL進行編碼,然后使用卷積進行特征自學(xué)習(xí),與此同時添加了一個外部語言模型來幫助模型...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類的框架
圖 2.1 基于注意力機制的機器翻譯詞匯對照結(jié)果給定的目標語句為 X ,期望通過Encoder-Decoder框架得到的輸中句子 X 和Y 的語種并無限制,可以是同語種或跨語言的,輸示為 ( ,)mX =x x x1 2;輸出的句子為 ( ,)nY =y y y1 2。傳統(tǒng)的編圖 2.2 所示,Encoder過程是對輸入語句進行編碼,得到中間過( , ) ( ,)m n= F x x x =c c c1 2 1 2;而 Decoder 則根據(jù)語義結(jié)果轉(zhuǎn)化得到就是要輸出的句子 ( ,)nY =y y y1 2。
圖 2.3 引入Attention 模型的Encoder-Decoder 框架制在很多的具體模型中均有應(yīng)用,如下圖 2.4 所示ent Neural Network RNN)結(jié)合 機制使用Enseq2seq 基本模型,在編碼和解碼的兩部分分別采用了圖 2.4 RNN的seq2seq基本模型框架不同應(yīng)用中設(shè)計是不同的,學(xué)者根據(jù)研究目標利用新分配。嘗試將 抽象為一個易于理解的大
【參考文獻】:
期刊論文
[1]粒計算研究綜述[J]. 王國胤,張清華,胡軍. 智能系統(tǒng)學(xué)報. 2007(06)
[2]使用最大熵模型進行中文文本分類[J]. 李榮陸,王建會,陳曉云,陶曉鵬,胡運發(fā). 計算機研究與發(fā)展. 2005(01)
本文編號:3279922
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類的框架
圖 2.1 基于注意力機制的機器翻譯詞匯對照結(jié)果給定的目標語句為 X ,期望通過Encoder-Decoder框架得到的輸中句子 X 和Y 的語種并無限制,可以是同語種或跨語言的,輸示為 ( ,)mX =x x x1 2;輸出的句子為 ( ,)nY =y y y1 2。傳統(tǒng)的編圖 2.2 所示,Encoder過程是對輸入語句進行編碼,得到中間過( , ) ( ,)m n= F x x x =c c c1 2 1 2;而 Decoder 則根據(jù)語義結(jié)果轉(zhuǎn)化得到就是要輸出的句子 ( ,)nY =y y y1 2。
圖 2.3 引入Attention 模型的Encoder-Decoder 框架制在很多的具體模型中均有應(yīng)用,如下圖 2.4 所示ent Neural Network RNN)結(jié)合 機制使用Enseq2seq 基本模型,在編碼和解碼的兩部分分別采用了圖 2.4 RNN的seq2seq基本模型框架不同應(yīng)用中設(shè)計是不同的,學(xué)者根據(jù)研究目標利用新分配。嘗試將 抽象為一個易于理解的大
【參考文獻】:
期刊論文
[1]粒計算研究綜述[J]. 王國胤,張清華,胡軍. 智能系統(tǒng)學(xué)報. 2007(06)
[2]使用最大熵模型進行中文文本分類[J]. 李榮陸,王建會,陳曉云,陶曉鵬,胡運發(fā). 計算機研究與發(fā)展. 2005(01)
本文編號:3279922
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3279922.html
最近更新
教材專著