基于結(jié)構(gòu)優(yōu)化循環(huán)神經(jīng)網(wǎng)絡(luò)的文本分類研究
發(fā)布時間:2024-12-10 22:58
信息資源的充分開發(fā)和總量擴(kuò)張,創(chuàng)造了一個“信息過載”的時代。信息過載產(chǎn)生大量的冗余數(shù)據(jù)信息,嚴(yán)重影響了受眾對信息的有效利用。人們面臨的問題不再是如何獲取信息,而是如何在面對大量信息時有效地選擇、集成、利用和決策。其中,大量的信息主要由文本構(gòu)成。對文本內(nèi)容和產(chǎn)品進(jìn)行分類,對于解決信息混亂的問題具有重要的現(xiàn)實(shí)意義。本文系統(tǒng)地分析文本分類的應(yīng)用場景,文本分類技術(shù)與自然語言處理在發(fā)展過程中所經(jīng)歷的三次浪潮,以及當(dāng)前循環(huán)神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法在文本分類中的研究現(xiàn)狀。重點(diǎn)介紹了文本的特征表示方法和一些常用的文本分類方法。在深入總結(jié)和借鑒目前的相關(guān)成果及方法的基礎(chǔ)上,針對短文本特征提取和循環(huán)神經(jīng)網(wǎng)絡(luò)在全局表示上存在的缺陷,提出了相關(guān)的一些改進(jìn)方法,并取得了有效的成果。主要的研究內(nèi)容如下:針對短文本數(shù)據(jù)特征少、提供信息有限,池化操作破壞局部空間時序的特點(diǎn),該模型在卷積層中去除池化操作,采用串并行卷積結(jié)構(gòu)以提取詞語的多尺度的特征組合,獲取局部上下文信息作為RNN的輸入。選擇GRU作為RNN的組成結(jié)構(gòu),利用文本的時序信息生成句子的向量表示。同時在Softmax分類器中引入附加邊緣距離,引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)出具有區(qū)分...
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文編號:4015791
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1CBOW和Skip-gram模型
驗(yàn)分布均滿足Dirichlet分布。文檔生成的過程,是以Dirichlet分布的概個主題,然后再在這個主題下以Dirichlet分布的概率選出某一個詞。不個選擇主題,再根據(jù)主題選擇詞的過程,就生成了整篇文章。LDA的參程就是求解這兩個Dirichlet分布的過程....
圖2.3二維空間樣本分布
碩士學(xué)位論文第2章文本的特征表示題討論的是基于特征空間是線性可分的假設(shè)基礎(chǔ)上的。當(dāng)空間內(nèi)線性不可分的情況時,可將原始特征空間的樣本映中。因?yàn)榈途S空間上線性不可分的樣本,在高維空間中是可.3和圖2.4所示,在圖2.3的二維空間內(nèi)難以找到一條直線,但將它們映射到圖....
圖2.4三維空間樣本分布
但將它們映射到圖2.4的三維空間時,即可輕松的找到一個圖2.3二維空間樣本分布
圖3.2RNN展開圖
圖3.2RNN展開依靠誤差和梯度下降的反向傳播來需要沿著時間展開求導(dǎo),計(jì)算誤差BPTT(Backpropagationthroughtim易產(chǎn)生梯度消失和梯度爆炸的訓(xùn)練過小時,經(jīng)由BPTT鏈?zhǔn)嚼鄢颂荻榷认。在?dāng)從輸出層回傳而來的使得回傳的梯度指數(shù)級增大,而出際應(yīng)用中....
本文編號:4015791
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/4015791.html
上一篇:面向再制造拆卸產(chǎn)品的工業(yè)機(jī)器人視覺識別與定位研究
下一篇:沒有了
下一篇:沒有了
最近更新
教材專著