當(dāng)前位置：主頁 > 科技論文 > 計(jì)算機(jī)應(yīng)用論文 >

基于深度學(xué)習(xí)的短文本分類算法研究及應(yīng)用

發(fā)布時(shí)間：2021-07-15 10:42

　　隨著移動(dòng)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,短文本信息呈現(xiàn)出爆發(fā)式增長(zhǎng)趨勢(shì),對(duì)短文本分類的研究也越發(fā)的深入。同時(shí),短文本信息的增長(zhǎng)導(dǎo)致不斷出現(xiàn)新領(lǐng)域數(shù)據(jù),存在傳統(tǒng)機(jī)器學(xué)習(xí)算法無法及時(shí)對(duì)新領(lǐng)域數(shù)據(jù)建模分類的問題;短文本信息多樣化的發(fā)展導(dǎo)致傳統(tǒng)的單標(biāo)簽分類已經(jīng)不能滿足現(xiàn)有的多標(biāo)簽數(shù)據(jù),存在傳統(tǒng)機(jī)器學(xué)習(xí)算法無法學(xué)習(xí)到多標(biāo)簽之間的依存關(guān)系的問題。隨著深度學(xué)習(xí)技術(shù)在圖像處理、語音識(shí)別、對(duì)話生成等領(lǐng)域取得了優(yōu)異的成果,深度學(xué)習(xí)模型展現(xiàn)出其層次化特征提取方面的優(yōu)勢(shì)。本文對(duì)短文本數(shù)據(jù)進(jìn)行挖掘與分析,在研究深度學(xué)習(xí)模型卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)原理的基礎(chǔ)上,利用深度學(xué)習(xí)技術(shù)對(duì)目前短文本分類存在的問題進(jìn)行研究并應(yīng)用。本文的主要研究?jī)?nèi)容如下:（1）針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法無法及時(shí)對(duì)新領(lǐng)域數(shù)據(jù)建模分類的問題,本文提出基于深度遷移學(xué)習(xí)的短文本單標(biāo)簽分類方法。利用深層卷積神經(jīng)網(wǎng)絡(luò)與實(shí)驗(yàn)提取相似領(lǐng)域與目標(biāo)領(lǐng)域的通用特征,并遷移到目標(biāo)領(lǐng)域中訓(xùn)練分類器,解決新領(lǐng)域數(shù)據(jù)標(biāo)注不足而無法訓(xùn)練分類器的問題,同時(shí)提高模型的泛化能力。（2）針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)算法無法學(xué)習(xí)到多標(biāo)簽之間依存關(guān)系的問題,本文提出基于序列生成模型的短文本多標(biāo)簽分類方法。所提...

【文章來源】：浙江工業(yè)大學(xué)浙江省

【文章頁數(shù)】：66 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

SVM算法示意圖

結(jié)構(gòu)圖,卷積,神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)圖

基于深度學(xué)習(xí)的短文本分類算法研究及應(yīng)用需對(duì)局部數(shù)據(jù)具有的各種特征給予充分關(guān)注即可，而后匯總所有局部信息。所以每個(gè)隱藏層單元只需要和輸入數(shù)據(jù)的某個(gè)部分相連即可，模型訓(xùn)練速度得到了非常大的提升。權(quán)值共享這種聯(lián)系方式的提出是為了讓卷積神經(jīng)網(wǎng)絡(luò)存在的參數(shù)太多的問題得到解決，發(fā)生在若干卷積核之間。卷積核被看作是獨(dú)立的抽象化特征提取方式，且還有與數(shù)據(jù)位置無關(guān)的特征，在應(yīng)用權(quán)值共享策略的時(shí)候，在網(wǎng)絡(luò)聯(lián)系聯(lián)系神經(jīng)元的過程中使用的權(quán)值參數(shù)矩陣都是相同的，在進(jìn)行模型訓(xùn)練的時(shí)候，計(jì)算量可以得到極大程度的縮減。

網(wǎng)絡(luò)結(jié)構(gòu)圖,神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)圖,注意力

浙江工業(yè)大學(xué)碩士學(xué)位論文18短期記憶網(wǎng)絡(luò)（LSTM）是由Hochreiter&Schmidhuber（1997）引入的，是對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的一種改進(jìn)，通過三個(gè)門控制巧妙的選擇忘記或者更新存儲(chǔ)信息，將有用的信息保存，無用的信息遺忘，實(shí)現(xiàn)短期記憶與長(zhǎng)期記憶的結(jié)合，解決了循環(huán)神經(jīng)網(wǎng)絡(luò)梯度消失的問題。長(zhǎng)短期記憶網(wǎng)絡(luò)在隨后的工作中被許多人提煉和推廣，它們?cè)谔幚砀鞣N各樣的問題上表現(xiàn)出色，現(xiàn)已廣泛使用。圖2-7分別展示了循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)的結(jié)構(gòu)圖。圖2-7循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖與長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu)圖Figure2-7.Recurrentneuralnetworkstructureandlongshort-termmemorystructure2.2.4注意力機(jī)制谷歌機(jī)器翻譯團(tuán)隊(duì)[16]在2017年提出在文本表示的學(xué)習(xí)中可以使用自注意力機(jī)制。因此，近期人們的研究焦點(diǎn)之一就是自注意力機(jī)制，在各種自然語言處理任務(wù)中都有對(duì)自注意力機(jī)制的分析與研究。注意力機(jī)制最早是應(yīng)用于視覺圖像領(lǐng)域，2014年谷歌mind團(tuán)隊(duì)提出了[17]一種基于傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制模型，該模型通過注意力機(jī)制學(xué)習(xí)一副圖像要處理的部分，當(dāng)前的狀態(tài)根據(jù)前一個(gè)狀態(tài)學(xué)習(xí)得到的要關(guān)注的位置和當(dāng)前輸入的圖像，去處理注意力部分像素，而不是圖像的全部像素，減少了任務(wù)的復(fù)雜度，并在圖像分類上取得了很好的性能。隨后，Bahdanau把注意力機(jī)制用到了神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯（NMT）上，NMT是一個(gè)典型的序列到序列模型，即一個(gè)編碼-解碼模型，傳統(tǒng)的NMT使用兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)，第一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)用于編碼源語言，并且把源語言編碼至某個(gè)固定維度的中間向量中；第二個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)用于目標(biāo)語言的解碼翻譯，效果相比傳統(tǒng)的NMT提升了不少，最大的特點(diǎn)還在于它可以可視化對(duì)齊，在長(zhǎng)句的處理上更有優(yōu)勢(shì)，他們的工作算是第一個(gè)將注意力機(jī)制應(yīng)用到自然語言處理?

【參考文獻(xiàn)】：
期刊論文
[1]基于注意力機(jī)制與評(píng)論文本深度模型的推薦方法[J]. 黃文明,衛(wèi)萬成,張健,鄧珍榮.  計(jì)算機(jī)工程. 2019(09)
[2]基于標(biāo)簽特征和相關(guān)性的多標(biāo)簽分類算法[J]. 李鋒,楊有龍.  計(jì)算機(jī)工程與應(yīng)用. 2019(04)
[3]基于深度自動(dòng)編碼器的多標(biāo)簽分類研究[J]. 聶煜,廖祥文,魏晶晶,楊定達(dá),陳國(guó)龍.  廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[4]基于Bi-LSTM和CNN并包含注意力機(jī)制的社區(qū)問答問句分類方法[J]. 史夢(mèng)飛,楊燕,賀樑,陳成才.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(09)
[5]采用詞向量注意力機(jī)制的雙路卷積神經(jīng)網(wǎng)絡(luò)句子分類模型[J]. 郭寶震,左萬利,王英.  浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2018(09)
[6]基于深度學(xué)習(xí)的文本分類研究進(jìn)展[J]. 劉婷婷,朱文東,劉廣一.  電力信息與通信技術(shù). 2018(03)
[7]基于樸素貝葉斯的文本分類研究綜述[J]. 賀鳴,孫建軍,成穎.  情報(bào)科學(xué). 2016(07)

博士論文
[1]遷移學(xué)習(xí)在文本分類中的應(yīng)用研究[D]. 孟佳娜.大連理工大學(xué) 2011

碩士論文
[1]基于同異性遷移學(xué)習(xí)的短文本分類技術(shù)研究與應(yīng)用[D]. 付豪.北京郵電大學(xué) 2019

本文編號(hào)：3285550

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/shengwushengchang/3285550.html

上一篇：基于二維照片的人物三維模型重建系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
下一篇：基于少量樣本的深度學(xué)習(xí)圖像修復(fù)算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的短文本分類算法研究及應(yīng)用