天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度神經(jīng)網(wǎng)絡(luò)的文本建模算法研究

發(fā)布時間:2021-09-22 05:01
  互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的全面化加速了人類進入人工智能時代,隨之而來的各種終端設(shè)備上產(chǎn)生了大量的文本數(shù)據(jù),將文本數(shù)據(jù)信息化需要很好的表征這些文本。文本表示是從文本中提取和學(xué)習其蘊含的語義信息,并將文本表征成計算機可運算的數(shù)值向量,該任務(wù)作為自然語言處理領(lǐng)域中所有下游任務(wù)的關(guān)鍵環(huán)節(jié),如文本分類、信息抽取、機器翻譯、自動問答等任務(wù),因此近年來引起了諸多學(xué)者的關(guān)注。文本主要有詞、句子、文檔三種存在形式,現(xiàn)有的文本表示方法主要有傳統(tǒng)的文本表征算法和基于神經(jīng)網(wǎng)絡(luò)的文本表征算法兩個流派的方法論。本文基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建了三個針對不同語言、不同領(lǐng)域的輕量級文本表征算法,并結(jié)合文本分類下游任務(wù)構(gòu)建了端到端(end-to-end)的模型,具體如下:1)針對英文語料,探究了字符亞詞信息給文本表征帶來的提升;贑NN網(wǎng)絡(luò),引入了單詞的字符信息,并將卷積網(wǎng)絡(luò)中的池化操作優(yōu)化成Self-Attention網(wǎng)絡(luò),構(gòu)建了基于字符的分層注意力卷積模型(E-HAC)。在通用的6個文本分類數(shù)據(jù)集上進行了實驗,與baseline CNN模型效果相比,準確率均有所提升,尤其在MR數(shù)據(jù)集上提升近2個百分點。2)針對中文特定領(lǐng)域,探究了... 

【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:64 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于深度神經(jīng)網(wǎng)絡(luò)的文本建模算法研究


文本表示方法分類

示意圖,遞歸神經(jīng)網(wǎng)絡(luò),示意圖,向量


第二章相關(guān)文本建模表示算法綜述132.2.1基于遞歸神經(jīng)網(wǎng)絡(luò)(RecNN)的文本表示方法在文本NLP中的遞歸神經(jīng)網(wǎng)絡(luò)(RecNN)模型將文本樹/圖結(jié)構(gòu)信息自下而上的編碼為語義向量,即是把文本特征信息映射到低維語義向量空間。通過訓(xùn)練構(gòu)造的文本向量空間應(yīng)滿足以下屬性:語義相似的文本在語義向量空間中的點距離更近。即如果把兩個語義相似的文本(盡管原始文本內(nèi)容不同)輸入到ReCNN[36]中,那么他們分別編碼后落在語義向量空間中的點應(yīng)當距離相近;反之,如果兩個文本的語義截然相反,那么編碼后的點距離應(yīng)當較遠。在NLP領(lǐng)域中,遞歸神經(jīng)網(wǎng)絡(luò)算法也隸屬于表示學(xué)習方法的范疇,其將詞、句子、文檔等文本形式按照它們各自的語義投影到同一向量假設(shè)空間中,也即是把可組合的信息經(jīng)由結(jié)構(gòu)上的遞歸全連接網(wǎng)絡(luò)表示為一個具體實數(shù)數(shù)值的向量,如圖2-2所示:圖2-2遞歸神經(jīng)網(wǎng)絡(luò)(RecNN)示意圖遞歸神經(jīng)網(wǎng)絡(luò)是通過構(gòu)建一棵二叉樹來實現(xiàn)結(jié)構(gòu)上的遞歸,假設(shè)如下中的兩個子節(jié)點的向量用21,xx來表示,父節(jié)點的向量用p來表示。子節(jié)點和父節(jié)點之間構(gòu)成一個全連接網(wǎng)絡(luò)(FullyConnected,FC),也就是子節(jié)點的每個神經(jīng)元都和父節(jié)點的神經(jīng)元按照如下公式(2-12)進行全連接方式計算:bxxwp21tanh(2-12)然后再次使用生成的父節(jié)點向量和其他子節(jié)點向量或父節(jié)點向量作為某子網(wǎng)絡(luò)的輸入,然后遞歸獲取相應(yīng)子網(wǎng)絡(luò)部分的父節(jié)點,直至建立完整的文本語義樹為止,最終得到的根節(jié)點向量(rootnodevector)即可認為是對整棵樹(文本)的語義矢量化表示,從而借助遞歸樹實現(xiàn)了文本的遞歸向量化表示。

遞歸圖,神經(jīng)網(wǎng),遞歸,示例


電子科技大學(xué)碩士學(xué)位論文14圖2-3遞歸神經(jīng)網(wǎng)(RecNN)示例借助圖2-3中的例子進行闡述,遞歸神經(jīng)網(wǎng)絡(luò)將詞、句子都映射到一個2維的語義向量空間中。句子[theplacewhereIwasborn]和句子[thecountryofmybirth]的語義非常接近,均表示‘我的出生地’的含義,因此它們的向量2維語義向量空間中的距離相近。而另外兩個詞[France]和[Germany]因為也都代表地點,它們在該語義空間中的向量與兩個代表‘我的出生地’句子的語義向量的距離,比與另外兩個表示時間的詞[Tuesday]和[Monday]的向量的距離更近。2.2.2基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的文本表示方法循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[37]是一種經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)算法,它是一個內(nèi)部高度自連接的網(wǎng)絡(luò),在時間軸上呈現(xiàn)重復(fù)遞歸的網(wǎng)絡(luò)結(jié)構(gòu)。不同于遞歸神經(jīng)網(wǎng)絡(luò)這種樹結(jié)構(gòu)上的遞歸結(jié)構(gòu),循環(huán)神經(jīng)網(wǎng)絡(luò)是一種時間序列上的遞歸形式,RNN可以捕捉文本序列當前的輸出值與序列中之前的所有歷史信息的關(guān)系,當然反向RNN網(wǎng)絡(luò)可以捕捉文本序列當前的輸出值與序列中其后的文本序列所包含的后續(xù)信息的關(guān)系。從網(wǎng)絡(luò)結(jié)構(gòu)圖2-4所示,右側(cè)的展開圖可看出:RNN會自動保留歷史中重要的信息,并利用歷史保留的信息去影響后面節(jié)點的隱藏層狀態(tài)信息的生成,進而影響輸出值。即循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏層之間的節(jié)點是按照時間軸序列進行遞歸連接的,隱藏層的值不僅依賴當前時刻輸入層的輸入值,還依賴上一時刻隱藏層的輸出值,因此能在一定程度上保留了歷史中重要的信息。RNN這種時間軸上串聯(lián)的結(jié)構(gòu)對于挖掘文本序列數(shù)據(jù)中的信息非常友好,可以有效捕捉序列中數(shù)據(jù)與數(shù)據(jù)之間的相互依賴關(guān)系。因此諸多學(xué)者在處理音頻、視頻和文本等序列數(shù)據(jù)是常利用RNN作為基礎(chǔ)架構(gòu)。

【參考文獻】:
期刊論文
[1]深度學(xué)習視域下的文本表示方法研究[J]. 聶維,劉小豫.  科技資訊. 2019(18)
[2]基于深度學(xué)習的文本表示方法[J]. 李楓林,柯佳.  情報科學(xué). 2019(01)
[3]中文分詞算法研究綜述[J]. 汪文妃,徐豪杰,楊文珍,吳新麗.  成組技術(shù)與生產(chǎn)現(xiàn)代化. 2018(03)
[4]結(jié)合注意力機制的長文本分類方法[J]. 盧玲,楊武,王遠倫,雷子鑒,李瑩.  計算機應(yīng)用. 2018(05)
[5]文本分類及分類算法研究綜述[J]. 張磊.  電腦知識與技術(shù). 2016(34)

博士論文
[1]結(jié)合知識和神經(jīng)網(wǎng)絡(luò)的文本表示方法的研究[D]. 李一鳴.浙江大學(xué) 2018

碩士論文
[1]文本的分層表示及情感分類方法研究[D]. 胡均毅.中國科學(xué)技術(shù)大學(xué) 2019
[2]基于注意力機制的文本表示研究[D]. 徐若易.中國科學(xué)技術(shù)大學(xué) 2019
[3]基于注意力機制的文本分類研究[D]. 徐旭程.電子科技大學(xué) 2019
[4]基于Attention-Based Bi-GRU模型的文本分類方法研究[D]. 冀文光.電子科技大學(xué) 2019
[5]融合句法信息的句子嵌入表示學(xué)習方法及應(yīng)用研究[D]. 陶蘭.華東交通大學(xué) 2018
[6]文本語義的向量表示與建模方法研究[D]. 陳培新.中國科學(xué)技術(shù)大學(xué) 2018
[7]基于Attention Bi-LSTM的文本分類方法研究[D]. 王恰.華南理工大學(xué) 2018
[8]基于Attention-Based C-GRU模型的文本分類研究[D]. 楊東.北京交通大學(xué) 2018
[9]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016



本文編號:3403186

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3403186.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c69a7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com