天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于深度學(xué)習(xí)的文本蘊含技術(shù)研究

發(fā)布時間:2021-09-05 23:05
  自然語言中的推理關(guān)系,又稱為文本蘊含關(guān)系,是一種基本的文本間語義聯(lián)系,廣泛存在于自然語言文本中。很多信息處理任務(wù)或多或少地都需要面對包含蘊含關(guān)系的文本。如果有一種技術(shù)能夠處理其中的蘊含關(guān)系,那這種技術(shù)就能夠為這些任務(wù)提供助力。因此,文本蘊含相關(guān)研究是自然語言處理領(lǐng)域的一項基礎(chǔ)性工作,可以輔助其他信息處理任務(wù)的進行,并且具有豐富的應(yīng)用場景。一般的二元關(guān)系研究,通常圍繞二元關(guān)系的識別、抽取、生成這三個基本研究任務(wù)展開。類似地,作為一種二元關(guān)系,文本蘊含也有3個基本研究任務(wù)——文本蘊含關(guān)系識別(又稱為自然語言推理)、文本蘊含知識挖掘和文本蘊含后件生成。盡管取得了不錯的進展,但之前的有關(guān)研究存在一些局限:(1)文本蘊含關(guān)系識別模型復(fù)雜,難于訓(xùn)練;(2)自然語言推理方法不能有效地結(jié)合知識;(3)蘊含知識的挖掘不能同時兼顧覆蓋率與準確率;(4)文本蘊含的生成不能有效保留重要信息,同時缺少客觀的評價指標。本文針對已有方法在這三個基本研究任務(wù)中存在的四個問題展開,分別提出了四種模型,均在公開的數(shù)據(jù)集上取得了當(dāng)時最高成績。本文基本研究內(nèi)容如下:1.基于高斯Transformer的文本蘊含識別研究:目前基... 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:135 頁

【學(xué)位級別】:博士

【部分圖文】:

基于深度學(xué)習(xí)的文本蘊含技術(shù)研究


文本蘊含關(guān)系識別的核心問題

章節(jié),論文,內(nèi)容,短句


4.文本蘊含后件生成研究中,基于編碼器-解碼器的方法已經(jīng)領(lǐng)先了基于規(guī)則改寫的算法,但是這種方法常常遺忘原句中的有效信息,并傾向于生成短句。同時,該任務(wù)也缺少合理的評價指標。針對以上現(xiàn)有研究中存在的問題,我們提出了具體的解決方案:

模型圖,單詞,注意力,高斯


高斯自注意力機制的提出基于如下觀察:對于當(dāng)前的短語的語義來說,臨近的單詞的貢獻要大于距離較遠的單詞的貢獻。例如,句子“I bought a new book yesterday with a new friend in New York.”中,對于單詞“book”來講,第一個“new”的重要性要大于其他兩個“new”。循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)可以內(nèi)在的建模這種現(xiàn)象,因為循環(huán)神經(jīng)網(wǎng)絡(luò)傾向于忘記距離較遠的輸入,而卷積神經(jīng)網(wǎng)絡(luò)會直接排除掉所有不在當(dāng)前卷積窗口內(nèi)的單詞。但是,原始Transformer由于不存在循環(huán)或卷積的結(jié)構(gòu),僅僅依賴自注意力機制是無法建模這種現(xiàn)象的。如圖2-1(a)所示,在計算自注意力機制的權(quán)重時,相同的單詞(比如new)能獲得相同的權(quán)重,盡管他們距離當(dāng)前單詞(圖中的book)的距離并不相同。我們?yōu)榇颂岢隽嘶诰嚯x的高斯先驗來解決這一問題,如圖2-1(b)(c)所示。盡管原始的Transformer中存在位置編碼(Position Encoding)似乎能夠緩解這一問題,但是我們的實驗表明,高斯先驗的效果更好。在建模文本的局部信息的同時,我們通過堆疊多層高斯注意力網(wǎng)絡(luò)來建模句子中的長距離依賴信息。

【參考文獻】:
期刊論文
[1]基于知識話題模型的文本蘊涵識別[J]. 任函,盛雅琦,馮文賀,劉茂福.  中文信息學(xué)報. 2015(06)
[2]基于文本蘊含的選擇類問題解答技術(shù)研究[J]. 王寶鑫,鄭德權(quán),王曉雪,趙姍姍,趙鐵軍.  北京大學(xué)學(xué)報(自然科學(xué)版). 2016(01)
[3]基于混合主題模型的文本蘊涵識別[J]. 盛雅琦,張晗,呂晨,姬東鴻.  計算機工程. 2015(05)
[4]多特征文本蘊涵識別研究[J]. 趙紅燕,劉鵬,李茹,王智強.  中文信息學(xué)報. 2014(02)
[5]基于FrameNet框架關(guān)系的文本蘊含識別[J]. 張鵬,李國臣,李茹,劉海靜,石向榮,Collin Baker.  中文信息學(xué)報. 2012(02)



本文編號:3386253

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3386253.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶52473***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com