天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于智能問(wèn)答系統(tǒng)的短文本語(yǔ)義相似度匹配

發(fā)布時(shí)間:2021-07-09 07:03
  在眾多的信息交互任務(wù)中,智能問(wèn)答系統(tǒng)已成為重要的應(yīng)用之一,準(zhǔn)確地理解客戶提出的自然問(wèn)題是問(wèn)答系統(tǒng)的關(guān)鍵所在,針對(duì)用戶意圖識(shí)別的核心問(wèn)題是如何對(duì)短文本語(yǔ)義進(jìn)行相似度匹配。本文針對(duì)問(wèn)答系統(tǒng)中自然語(yǔ)言文本長(zhǎng)度較短、樣本種類(lèi)受限制以及不能充分捕捉句子語(yǔ)義結(jié)構(gòu)特征等問(wèn)題,研究了一種基于深度學(xué)習(xí)的文本語(yǔ)義相似度匹配方法。將Fast Text模型和改進(jìn)的雙向LSTM(Bidirectional Long Short-Term Memory,長(zhǎng)短期記憶網(wǎng)絡(luò))相結(jié)合,構(gòu)建了FT-DP-LSTM相似度匹配模型。該模型利用Fast Text模型具有高效率訓(xùn)練文本的特點(diǎn),訓(xùn)練出包含文本語(yǔ)義信息的詞向量并作為整個(gè)模型的輸入,通過(guò)在雙向LSTM網(wǎng)絡(luò)中增加peephole connection結(jié)構(gòu),使其網(wǎng)絡(luò)中的遺忘門(mén)層和輸入門(mén)層之間不僅可以接受當(dāng)前輸入與前一時(shí)刻輸入,而且還能接受該時(shí)刻細(xì)胞狀態(tài)的輸入,充分地利用詞語(yǔ)上下文信息,可以整體上捕捉句子的長(zhǎng)依賴關(guān)系,最終獲取到文本的關(guān)鍵語(yǔ)義信息并進(jìn)行相似度匹配工作。通過(guò)建立訓(xùn)練、測(cè)試數(shù)據(jù)集對(duì)模型進(jìn)行實(shí)驗(yàn)驗(yàn)證,算法有效地提高了短文本語(yǔ)義相似度匹配的準(zhǔn)確率。本文最后設(shè)計(jì)并實(shí)現(xiàn)了... 

【文章來(lái)源】:西安建筑科技大學(xué)陜西省

【文章頁(yè)數(shù)】:75 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于智能問(wèn)答系統(tǒng)的短文本語(yǔ)義相似度匹配


正向最大匹配法圖

模型圖,模型,向量


西安建筑科技大學(xué)碩士學(xué)位論文14為了解決向量空間模型無(wú)法體現(xiàn)句子語(yǔ)義信息的情況,在1986年Hinton提出分布式表示方法(DistributedRepresentation)[41][42]方法。該方法的本質(zhì)是通過(guò)建模的思想對(duì)詞向量進(jìn)行訓(xùn)練,根據(jù)上下文的不同,詞向量的維數(shù)可以隨著位置的不同進(jìn)行適當(dāng)?shù)恼{(diào)節(jié),相比于傳統(tǒng)的方法,深度學(xué)習(xí)則是將所學(xué)向量表示為一種低維分布式表示向量,并且這些低維向量隨著輸入樣本的更新,和其他的參數(shù)一起更新,最大的優(yōu)勢(shì)就是可以不斷地獲取到各個(gè)特征之間的相似性,同時(shí)從高維稀疏空間降至低維稠密空間更有利于系統(tǒng)對(duì)于大數(shù)據(jù)的處理。(4)Word2vec文本表示模型[43]2013年谷歌的Mikolov等人發(fā)布了Word2vec模型訓(xùn)練指定任務(wù)下的詞向量,不同于其他多層神經(jīng)網(wǎng)絡(luò),該方法僅通過(guò)包含輸入、隱藏和輸出三層的淺層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,從而獲取到更深層次的文本特征信息。它包含有兩種以Huffman樹(shù)[32]為核心的理論基礎(chǔ)結(jié)構(gòu),分別是CBOW模型和Skip-Gram模型,沒(méi)有使用傳統(tǒng)的CNN模型,對(duì)于詞語(yǔ)的頻率越高,其隱藏層的數(shù)目就越少;詞語(yǔ)頻率越低,隱層數(shù)目就增多;這樣的目的是降低句子整體計(jì)算復(fù)雜度。圖2.2Skip-Gram模型圖2.2是Word2vec模型Skip-Gram模型,該模型的輸入部分為某個(gè)詞向量w,模型輸出是對(duì)這個(gè)詞向量對(duì)應(yīng)上下文的詞向量Context(w)進(jìn)行預(yù)測(cè),也是由霍夫曼數(shù)據(jù)結(jié)構(gòu)構(gòu)成。模型預(yù)測(cè)公式如2-1所示。ontextuwCPontextwupwwwC(2-1)

模型圖,模型圖,向量


西安建筑科技大學(xué)碩士學(xué)位論文15其中u為w的上下文中出現(xiàn)的各個(gè)詞語(yǔ)。與CBOW模型類(lèi)似,將上述公式帶入到對(duì)數(shù)似然函數(shù)中,最大似然表達(dá)式作為Skip-gram模型的目標(biāo)函數(shù),如公式2-2所示。ujuTjujuTjVdiuwdwVw111loglog1,,(2-2)式中ujd代表第j個(gè)詞的霍夫曼編碼,uj表示路徑pu中非葉子節(jié)點(diǎn)對(duì)應(yīng)的向量,θ是激活函數(shù)。(5)Doc2vec文本向量化表示[44]Doc2vec是一種比較新的以神經(jīng)網(wǎng)絡(luò)模型為基礎(chǔ)的方法,可以直接地將句子或者段落轉(zhuǎn)換成固定維數(shù)的向量表示。其主要是通過(guò)無(wú)監(jiān)督學(xué)習(xí)法訓(xùn)練DM(DistributedMemoryModel)和DBOW(Distribu-tedBagOfWords)兩種模型,從而獲取未知文本序列向量[44]。這兩個(gè)模型存在的共同點(diǎn)是:預(yù)測(cè)某個(gè)單詞出現(xiàn)的概率均是基于上下文特征進(jìn)行預(yù)測(cè)。由于兩個(gè)模型的訓(xùn)練方法類(lèi)似,本文以DM模型為例,如下圖2.3所示。首先將每個(gè)文檔ID和語(yǔ)料庫(kù)中的所有詞(wt,文檔長(zhǎng)度為c)初始化一個(gè)One-Hot編碼向量,然后將文檔向量和上下文詞語(yǔ)向量輸入模型,投影層將這些向量累加(或取均值、直接拼接起來(lái))得到中間向量,作為輸出層的輸入,輸出層同樣可以采用Softmax或NegativeSampling降低訓(xùn)練復(fù)雜度[34]。對(duì)于任意一個(gè)文本序列進(jìn)行訓(xùn)練,當(dāng)ParagraphID不變,共享ParagraphMatrix,意味著充分利用上下文語(yǔ)義信息預(yù)測(cè)一個(gè)詞語(yǔ)的概率。圖2.3DM模型圖Doc2Vec中的DBOW與DM存在的不同是:DBOW模型輸入的是一句話或者一個(gè)段落,輸出的是多個(gè)詞向量的概率分布情況。在整個(gè)訓(xùn)練過(guò)程中,僅儲(chǔ)存softmax函數(shù),從而節(jié)省了存放多個(gè)詞向量的空間。

【參考文獻(xiàn)】:
期刊論文
[1]面向自動(dòng)問(wèn)答的機(jī)器閱讀理解綜述[J]. 楊康,黃定江,高明.  華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(05)
[2]基于深度學(xué)習(xí)和遷移學(xué)習(xí)的領(lǐng)域自適應(yīng)中文分詞[J]. 成于思,施云濤.  中文信息學(xué)報(bào). 2019(09)
[3]中文文本信息隱藏研究進(jìn)展[J]. 吳國(guó)華,龔禮春,袁理鋒,姚曄.  通信學(xué)報(bào). 2019(09)
[4]自然語(yǔ)言處理領(lǐng)域中的自動(dòng)問(wèn)答研究進(jìn)展[J]. 郭天翼,彭敏,伊穆蘭,毛文月,胡星燦,魏格格.  武漢大學(xué)學(xué)報(bào)(理學(xué)版). 2019(05)
[5]基于雙向注意力機(jī)制的問(wèn)答情感分類(lèi)方法[J]. 沈忱林,張璐,吳良慶,李壽山.  計(jì)算機(jī)科學(xué). 2019(07)
[6]中文比較關(guān)系的識(shí)別:基于注意力機(jī)制的深度學(xué)習(xí)模型[J]. 朱茂然,王奕磊,高松,王洪偉,鄭麗娟.  情報(bào)學(xué)報(bào). 2019(06)
[7]基于深度學(xué)習(xí)的開(kāi)放領(lǐng)域?qū)υ捪到y(tǒng)研究綜述[J]. 陳晨,朱晴晴,嚴(yán)睿,柳軍飛.  計(jì)算機(jī)學(xué)報(bào). 2019(07)
[8]文本相似度計(jì)算方法研究綜述[J]. 王春柳,楊永輝,鄧霏,賴輝源.  情報(bào)科學(xué). 2019(03)
[9]一種基于字向量和LSTM的句子相似度計(jì)算方法[J]. 何穎剛,王宇.  長(zhǎng)江大學(xué)學(xué)報(bào)(自然科學(xué)版). 2019(01)
[10]基于詞向量Doc2vec的雙向LSTM情感分析[J]. 張俊飛,畢志升,吳小玲.  計(jì)算機(jī)與數(shù)字工程. 2018(12)

碩士論文
[1]研究生招生咨詢智能問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 丁怡心.北京郵電大學(xué) 2019
[2]語(yǔ)句相似度匹配在自動(dòng)問(wèn)答系統(tǒng)中的應(yīng)用與實(shí)現(xiàn)[D]. 劉佳雯.南京郵電大學(xué) 2018
[3]基于改進(jìn)FastText的中文短文本分類(lèi)方法研究[D]. 屈渤浩.遼寧大學(xué) 2018
[4]基于語(yǔ)句相似度計(jì)算的FAQ問(wèn)答系統(tǒng)設(shè)計(jì)[D]. 高旭楊.浙江大學(xué) 2018
[5]基于語(yǔ)義Web的智能問(wèn)答系統(tǒng)的研究與實(shí)現(xiàn)[D]. 吳倩倩.北京交通大學(xué) 2011
[6]限定領(lǐng)域內(nèi)智能問(wèn)答系統(tǒng)的研究與實(shí)現(xiàn)[D]. 王銀麗.內(nèi)蒙古大學(xué) 2008



本文編號(hào):3273279

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3273279.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶57278***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com