天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于詞向量的問答系統(tǒng)中問句匹配方法研究與改進

發(fā)布時間:2021-01-26 01:56
  隨著互聯(lián)網(wǎng)行業(yè)的發(fā)展與科技的進步,各行各業(yè)的信息知識呈爆炸性增長,其中問答系統(tǒng)作為人工智能的代表性產(chǎn)物,積累了極其龐大的問題庫。如何從海量問題庫中提取出簡短且準確的信息,已經(jīng)逐漸成為眾多研究者所面臨的一個巨大挑戰(zhàn)。其中問答系統(tǒng)中的相似性問題檢測(問句匹配)就是解決該問題的一種有效方法。如何準確的表征出問句所表達的語義信息是問句匹配中一個至關(guān)重要的步驟。目前比較常用的文本表征模型是向量空間模型(簡稱VSM),但是由于該模型具有維度高,文本語義信息表征不夠精確等問題,因此學者們提出了使用詞向量來構(gòu)建問句向量的思想,其中Word2Vec與Glove模型就是比較常用的兩種詞向量訓練模型。本文基于這兩種詞向量模型對常見的問句向量構(gòu)建方法進行了分析,發(fā)現(xiàn)其在問句的表征方面都存在一定的缺陷,因此本文提出了基于分類與關(guān)鍵詞提取的詞性加權(quán)問句向量構(gòu)建法(QWP_CKE),該方法引進了分類算法與關(guān)鍵詞提取算法,結(jié)合了文本特征詞的詞性信息和V_TF-IDF加權(quán)法,使得該方法能夠更充分的利用特征詞對問句的影響力信息,從而提高問句向量表征的準確性。在問答系統(tǒng)的問句匹配中,通常需要計算問句相似度,選取相似度最高的... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:62 頁

【學位級別】:碩士

【部分圖文】:

基于詞向量的問答系統(tǒng)中問句匹配方法研究與改進


主題模型映射示意圖

示意圖,模型,示意圖,向量


哈爾濱工業(yè)大學應用統(tǒng)計碩士專業(yè)學位論文-14-第3章詞向量模型詞向量是詞的數(shù)字化表示,相比于傳統(tǒng)One-Hot獨熱編碼,不僅包含了很多語義信息,而且還能有效緩解度熱編碼由于嚴重的特征稀疏而引起的維度災難。除此之外,詞向量訓練模型也是獲取詞的一種分布式表示模型,它能自動對文本語料進行學習,并能獲得稠密、低緯度的向量表示。目前比較常用的詞向量表示模型是Word2Vec與Glove模型。3.1Word2Vec模型Word2vec[34]是一系列從大量文本語料中學習語義信息的淺層神經(jīng)網(wǎng)絡模型。該模型對主要思想是將文本中的特征詞用具有空間語義信息的詞向量來表示,經(jīng)過模型訓練最終達到空間距離越近的詞語義也相似的目的。其中CBOW和Skip-Gram模型是Word2Vec中最為常用的兩個模型結(jié)構(gòu),具體的網(wǎng)絡結(jié)構(gòu)如圖3-1所示。圖3-1CBOW模型和Skip-Gram模型示意圖從圖3-1可以看出,這兩種模型的網(wǎng)絡結(jié)構(gòu)都是由輸入層,隱藏層與輸出層三層構(gòu)成。其中CBOW是對目標詞進行預測,而Skip-Gram是對目標詞的上下文單詞進行預測。具體模型如下:(1)CBOW模型CBOW模型的輸入是目標詞的個上下文單詞所對應的One-Hot編碼,具體公式如下:wiCw1,w2,!,wC

過程圖,過程,結(jié)點,哈夫曼


哈爾濱工業(yè)大學應用統(tǒng)計碩士專業(yè)學位論文-17-圖3-2Huffman樹的構(gòu)造過程這時根據(jù)圖3-2所構(gòu)造的哈夫曼樹,可以計算出該樹的帶權(quán)路徑長度為:(3-8)在Huffman樹中,利用Huffman編碼來決定haffman樹的走向。上例中,Huffman樹的Huffman編碼見圖3-3:圖3-3Huffman編碼示意圖其中Huffman樹轉(zhuǎn)換為Huffman編碼時,約定左孩子結(jié)點編碼為1,右孩子結(jié)點編碼為0。在Word2Vec詞向量訓練模型中,一般采用邏輯回歸算法對結(jié)點的選擇進行分類。以圖中“周杰倫”為例,可以看出從根結(jié)點到達“周杰倫”這個葉子結(jié)點需要經(jīng)歷4次分裂,其中每一次分裂都可看作進行了一次二分類。根據(jù)分類結(jié)果可以對哈夫曼樹進行編碼,其中正類編為0,負類編為1。具體標簽公式如下:(3-9)其中表示的標簽,表示路徑中的第個結(jié)點,表示路徑中第個結(jié)點對應的哈夫曼編碼,表示路徑中包含結(jié)點的個數(shù)。Z=(3+1)×4+5×3+8×2+12×1=59M(Piw)=1diwi=2,3,!,lwM(Piw)PiwPiwPwidiwPwilwPw

【參考文獻】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡和XGBoost的文本分類[J]. 龔維印,王力.  通信技術(shù). 2018(10)
[2]基于卷積神經(jīng)網(wǎng)絡和注意力模型的文本情感分析[J]. 馮興杰,張志偉,史金釧.  計算機應用研究. 2018(05)
[3]基于改進TF-IDF算法的文本分類方法研究[J]. 賀科達,朱錚濤,程昱.  廣東工業(yè)大學學報. 2016(05)
[4]一種新型樸素貝葉斯文本分類算法[J]. 邸鵬,段利國.  數(shù)據(jù)采集與處理. 2014(01)
[5]基于近似Markov Blanket和動態(tài)互信息的特征選擇算法[J]. 姚旭,王曉丹,張玉璽,權(quán)文.  計算機科學. 2012(08)
[6]現(xiàn)代漢語同義并列復合詞詞性、詞序分析[J]. 陳宏.  南開語言學刊. 2008(01)
[7]基于問句相似度的中文FAQ問答系統(tǒng)[J]. 葉正,林鴻飛,楊志豪.  計算機工程與應用. 2007(09)
[8]搜索引擎技術(shù)研究與發(fā)展[J]. 印鑒,陳憶群,張鋼.  計算機工程. 2005(14)
[9]文本分類器性能評估指標[J]. 宋楓溪,高林.  計算機工程. 2004(13)
[10]向量空間法中單詞權(quán)重函數(shù)的分析和構(gòu)造[J]. 陸玉昌,魯明羽,李凡,周立柱.  計算機研究與發(fā)展. 2002(10)

碩士論文
[1]基于GloVe的文本聚類研究與改進[D]. 徐露.華南理工大學 2019



本文編號:3000276

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3000276.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶81bd1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com