天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

句子級和段落級的語義相似度算法的設(shè)計與實現(xiàn)

發(fā)布時間:2021-07-28 11:44
  隨著自然語言處理技術(shù)的飛速發(fā)展,句子級語義相似度算法有了更多的應(yīng)用場景,如從數(shù)據(jù)庫中選出與用戶問題最匹配的回答、從數(shù)據(jù)集中選出翻譯效果最好的單詞序列、以及文本分類和排序等等。段落級語義相似度算法同樣具有較多的應(yīng)用場景和較大的研究價值。相比句子,段落結(jié)構(gòu)更復(fù)雜、維度更高,因此段落級語義相似度的研究難度更高。針對句子級和段落級語義相似度算法研究,本文的貢獻(xiàn)主要有以下三點:第一,采用自注意力機(jī)制中的多抽頭注意力提取方法改進(jìn)了句子級語義相似度算法。相較于長短期記憶網(wǎng)絡(luò)的方法,本文提出的語義相似度算法有兩點優(yōu)勢:1)可以得到多個特征圖譜,從而實現(xiàn)多角度提取語義特征;2)能夠直接計算句子中任意兩個詞語之間的語義關(guān)聯(lián)度。改進(jìn)后的句子級相似度模型相比基礎(chǔ)模型實驗效果有所提升,并優(yōu)化了社區(qū)問答系統(tǒng)。第二,提出了基于文本摘要的段落級相似度算法。在文本研究中,相較于句子,段落的文本跨度更大、維度更復(fù)雜。為了降低段落間的長度及維度的差異帶來的語義計算難度,本文提出了基于生成摘要的段落級相似度方法。抽取后的摘要既可以表達(dá)段落的主要思想,又降低了段落間的維度差異。該方法便于計算,提高了語義計算的效率。第三,通過引... 

【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:64 頁

【學(xué)位級別】:碩士

【部分圖文】:

句子級和段落級的語義相似度算法的設(shè)計與實現(xiàn)


圖2-1可知,依存關(guān)系中,動賓關(guān)系與從句修飾關(guān)系屬于等效關(guān)系,并且??動賓關(guān)系與從句修飾關(guān)系兩個依存關(guān)系對應(yīng)的上下文都包含名詞book

模型結(jié)構(gòu),二叉樹


第二章語義相似度計算相關(guān)工作累加和。最后輸出層輸出二叉樹,二叉樹中葉節(jié)點即語料中中各詞在語料中出現(xiàn)的次數(shù)。每個非葉節(jié)點也是向量,它是某個詞。其中非葉節(jié)點與映射層的節(jié)點可以產(chǎn)生關(guān)聯(lián)的處輸出的二叉樹。二叉樹中每一次分支都可以視為一次二eC定義分到左邊為負(fù)類,標(biāo)簽為0,分到右邊為正類,標(biāo)簽,一個節(jié)點被分為正類的概率為p,分為負(fù)類的概率為1-P。意詞%哈夫曼樹中必存在一條從根節(jié)點到詞對應(yīng)結(jié)點個分支對應(yīng)二分類的結(jié)果連乘起來,就得到所需的X-)??????

語料庫,單詞,模型結(jié)構(gòu),概率


??點的右孩子的最左節(jié)點,即圖2-4中的葉子節(jié)點W(v-2)。再假設(shè)從根節(jié)點到該葉??子節(jié)點路徑上的3個非葉節(jié)點分別為a、b、c。d表示“看”這個詞向量,那么??p?(老王I看)的概率通過下式計算得到[1Q]:?p?(老王I看)=(1-〇?(a*d))*?〇?(b*d)??*〇(C*d)。用同樣的方法計算p?(喜歡|看)、p?(皇馬丨看)、p?(的丨看),通過??4個概率連乘可以得出“看”這個詞的上下文概率。將這句話中所有詞的概率連??乘就可以得到這句話屬于自然語言的概率。??xn????輸?w(i)??入?????層??W(synl)??W(synl)?W(synl)??^?W(synl)?W(synl)?y?W(synl)?^?W(v)??出?1?\??層?— ̄??一?W(synl)?W(v-2)?W(v-l)??——??W(l)?W(2)??圖2-4?Skip-Gram模型結(jié)構(gòu)圖??想要得到語料庫中所有單詞的詞向量可以基于給定語料庫訓(xùn)練CBOW和??Skip-Gram兩種詞向量模型。通過這些詞向量可以得到句子的向量。根據(jù)向量的??空間距離,可以判斷語義的相近程度,從而可以計算詞與詞之間的關(guān)系,如詞語??相似性和語義關(guān)聯(lián)性等。??詞向量模型計算相似度的流程如下:首先是訓(xùn)練出詞向量。然后利用詞向量??逐位相加并求平均值得到句子的向量。接著可以通過余弦距離、歐式距離、皮爾??森相關(guān)系數(shù)等等表示兩個句子之間的語義相似度。以余弦距離為例,公式如下:??v〇)?=?Xv(w)?(2-9)??wes??simr(S]

【參考文獻(xiàn)】:
期刊論文
[1]基于稀疏語義的蛋白質(zhì)噪聲功能標(biāo)注識別[J]. 路暢,陳霞,王峻,余國先,余志文.  中國科學(xué):信息科學(xué). 2018(08)
[2]一種基于詞語多原型向量表示的句子相似度計算方法[J]. 郭鴻奇,李國佳.  智能計算機(jī)與應(yīng)用. 2018(02)
[3]問題先導(dǎo)下語義相似性和原型難度對原型啟發(fā)的影響[J]. 楊文靜,靳玉樂,邱江,張慶林.  心理學(xué)報. 2018(03)

碩士論文
[1]句子語義相似度計算及其應(yīng)用研究[D]. 趙銀各.北京郵電大學(xué) 2018



本文編號:3307855

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3307855.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0eeee***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com