句子級和段落級的語義相似度算法的設(shè)計與實現(xiàn)

發(fā)布時間：2021-07-28 11:44

　　隨著自然語言處理技術(shù)的飛速發(fā)展,句子級語義相似度算法有了更多的應(yīng)用場景,如從數(shù)據(jù)庫中選出與用戶問題最匹配的回答、從數(shù)據(jù)集中選出翻譯效果最好的單詞序列、以及文本分類和排序等等。段落級語義相似度算法同樣具有較多的應(yīng)用場景和較大的研究價值。相比句子,段落結(jié)構(gòu)更復(fù)雜、維度更高,因此段落級語義相似度的研究難度更高。針對句子級和段落級語義相似度算法研究,本文的貢獻(xiàn)主要有以下三點:第一,采用自注意力機(jī)制中的多抽頭注意力提取方法改進(jìn)了句子級語義相似度算法。相較于長短期記憶網(wǎng)絡(luò)的方法,本文提出的語義相似度算法有兩點優(yōu)勢:1)可以得到多個特征圖譜,從而實現(xiàn)多角度提取語義特征;2)能夠直接計算句子中任意兩個詞語之間的語義關(guān)聯(lián)度。改進(jìn)后的句子級相似度模型相比基礎(chǔ)模型實驗效果有所提升,并優(yōu)化了社區(qū)問答系統(tǒng)。第二,提出了基于文本摘要的段落級相似度算法。在文本研究中,相較于句子,段落的文本跨度更大、維度更復(fù)雜。為了降低段落間的長度及維度的差異帶來的語義計算難度,本文提出了基于生成摘要的段落級相似度方法。抽取后的摘要既可以表達(dá)段落的主要思想,又降低了段落間的維度差異。該方法便于計算,提高了語義計算的效率。第三,通過引...

【文章來源】：北京郵電大學(xué)北京市 211工程院校教育部直屬院校

【文章頁數(shù)】：64 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖２－１可知，依存關(guān)系中，動賓關(guān)系與從句修飾關(guān)系屬于等效關(guān)系，并且??動賓關(guān)系與從句修飾關(guān)系兩個依存關(guān)系對應(yīng)的上下文都包含名詞ｂｏｏｋ

模型結(jié)構(gòu),二叉樹

第二章語義相似度計算相關(guān)工作累加和。最后輸出層輸出二叉樹，二叉樹中葉節(jié)點即語料中中各詞在語料中出現(xiàn)的次數(shù)。每個非葉節(jié)點也是向量，它是某個詞。其中非葉節(jié)點與映射層的節(jié)點可以產(chǎn)生關(guān)聯(lián)的處輸出的二叉樹。二叉樹中每一次分支都可以視為一次二ｅＣ定義分到左邊為負(fù)類，標(biāo)簽為０，分到右邊為正類，標(biāo)簽，一個節(jié)點被分為正類的概率為ｐ，分為負(fù)類的概率為１－Ｐ。意詞％哈夫曼樹中必存在一條從根節(jié)點到詞對應(yīng)結(jié)點個分支對應(yīng)二分類的結(jié)果連乘起來，就得到所需的Ｘ－）??????

語料庫,單詞,模型結(jié)構(gòu),概率

??點的右孩子的最左節(jié)點，即圖２－４中的葉子節(jié)點Ｗ（ｖ－２）。再假設(shè)從根節(jié)點到該葉??子節(jié)點路徑上的３個非葉節(jié)點分別為ａ、ｂ、ｃ。ｄ表示“看”這個詞向量，那么??ｐ?（老王Ｉ看）的概率通過下式計算得到［１Ｑ］：?ｐ?（老王Ｉ看）＝（１－〇?（ａ＊ｄ））＊?〇?（ｂ＊ｄ）??＊〇（Ｃ＊ｄ）。用同樣的方法計算ｐ?（喜歡｜看）、ｐ?（皇馬丨看）、ｐ?（的丨看），通過??４個概率連乘可以得出“看”這個詞的上下文概率。將這句話中所有詞的概率連??乘就可以得到這句話屬于自然語言的概率。??ｘｎ????輸?ｗ（ｉ）??入?????層??Ｗ（ｓｙｎｌ）??Ｗ（ｓｙｎｌ）?Ｗ（ｓｙｎｌ）??＾?Ｗ（ｓｙｎｌ）?Ｗ（ｓｙｎｌ）?ｙ?Ｗ（ｓｙｎｌ）?＾?Ｗ（ｖ）??出?１?＼??層?—￣??一?Ｗ（ｓｙｎｌ）?Ｗ（ｖ－２）?Ｗ（ｖ－ｌ）??——??Ｗ（ｌ）?Ｗ（２）??圖２－４?Ｓｋｉｐ－Ｇｒａｍ模型結(jié)構(gòu)圖??想要得到語料庫中所有單詞的詞向量可以基于給定語料庫訓(xùn)練ＣＢＯＷ和??Ｓｋｉｐ－Ｇｒａｍ兩種詞向量模型。通過這些詞向量可以得到句子的向量。根據(jù)向量的??空間距離，可以判斷語義的相近程度，從而可以計算詞與詞之間的關(guān)系，如詞語??相似性和語義關(guān)聯(lián)性等。??詞向量模型計算相似度的流程如下：首先是訓(xùn)練出詞向量。然后利用詞向量??逐位相加并求平均值得到句子的向量。接著可以通過余弦距離、歐式距離、皮爾??森相關(guān)系數(shù)等等表示兩個句子之間的語義相似度。以余弦距離為例，公式如下：??ｖ〇）?＝?Ｘｖ（ｗ）?（２－９）??ｗｅｓ??ｓｉｍｒ（Ｓ］

【參考文獻(xiàn)】：
期刊論文
[1]基于稀疏語義的蛋白質(zhì)噪聲功能標(biāo)注識別[J]. 路暢,陳霞,王峻,余國先,余志文.  中國科學(xué):信息科學(xué). 2018(08)
[2]一種基于詞語多原型向量表示的句子相似度計算方法[J]. 郭鴻奇,李國佳.  智能計算機(jī)與應(yīng)用. 2018(02)
[3]問題先導(dǎo)下語義相似性和原型難度對原型啟發(fā)的影響[J]. 楊文靜,靳玉樂,邱江,張慶林.  心理學(xué)報. 2018(03)

碩士論文
[1]句子語義相似度計算及其應(yīng)用研究[D]. 趙銀各.北京郵電大學(xué) 2018

本文編號：3307855

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3307855.html

上一篇：乙烯生產(chǎn)能效監(jiān)測與評估系統(tǒng)移動端設(shè)計與實現(xiàn)
下一篇：基于峰值架構(gòu)的跨平臺編譯器分析優(yōu)化技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

句子級和段落級的語義相似度算法的設(shè)計與實現(xiàn)