天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于時間翹曲距離的短文本語義相似度研究

發(fā)布時間:2020-11-07 15:19
   隨著移動智能終端設備,社交網(wǎng)絡的普及與發(fā)展,新聞摘要、微博博文、商品評論等短文本數(shù)據(jù)大量涌出,如何從海量的短文本數(shù)據(jù)中挖掘出具有商業(yè)價值的信息成為眾多中文自然語言處理研究學者關注的課題。文本相似度作為機器翻譯、情感分析、信息檢索等人工智能商業(yè)應用的核心工作,發(fā)揮著巨大作用。本文圍繞中文短文本,對如何精確挖掘歧義詞匯語義特征信息,并與文本整體語序結構有效結合,進行相似度計算開展了研究,主要工作如下:⑴針對傳統(tǒng)基于字符統(tǒng)計的方法只能對文本字詞進行淺層統(tǒng)計,基于語義詞典和句法依存分析的方法存在特征表達主觀性較強,知識庫局限的問題,提出一種Word2vec結合改進DTW算法與匈牙利算法的語義相似度計算方法。通過Word2vec對大規(guī)模文本語料進行訓練,獲取客觀表達字詞特征信息的詞向量,將詞向量轉(zhuǎn)換成空間中的點,短文本詞向量序列轉(zhuǎn)換成空間中的點序列,通過加權公共子序列長度優(yōu)化的DTW算法與匈牙利算法計算點序列連成的曲線之間的對齊距離,依照對齊距離越小相似程度越高的原則來計算短文本之間的相似度。⑵針對靜態(tài)詞向量無法有效結合當前上下文語境,區(qū)分歧義詞匯特征信息表達的問題,提出一種BERT結合時間翹曲距離的語義相似度計算方法。通過BERT模型特殊的掩碼訓練機制與自注意力語義增強機制對短文本從整體層面進行語義特征提取,將提取到的短文本特征向量轉(zhuǎn)換成空間中的點序列,通過CTW算法計算點序列連成的曲線之間的時間翹曲距離,依照時間翹曲距離越小相似程度越高的原則來計算短文本之間的相似度。實驗結果表明,本文所提出的Word2vec結合改進DTW算法與匈牙利算法的相似度計算方法能夠根據(jù)語序的凌亂程度,對語義相近的短文本進行良好的相似度等級劃分,對一般場景下的短文本,能夠進行合理有效的相似度計算。本文所提出的BERT結合時間翹曲距離的相似度計算方法能夠較好地挖掘歧義詞匯特征信息,對短文本之間的相似度進行有效的計算,相較其他方法,對詞匯歧義的短文本有更為精準的區(qū)分。
【學位單位】:湖北工業(yè)大學
【學位級別】:碩士
【學位年份】:2020
【中圖分類】:TP391.1
【部分圖文】:

模型圖,模型圖,文檔,詞語


湖北工業(yè)大學碩士學位論文9分子,表示詞語在文檔中的頻數(shù),分母表示文檔中詞頻總和。IDF表示詞語在文檔中的權重占比,計算公式如(2.2)所示:||log:iijDidfjtd=(2.2)分子|D|表示文檔總數(shù),分母表示包含詞語的文檔數(shù)。對于一條文本,首先通過公式TFIDF=計算每個詞語的TF-IDF值,然后將文本表示成一條TF-IDF值序列。TF-IDF算法非常容易理解,計算也較為簡單,但是無法表達詞語的深層語義特征。⑶LDA主題模型LDA(LatentDirichletAllocation)采用統(tǒng)計學方法使用主題的概率分布表示文本,進一步將主題概率分布轉(zhuǎn)化為詞匯概率分布。模型結構如圖2.1所示:圖2.1LDA模型圖首先針對文檔中的詞項生成詞項總數(shù)分布,然后根據(jù)概率生成文檔對應的主題分布,進而生成主題對應的詞項分布。⑷詞嵌入模型詞嵌入是將詞匯向量化表達的過程,一般將文本中的每個詞匯通過空間嵌入的方法以低維稠密的向量表示。Word2vec就是詞嵌入模型之一,在本文第3章3.2.1小節(jié)將做詳細介紹。

矩陣圖,語料,矩陣,詞語


湖北工業(yè)大學碩士學位論文14圖2.2當前語料的共現(xiàn)矩陣共現(xiàn)矩陣統(tǒng)計語料中每個詞語臨近的左右兩個詞共現(xiàn)的次數(shù),雖然在一定程度上緩解了One-Hot編碼方法生成的向量計算結果為零的問題,但是無法解決維度過高、數(shù)據(jù)表達稀疏的問題。為了解決通過共現(xiàn)矩陣方式獲取的離散詞向量存在的高維稀疏問題,研究者們提出一種降維的解決思路:奇異值分解,通過降維得到一個稠密連續(xù)的詞向量。奇異值分解是機器學習領域常用的一種降維方法,它可以將一個復雜的矩陣分解成幾個更小更簡單的子矩陣相乘來表示。奇異值分解的幾何含義為,對于任何一個矩陣,尋找一組兩兩正交的單位向量序列,使得矩陣作用在此向量序列上能夠得到一個新的向量序列,并且保持兩兩正交。奇異值分解的基本公式如(2.9)所示:TA=UV(2.9)其中∈,∈,∈,∈,的列向量即是的特征向量,一般將中的每個特征向量叫做的左奇異向量;的列向量即是的特征向量,一般將中的每個特征向量叫做的右奇異向量。雖然奇異值分解的方法能夠獲取稠密連續(xù)的特征詞向量,但是計算復雜度較大。隨著研究的深入,為了避免構造共現(xiàn)矩陣造成的計算復雜度,Google推出了一款詞向量生成工具Word2vec,通過深度學習的方式對文本上下文環(huán)境中出現(xiàn)的詞進行預測,推動了詞向量生成方法的革新;谠~向量的研究現(xiàn)狀,可將詞向量劃分為靜態(tài)和動態(tài)兩種。靜態(tài)詞向量指的是一個詞語不管上下文如何變化都只有唯一的一個詞向量表示,這種詞向量一個比較大的缺陷是無法解決詞匯歧義問題,包括Word2vec、fastText、GloVe。動態(tài)詞向量指的是會根據(jù)上下文動態(tài)適應性的調(diào)整詞向量,可以一定程度地解決詞語多義性,包括ELMo、BERT。

結構圖,模型結構,結構圖,語料


湖北工業(yè)大學碩士學位論文17(a)CBOW結構圖(b)Skip-Gram結構圖圖3.1Word2vec訓練模型結構圖通過文本語料訓練模型的流程如圖3.2所示:圖3.2Word2vec詞向量訓練流程圖
【參考文獻】

相關期刊論文 前2條

1 劉懷亮;杜坤;秦春秀;;基于知網(wǎng)語義相似度的中文文本分類研究[J];現(xiàn)代圖書情報技術;2015年02期

2 李茹;王智強;李雙紅;梁吉業(yè);Collin Baker;;基于框架語義分析的漢語句子相似度計算[J];計算機研究與發(fā)展;2013年08期


相關碩士學位論文 前9條

1 郭炳元;基于語義樹的短文本相似度算法研究與應用[D];湘潭大學;2019年

2 馬付玉;中文短文本語義相似度計算方法研究[D];西安科技大學;2019年

3 李珍;基于語義擴展的短文本分類研究[D];西安電子科技大學;2019年

4 馬思丹;基于加權Word2vec的微博文本相似度計算方法研究[D];西安電子科技大學;2019年

5 艾陽坤;基于詞向量多維度注意力的卷積神經(jīng)網(wǎng)絡短文本語義相似度檢測算法[D];華中科技大學;2019年

6 倪高偉;無監(jiān)督和有監(jiān)督的短文本相似度研究及應用[D];南京郵電大學;2018年

7 趙謙;基于HowNet的短文本語義相似度計算方法研究[D];太原理工大學;2017年

8 李魁;短文本語義相似度計算的研究[D];哈爾濱工程大學;2016年

9 施凱倫;知識庫與語料庫相結合的語義相似度的研究與實現(xiàn)[D];北京交通大學;2016年



本文編號:2874123

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2874123.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶82ea0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com