天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

文本表示模型及相似度計(jì)算算法研究與應(yīng)用

發(fā)布時(shí)間:2021-07-25 12:55
  文本表示和文本相似度計(jì)算是自然語(yǔ)言處理領(lǐng)域中最為重要的任務(wù),為后續(xù)的文本計(jì)算提供良好的方法和支持。為充分表達(dá)文本的語(yǔ)義、結(jié)構(gòu)信息和獲得更好的相似度計(jì)算結(jié)果,本文構(gòu)建和設(shè)計(jì)了基于特征貢獻(xiàn)度的句向量表示模型和多模型加權(quán)融合的文本相似度計(jì)算算法。主要研究工作如下:(1)針對(duì)句向量表示語(yǔ)義信息不集中且任務(wù)針對(duì)性差等問(wèn)題,在現(xiàn)有SIF句向量模型的研究基礎(chǔ)上,建立了一種基于特征貢獻(xiàn)度的句向量表示改進(jìn)模型。該模型通過(guò)引入類(lèi)內(nèi)詞頻和類(lèi)內(nèi)、類(lèi)間區(qū)分度因子,改進(jìn)信息增益計(jì)算公式,增強(qiáng)文本特征選擇的效果。再結(jié)合通用詞頻因子,構(gòu)建可刻畫(huà)特征對(duì)任務(wù)貢獻(xiàn)度的特征貢獻(xiàn)度因子。最后,利用特征貢獻(xiàn)度因子篩選出貢獻(xiàn)度較低的特征詞,讓剩余特征詞參與后續(xù)句向量的計(jì)算,得到語(yǔ)義信息集中且任務(wù)針對(duì)性強(qiáng)的句向量表示。實(shí)驗(yàn)表明,較原始模型,本文提出的句向量模型在文本分類(lèi)任務(wù)上獲得了更高的準(zhǔn)確率,文本相似度計(jì)算任務(wù)中在準(zhǔn)確率、召回率和F1值三個(gè)評(píng)價(jià)指標(biāo)下均獲得更好的結(jié)果。(2)針對(duì)傳統(tǒng)文本相似度計(jì)算算法只單一的考慮了文本的語(yǔ)義信息或結(jié)構(gòu)信息,對(duì)捕捉文本的關(guān)鍵特征有一定局限性等不足,設(shè)計(jì)了多模型加權(quán)融合的文本相似度計(jì)算算法。該算法通過(guò)改... 

【文章來(lái)源】:西安科技大學(xué)陜西省

【文章頁(yè)數(shù)】:62 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

文本表示模型及相似度計(jì)算算法研究與應(yīng)用


文本表示發(fā)展現(xiàn)狀綜上所述,淺層語(yǔ)義表示中的傳統(tǒng)文本表示模型思想簡(jiǎn)單,容易實(shí)現(xiàn)

模型圖,模型,向量,文本


2相關(guān)理論基礎(chǔ)92相關(guān)理論基礎(chǔ)本章詳細(xì)介紹了詞向量表示模型、特征選擇方法以及文本相似度計(jì)算中的一些典型算法,為下文句向量表示模型和相似度計(jì)算算法的改進(jìn)提供理論依據(jù)。2.1詞向量表示模型詞向量模型作為文本向量表示中最常用的基礎(chǔ)模型,是自然語(yǔ)言處理中的一組語(yǔ)言建模和特征學(xué)習(xí)技術(shù)的統(tǒng)稱(chēng)。其核心思想是將非結(jié)構(gòu)化的文本詞語(yǔ)映射到向量空間中,最終達(dá)到用結(jié)構(gòu)化的向量來(lái)表示非結(jié)構(gòu)化的文本的目的。2.1.1Word2Vec詞向量模型Word2Vec是詞嵌入的實(shí)現(xiàn)工具。其核心思想是上下文相似的詞,其語(yǔ)義也相似。所以語(yǔ)義相似的文本之間其在向量上的數(shù)值是相似的。Word2Vec使用三層神經(jīng)網(wǎng)絡(luò)將獨(dú)熱編碼形式的詞向量映射到分布式形式的稠密詞向量,其中意思相近的詞將被映射到向量空間中相近的位置。該算法主要包括兩個(gè)模型:CBOW(ContinuousBags-of-WordsModel)和Skip-gram(ContinuousSkip-gramModel)。CBOW模型主要思想是通過(guò)某單詞tw的上下文預(yù)測(cè)該單詞tw。Skip-gram模型主要思想是通過(guò)某單詞tw去預(yù)測(cè)該單詞的上下文。CBOW對(duì)小型數(shù)據(jù)庫(kù)比較合適,而Skip-Gram在大型語(yǔ)料中表現(xiàn)更好。這兩種模型結(jié)構(gòu)都是輸入層-投影層-輸出層。如下圖2.1所示。圖2.1CBOW模型和Skip-gram模型的結(jié)構(gòu)對(duì)比

空間模型,向量,文本,空間


西安科技大學(xué)碩士學(xué)位論文142.3.2文本相似度計(jì)算算法文本相似度是自然語(yǔ)言處理領(lǐng)域里大多應(yīng)用的基礎(chǔ),一直是該領(lǐng)域研究的熱點(diǎn)課題。本節(jié)就沿用第一章中關(guān)于文本相似度計(jì)算算法研究現(xiàn)狀的思路,詳細(xì)介紹了兩種經(jīng)典的文本相似度計(jì)算算法,這對(duì)本文后續(xù)關(guān)于文本相似度計(jì)算算法的改進(jìn)有著一定的指導(dǎo)意義。(1)向量空間模型向量空間模型(VectorSpaceModel,VSM)認(rèn)為文本由多個(gè)獨(dú)立的詞語(yǔ)構(gòu)成。這些獨(dú)立詞語(yǔ)構(gòu)成該文本的特征集合。再結(jié)合文本詞頻信息賦予每個(gè)特征項(xiàng)不同的權(quán)重,以所有特征項(xiàng)的權(quán)重為分量形成該文本的空間向量。最后根據(jù)兩個(gè)文本的空間向量計(jì)算語(yǔ)義距離得到文本相似度計(jì)算結(jié)果。文本的向量空間模型表示如下圖2.2所示。給定文本T,用it表示文本中的某一特征項(xiàng),iW表示it在文本T中的權(quán)重值,那么在多維向量空間中,文本T中所有特征項(xiàng)的權(quán)重就形成了向量文本123(,,,,)TnVWWWW,iW就是向量文本TV在某一維度上的值。圖2.2向量空間模型空間圖在對(duì)文本進(jìn)行必要的預(yù)處理之后,向量空間模型中特征項(xiàng)的權(quán)重賦予是非常關(guān)鍵的一步,現(xiàn)有研究中通常利用TF-IDF來(lái)計(jì)算特征項(xiàng)的權(quán)重值。TF-IDF的計(jì)算公式在上節(jié)中已給出,在此不再贅述。TF-IDF方法既考慮了單個(gè)特征項(xiàng)能否表達(dá)出單個(gè)文本的信息,又體現(xiàn)了該特征項(xiàng)是否能區(qū)分該文本與其他文本。計(jì)算出權(quán)重后,就得到了文本的向量空間表示。繼而可以計(jì)算文本間的相似度。目前一般是用歐氏距離來(lái)計(jì)算兩個(gè)文本間的相似程度。文本iT和jT的特征向量分別是12(,,,)iTiiinVwww和12(,,,)jTjjjnVwww,則文本iT和jT的文本相似度為:

【參考文獻(xiàn)】:
期刊論文
[1]融合耦合距離區(qū)分度和強(qiáng)類(lèi)別特征的短文本相似度計(jì)算方法[J]. 馬慧芳,劉文,李志欣,藺想紅.  電子學(xué)報(bào). 2019(06)
[2]基于改進(jìn)信息增益的ACO-WNB分類(lèi)算法研究[J]. 邱寧佳,高鵬,王鵬,陶躍.  計(jì)算機(jī)仿真. 2019(01)
[3]基于LDA的多特征融合的短文本相似度計(jì)算[J]. 張小川,余林峰,張宜浩.  計(jì)算機(jī)科學(xué). 2018(09)
[4]基于詞向量的Jaccard相似度算法[J]. 田星,鄭瑾,張祖平.  計(jì)算機(jī)科學(xué). 2018(07)
[5]一種基于語(yǔ)義關(guān)系圖的詞語(yǔ)語(yǔ)義相關(guān)度計(jì)算模型[J]. 張仰森,鄭佳,李佳媛.  自動(dòng)化學(xué)報(bào). 2018(01)
[6]基于Word2vec的句子語(yǔ)義相似度計(jì)算研究[J]. 李曉,解輝,李立杰.  計(jì)算機(jī)科學(xué). 2017(09)
[7]微博文本的句向量表示及相似度計(jì)算方法研究[J]. 段旭磊,張仰森,孫祎卓.  計(jì)算機(jī)工程. 2017(05)
[8]現(xiàn)代漢語(yǔ)同義并列復(fù)合詞詞性、詞序分析[J]. 陳宏.  南開(kāi)語(yǔ)言學(xué)刊. 2008(01)
[9]基于信息增益的特征詞權(quán)重調(diào)整算法研究[J]. 張玉芳,陳小莉,熊忠陽(yáng).  計(jì)算機(jī)工程與應(yīng)用. 2007(35)
[10]知網(wǎng)的理論發(fā)現(xiàn)[J]. 董振東,董強(qiáng),郝長(zhǎng)伶.  中文信息學(xué)報(bào). 2007(04)



本文編號(hào):3302071

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3302071.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)bf6e0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com