基于Transformer的文本語義相似度算法研究
發(fā)布時間:2021-11-04 18:25
語義相似度是自然語言處理任務(wù)的核心模塊,它對很多問題,例如網(wǎng)頁檢索、自動評分、自動問答、語言生成等方向都有非常重要的作用。計算機技術(shù)發(fā)展速度如此驚人,自動評分自然而然地進入人們視野,對于客觀題的自動批閱已經(jīng)日趨成熟,可面對變數(shù)比較大的主觀題,采用傳統(tǒng)的語義相似度計算方法經(jīng)常會忽略答案中的重點,錯失得分點導(dǎo)致評分的不準(zhǔn)確。針對這個問題,我們提出了語義完整性分析下的Transformer-DSSM模型進行語義相似度的計算,進而提升主觀題自動評分的準(zhǔn)確度。一般而言,具有完整意義的短句在判斷兩句話表達意思是否一致時準(zhǔn)確度更高,故而本文在進行語義相似度研究之前,將答案的長文本通過語義完整性分析(Semantic Integrity Analysis)方法轉(zhuǎn)換為多個語義完整的中文短文本,并把其作為數(shù)據(jù)集用于語義相似度的計算。語義相似度的計算過程一般要有分詞、詞向量表示、提取特征、相似度計算四個步驟。在詞向量表示過程中,本文引入了位置編碼(Position Embedding),采用GRU網(wǎng)絡(luò)對序列中的詞語出現(xiàn)的位置進行編碼,這樣可以更好的獲取詞語的上下文特征。然后將特征向量和位置編碼一同輸入到基于...
【文章來源】:湘潭大學(xué)湖南省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
CBOW示意圖
10圖2-2Skip-gram模型示意圖GloVe2.3.2GloVe(GlobalVectorsforWordRepresentation)是2014年在論文中被提出來的,它是一個基于全局的詞頻統(tǒng)計的詞表征工具,征用了詞語間共同出現(xiàn)的信息[15]。假定元素為詞j出現(xiàn)在詞i的周邊的次數(shù),這里的周邊定義比較寬泛,可以給定為一個具體的數(shù)字,詞j和詞i在某個限定范圍內(nèi)一同出現(xiàn)的次數(shù)與詞i出現(xiàn)次數(shù)的比值,即為詞i和詞j的共現(xiàn)概率,如下公式(2-1)。=(|)=(2-1)其中為任意詞出現(xiàn)在詞i周邊的次數(shù)。GloVe最重要部分就是將共現(xiàn)概率以詞向量的形式表現(xiàn),故而需要知道三個輔助詞i、j和k的詞向量。對于共現(xiàn)概率,賦予詞i和詞j分別為中心詞和周邊詞,符號v和分別代表中心詞和周邊詞的詞向量,在分析和比對后,對于任意詞i和j,這個比值可以寫作共現(xiàn)詞出現(xiàn)頻數(shù)的對數(shù)形式,如下式:++=()(2-2)′++=()(2-3)ELMo2.3.3ELMo(EmbeddingsfromLanguageModels,基于語言模型的詞向量)出自于論文,與word2vec和GloVe不同的是其動態(tài)詞向量的思想[16]。類似于中文語境的概念,所處的境地不同詞義也會有所不同,一樣的詞處于不同的文章段落中,其所表示的意思也會不盡相同,ELMo正是一種可以反饋出這種不一樣的詞嵌入。ELMo多被用來進行模型訓(xùn)練,后期可以用該模型根據(jù)語境得到不同的詞嵌
11入。論文實驗表明,ELMo詞向量很大程度提升了自然語言處理任務(wù)的效果。ELMo最大的特點就是獲取語言模型,語言模型示意如圖2-3。該模型采用雙向LSTM網(wǎng)絡(luò),由兩個不同方向的子模型構(gòu)成,最終的目的就是取雙向語言模型的最大似然。圖2-3ELMo語言模型結(jié)構(gòu)圖前向LSTM結(jié)構(gòu):p(1,2,…,)=∏(|1,2,…,1)=1(2-4)后向LSTM結(jié)構(gòu):p(t1,t2,…,tN)=∏p(tk|tk+1,tk+2,…,tN)Nk=1(2-5)最大似然函數(shù):∑(logp(tk|t1,t2,…,tk1)+logp(tk|tk+1,tk+2,…,tN))Nk=1(2-6)2.4注意力機制Attention也是基于編碼-解碼形式大框架的改進,簡單的編碼-解碼器的模型很難深層次地學(xué)習(xí)到特征,在面對具體任務(wù)上還不夠詳細(xì),所以出現(xiàn)了注意力機制。注意力的一般形式就是區(qū)別對待每一個輸入X,在經(jīng)過編碼器時會進行不同的編碼C,以求可以學(xué)習(xí)到更加豐富的上下文信息。最終在到達解碼器后根據(jù)不同的C會產(chǎn)生不一樣的輸出值,這樣的操作準(zhǔn)確度更高。大體過程如圖2-4所示:
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)表示的醫(yī)學(xué)主題語義相似度計算及知識發(fā)現(xiàn)研究[J]. 沈思,孫豪,王東波. 情報理論與實踐. 2020(05)
[2]結(jié)合語義相似度改進LDA的文本主題分析[J]. 趙林靜. 計算機工程與設(shè)計. 2019(12)
[3]基于語義相似度的API使用模式推薦[J]. 張云帆,周宇,黃志球. 計算機科學(xué). 2020(03)
[4]基于Word2Vec的高效詞匯語義相似度計算系統(tǒng)的設(shè)計實現(xiàn)[J]. 孫洪迪. 北京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報. 2019(04)
[5]基于本體的語義相似度和相關(guān)度計算研究綜述[J]. 劉宏哲,須德. 計算機科學(xué). 2012(02)
[6]一種改進的基于向量空間文本相似度算法的研究與實現(xiàn)[J]. 李連,朱愛紅,蘇濤. 計算機應(yīng)用與軟件. 2012(02)
[7]一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉. 計算機學(xué)報. 2011(05)
[8]基于VSM的文本相似度計算的研究[J]. 郭慶琳,李艷梅,唐琦. 計算機應(yīng)用研究. 2008(11)
[9]基于改進編輯距離和依存文法的漢語句子相似度計算[J]. 劉寶艷,林鴻飛,趙晶. 計算機應(yīng)用與軟件. 2008(07)
[10]基于領(lǐng)域本體的概念語義相似度計算研究[J]. 黃果,周竹榮. 計算機工程與設(shè)計. 2007(10)
本文編號:3476244
【文章來源】:湘潭大學(xué)湖南省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
CBOW示意圖
10圖2-2Skip-gram模型示意圖GloVe2.3.2GloVe(GlobalVectorsforWordRepresentation)是2014年在論文中被提出來的,它是一個基于全局的詞頻統(tǒng)計的詞表征工具,征用了詞語間共同出現(xiàn)的信息[15]。假定元素為詞j出現(xiàn)在詞i的周邊的次數(shù),這里的周邊定義比較寬泛,可以給定為一個具體的數(shù)字,詞j和詞i在某個限定范圍內(nèi)一同出現(xiàn)的次數(shù)與詞i出現(xiàn)次數(shù)的比值,即為詞i和詞j的共現(xiàn)概率,如下公式(2-1)。=(|)=(2-1)其中為任意詞出現(xiàn)在詞i周邊的次數(shù)。GloVe最重要部分就是將共現(xiàn)概率以詞向量的形式表現(xiàn),故而需要知道三個輔助詞i、j和k的詞向量。對于共現(xiàn)概率,賦予詞i和詞j分別為中心詞和周邊詞,符號v和分別代表中心詞和周邊詞的詞向量,在分析和比對后,對于任意詞i和j,這個比值可以寫作共現(xiàn)詞出現(xiàn)頻數(shù)的對數(shù)形式,如下式:++=()(2-2)′++=()(2-3)ELMo2.3.3ELMo(EmbeddingsfromLanguageModels,基于語言模型的詞向量)出自于論文,與word2vec和GloVe不同的是其動態(tài)詞向量的思想[16]。類似于中文語境的概念,所處的境地不同詞義也會有所不同,一樣的詞處于不同的文章段落中,其所表示的意思也會不盡相同,ELMo正是一種可以反饋出這種不一樣的詞嵌入。ELMo多被用來進行模型訓(xùn)練,后期可以用該模型根據(jù)語境得到不同的詞嵌
11入。論文實驗表明,ELMo詞向量很大程度提升了自然語言處理任務(wù)的效果。ELMo最大的特點就是獲取語言模型,語言模型示意如圖2-3。該模型采用雙向LSTM網(wǎng)絡(luò),由兩個不同方向的子模型構(gòu)成,最終的目的就是取雙向語言模型的最大似然。圖2-3ELMo語言模型結(jié)構(gòu)圖前向LSTM結(jié)構(gòu):p(1,2,…,)=∏(|1,2,…,1)=1(2-4)后向LSTM結(jié)構(gòu):p(t1,t2,…,tN)=∏p(tk|tk+1,tk+2,…,tN)Nk=1(2-5)最大似然函數(shù):∑(logp(tk|t1,t2,…,tk1)+logp(tk|tk+1,tk+2,…,tN))Nk=1(2-6)2.4注意力機制Attention也是基于編碼-解碼形式大框架的改進,簡單的編碼-解碼器的模型很難深層次地學(xué)習(xí)到特征,在面對具體任務(wù)上還不夠詳細(xì),所以出現(xiàn)了注意力機制。注意力的一般形式就是區(qū)別對待每一個輸入X,在經(jīng)過編碼器時會進行不同的編碼C,以求可以學(xué)習(xí)到更加豐富的上下文信息。最終在到達解碼器后根據(jù)不同的C會產(chǎn)生不一樣的輸出值,這樣的操作準(zhǔn)確度更高。大體過程如圖2-4所示:
【參考文獻】:
期刊論文
[1]基于深度學(xué)習(xí)表示的醫(yī)學(xué)主題語義相似度計算及知識發(fā)現(xiàn)研究[J]. 沈思,孫豪,王東波. 情報理論與實踐. 2020(05)
[2]結(jié)合語義相似度改進LDA的文本主題分析[J]. 趙林靜. 計算機工程與設(shè)計. 2019(12)
[3]基于語義相似度的API使用模式推薦[J]. 張云帆,周宇,黃志球. 計算機科學(xué). 2020(03)
[4]基于Word2Vec的高效詞匯語義相似度計算系統(tǒng)的設(shè)計實現(xiàn)[J]. 孫洪迪. 北京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報. 2019(04)
[5]基于本體的語義相似度和相關(guān)度計算研究綜述[J]. 劉宏哲,須德. 計算機科學(xué). 2012(02)
[6]一種改進的基于向量空間文本相似度算法的研究與實現(xiàn)[J]. 李連,朱愛紅,蘇濤. 計算機應(yīng)用與軟件. 2012(02)
[7]一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J]. 黃承慧,印鑒,侯昉. 計算機學(xué)報. 2011(05)
[8]基于VSM的文本相似度計算的研究[J]. 郭慶琳,李艷梅,唐琦. 計算機應(yīng)用研究. 2008(11)
[9]基于改進編輯距離和依存文法的漢語句子相似度計算[J]. 劉寶艷,林鴻飛,趙晶. 計算機應(yīng)用與軟件. 2008(07)
[10]基于領(lǐng)域本體的概念語義相似度計算研究[J]. 黃果,周竹榮. 計算機工程與設(shè)計. 2007(10)
本文編號:3476244
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3476244.html
最近更新
教材專著