基于詞嵌入的漢—泰跨語言句子相似度計(jì)算方法研究
發(fā)布時(shí)間:2021-05-25 20:12
跨語言句子相似度計(jì)算在文本挖掘,網(wǎng)頁檢索,機(jī)器翻譯和問答系統(tǒng)中發(fā)揮著重要的作用,一直以來是自然語言處理領(lǐng)域中的一個(gè)重要的研究內(nèi)容。隨著中國一帶一路倡議的不斷推進(jìn),中國正在不斷加強(qiáng)與東南亞國家的交流與合作。泰國一直以來都是中國重要的國際交流合作國家,語言是中國與泰國之間實(shí)現(xiàn)文化、經(jīng)濟(jì)等交流的重要紐帶。然而,語言的差異也成為兩國交流的障礙。泰語作為一種資源稀缺的語言,語料不易獲取,同時(shí)泰語語言處理的相關(guān)研究較少。因此,漢-泰跨語言句子相似度研究面臨巨大挑戰(zhàn),為了解決漢-泰跨語言句子相似度計(jì)算問題開展了本文的工作。本文針對漢-泰跨語言句子相似度計(jì)算方法進(jìn)行相關(guān)研究。主要從以下三個(gè)方面展開:(1)在泰語單語言的句子相似度計(jì)算方面,提出基于詞性和詞向量的泰語句子相似度計(jì)算方法。該方法首先借用詞性標(biāo)注(POS)結(jié)果,通過考慮泰語句子中的詞性來計(jì)算兩個(gè)泰語句子的相似度,然后通過詞向量訓(xùn)練工具將句子中的詞語轉(zhuǎn)換為向量,并計(jì)算兩個(gè)句子中非重疊詞的相似度。最后,結(jié)合詞性和詞向量來計(jì)算泰語句子的相似度。此方法不僅考慮詞性,還融入了語義。(2)提出基于不對等語料的漢-泰跨語言詞語的相似度計(jì)算方法。該方法首先對...
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 句子相似度計(jì)算
1.2.2 跨語言詞嵌入
1.2.3 跨語言句子相似度計(jì)算
1.3 論文的研究內(nèi)容
1.4 論文構(gòu)成
1.5 本章小節(jié)
第二章 基于詞性標(biāo)注和詞向量的泰語句子相似度計(jì)算
2.1 引言
2.2 相關(guān)原理
2.2.1 泰語分詞
2.2.2 詞嵌入方法
2.3 基于詞性的泰語句子相似度計(jì)算
2.4 基于詞向量的泰語相似度計(jì)算
2.5 基于詞性和詞向量的泰語句子相似度計(jì)算
2.6 實(shí)驗(yàn)結(jié)果與分析
2.7 本章小結(jié)
第三章 基于不對等語料的漢-泰跨語言詞的相似度計(jì)算方法
3.1 引言
3.2 相關(guān)原理
3.2.1 奇異值分解SVD
3.2.2 基于映射的跨語言詞嵌入方法
3.3 基于語料不對等的跨語言詞的相似度計(jì)算
3.3.1 算法思想
3.3.2 歸一化詞向量
3.3.3 漢語詞向量的k-means聚類
3.3.4 雙語詞對的擴(kuò)展和泛化
3.3.5 梯度下降優(yōu)化
3.3.6 漢-泰跨語言詞的相似度計(jì)算
3.4 實(shí)驗(yàn)與分析
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 評價(jià)指標(biāo)
3.4.3 實(shí)驗(yàn)參數(shù)分析
3.4.4 實(shí)驗(yàn)結(jié)果與分析
3.5 本章小結(jié)
第四章 基于句子嵌入的漢-泰跨語言句子相似度計(jì)算
4.1 引言
4.2 相關(guān)原理
4.2.1 句子嵌入模型
4.3 漢-泰跨語言句子相似度計(jì)算模型
4.3.1 歸一化句子向量
4.3.2 正交約束
4.3.3 相似度計(jì)算
4.4 實(shí)驗(yàn)與分析
4.4.1 漢-泰平行語料的獲取
4.4.2 評價(jià)指標(biāo)
4.4.3 實(shí)驗(yàn)結(jié)果與分析
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
附錄A 攻讀碩士學(xué)位期間發(fā)表論文
附錄B 攻讀碩士學(xué)位期間參與項(xiàng)目
【參考文獻(xiàn)】:
期刊論文
[1]融合上下文字符信息的泰語神經(jīng)網(wǎng)絡(luò)分詞方法[J]. 陶廣奉,線巖團(tuán),王紅斌,汪淑娟. 計(jì)算機(jī)工程與科學(xué). 2018(05)
[2]基于WordNet的中泰文跨語言文本相似度計(jì)算[J]. 石杰,周蘭江,線巖團(tuán),余正濤. 中文信息學(xué)報(bào). 2016(04)
[3]融合新聞要素的跨語言新聞文本相似度計(jì)算[J]. 侯中熙,王紅斌,線巖團(tuán). 價(jià)值工程. 2016(17)
[4]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計(jì)算機(jī). 2016(02)
[5]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J]. 張劍,屈丹,李真. 模式識別與人工智能. 2015(04)
[6]基于詞性及詞性依存的句子結(jié)構(gòu)相似度計(jì)算[J]. 藍(lán)雁玲,陳建超. 計(jì)算機(jī)工程. 2011(10)
[7]基于規(guī)則和統(tǒng)計(jì)的日語分詞和詞性標(biāo)注的研究[J]. 姜尚仆,陳群秀. 中文信息學(xué)報(bào). 2010(01)
[8]基于字典和統(tǒng)計(jì)的分詞方法[J]. 陳平,劉曉霞,李亞軍. 計(jì)算機(jī)工程與應(yīng)用. 2008(10)
[9]句子相似度計(jì)算新方法及在問答系統(tǒng)中的應(yīng)用[J]. 周法國,楊炳儒. 計(jì)算機(jī)工程與應(yīng)用. 2008(01)
[10]漢泰語音對比研究與語音偏誤標(biāo)記分析[J]. 陳晨,李秋楊. 暨南大學(xué)華文學(xué)院學(xué)報(bào). 2007(04)
碩士論文
[1]基于WordNet的中英文跨語言文本相似度研究[D]. 何文壘.上海交通大學(xué) 2011
本文編號:3205938
【文章來源】:昆明理工大學(xué)云南省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 句子相似度計(jì)算
1.2.2 跨語言詞嵌入
1.2.3 跨語言句子相似度計(jì)算
1.3 論文的研究內(nèi)容
1.4 論文構(gòu)成
1.5 本章小節(jié)
第二章 基于詞性標(biāo)注和詞向量的泰語句子相似度計(jì)算
2.1 引言
2.2 相關(guān)原理
2.2.1 泰語分詞
2.2.2 詞嵌入方法
2.3 基于詞性的泰語句子相似度計(jì)算
2.4 基于詞向量的泰語相似度計(jì)算
2.5 基于詞性和詞向量的泰語句子相似度計(jì)算
2.6 實(shí)驗(yàn)結(jié)果與分析
2.7 本章小結(jié)
第三章 基于不對等語料的漢-泰跨語言詞的相似度計(jì)算方法
3.1 引言
3.2 相關(guān)原理
3.2.1 奇異值分解SVD
3.2.2 基于映射的跨語言詞嵌入方法
3.3 基于語料不對等的跨語言詞的相似度計(jì)算
3.3.1 算法思想
3.3.2 歸一化詞向量
3.3.3 漢語詞向量的k-means聚類
3.3.4 雙語詞對的擴(kuò)展和泛化
3.3.5 梯度下降優(yōu)化
3.3.6 漢-泰跨語言詞的相似度計(jì)算
3.4 實(shí)驗(yàn)與分析
3.4.1 實(shí)驗(yàn)數(shù)據(jù)
3.4.2 評價(jià)指標(biāo)
3.4.3 實(shí)驗(yàn)參數(shù)分析
3.4.4 實(shí)驗(yàn)結(jié)果與分析
3.5 本章小結(jié)
第四章 基于句子嵌入的漢-泰跨語言句子相似度計(jì)算
4.1 引言
4.2 相關(guān)原理
4.2.1 句子嵌入模型
4.3 漢-泰跨語言句子相似度計(jì)算模型
4.3.1 歸一化句子向量
4.3.2 正交約束
4.3.3 相似度計(jì)算
4.4 實(shí)驗(yàn)與分析
4.4.1 漢-泰平行語料的獲取
4.4.2 評價(jià)指標(biāo)
4.4.3 實(shí)驗(yàn)結(jié)果與分析
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
附錄A 攻讀碩士學(xué)位期間發(fā)表論文
附錄B 攻讀碩士學(xué)位期間參與項(xiàng)目
【參考文獻(xiàn)】:
期刊論文
[1]融合上下文字符信息的泰語神經(jīng)網(wǎng)絡(luò)分詞方法[J]. 陶廣奉,線巖團(tuán),王紅斌,汪淑娟. 計(jì)算機(jī)工程與科學(xué). 2018(05)
[2]基于WordNet的中泰文跨語言文本相似度計(jì)算[J]. 石杰,周蘭江,線巖團(tuán),余正濤. 中文信息學(xué)報(bào). 2016(04)
[3]融合新聞要素的跨語言新聞文本相似度計(jì)算[J]. 侯中熙,王紅斌,線巖團(tuán). 價(jià)值工程. 2016(17)
[4]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計(jì)算機(jī). 2016(02)
[5]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J]. 張劍,屈丹,李真. 模式識別與人工智能. 2015(04)
[6]基于詞性及詞性依存的句子結(jié)構(gòu)相似度計(jì)算[J]. 藍(lán)雁玲,陳建超. 計(jì)算機(jī)工程. 2011(10)
[7]基于規(guī)則和統(tǒng)計(jì)的日語分詞和詞性標(biāo)注的研究[J]. 姜尚仆,陳群秀. 中文信息學(xué)報(bào). 2010(01)
[8]基于字典和統(tǒng)計(jì)的分詞方法[J]. 陳平,劉曉霞,李亞軍. 計(jì)算機(jī)工程與應(yīng)用. 2008(10)
[9]句子相似度計(jì)算新方法及在問答系統(tǒng)中的應(yīng)用[J]. 周法國,楊炳儒. 計(jì)算機(jī)工程與應(yīng)用. 2008(01)
[10]漢泰語音對比研究與語音偏誤標(biāo)記分析[J]. 陳晨,李秋楊. 暨南大學(xué)華文學(xué)院學(xué)報(bào). 2007(04)
碩士論文
[1]基于WordNet的中英文跨語言文本相似度研究[D]. 何文壘.上海交通大學(xué) 2011
本文編號:3205938
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3205938.html
最近更新
教材專著