基于共享語義空間的無監(jiān)督雙語詞典抽取
發(fā)布時間:2021-07-30 02:16
無監(jiān)督雙語詞典抽。║nsupervised Bilingual Lexicon Induction)旨在不借助任何跨語言知識的條件下從兩種語言的單語語料中獲取雙語翻譯詞典。成功的解決這個問題將會為資源匱乏的語言和很多跨語言自然語言處理任務(wù)帶來巨大的收益。近年來,人們在無監(jiān)督雙語詞典抽取上的研究取得了巨大的進步,并已成功將獲取到的無監(jiān)督雙語詞典應(yīng)用到許多下游任務(wù)中。然而現(xiàn)有的方法并不是完美的,存在如下兩個不足:(1)現(xiàn)有模型在理論上不是最優(yōu)的,其性能也不夠理想;(2)在真實的場景下魯棒性不足,尤其是差異較大的語言對中準(zhǔn)確率較低。為了解決以上問題,本文主要進行了以下兩方面的工作,用來獲取更高質(zhì)量的無監(jiān)督雙語詞典。第一,本文提出了一種基于共享語義空間的無監(jiān)督雙語詞典抽取模型。相比于現(xiàn)有的方法,本模型不是學(xué)習(xí)一個從源語言詞向量空間到目標(biāo)語言詞向量空間的單向線性變換,而是為源語言和目標(biāo)語言學(xué)習(xí)一個共享的語義空間,再利用這個空間進行無監(jiān)督雙語詞典抽取。理論上來說,基于共享語義空間的模型相比于現(xiàn)有模型表達(dá)能力更強。因此在這個空間中,兩個語言的詞向量可以更好的匹配,從而更有利于雙語詞典抽取。通過在8...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究目的和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 有監(jiān)督雙語詞典抽取模型
1.2.2 半監(jiān)督雙語詞典抽取模型
1.2.3 無監(jiān)督雙語詞典抽取模型
1.3 本文的主要研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
第2章 基線無監(jiān)督雙語詞典抽取模型的分析
2.1 引言
2.2 無監(jiān)督雙語詞典抽取的任務(wù)設(shè)置
2.2.1 數(shù)據(jù)集
2.2.2 評估方式
2.3 基線模型
2.3.1 預(yù)訓(xùn)練單語詞向量
2.3.2 對抗訓(xùn)練
2.3.3 迭代增強
2.4 基線模型的不足
2.4.1 同構(gòu)性假設(shè)
2.4.2 單向的線性變換
2.5 本章小結(jié)
第3章 基于共享語義空間的無監(jiān)督雙語詞典抽取模型
3.1 引言
3.2 共享語義空間
3.2.1 共享語義空間假設(shè)
3.2.2 共享語義空間的優(yōu)越性分析
3.3 基于共享語義空間的無監(jiān)督詞典抽取模型
3.3.1 模型結(jié)構(gòu)
3.3.2 模型實現(xiàn)細(xì)節(jié)
3.3.3 模型選擇策略
3.3.4 模型參數(shù)細(xì)節(jié)
3.4 共享語義空間的有效性驗證
3.4.1 實驗設(shè)置
3.4.2 實驗結(jié)果與分析
3.5 本章小結(jié)
第4章 無監(jiān)督雙語詞典抽取模型的優(yōu)化
4.1 引言
4.2 預(yù)訓(xùn)練單語詞向量
4.2.1 詞向量的預(yù)訓(xùn)練算法
4.2.2 預(yù)訓(xùn)練單語詞向量對模型性能的影響
4.3 單語詞向量的預(yù)處理
4.3.1 單語詞向量的常見預(yù)處理方式
4.3.2 預(yù)處理單語詞向量對性能的影響
4.4 共享語義空間的維度
4.4.1 共享語義空間的維度設(shè)置
4.4.2 共享語義空間的維度對模型性能的影響
4.5 詞向量映射的形式
4.5.1 正交、線性和非線性的詞向量映射模型
4.5.2 詞向量映射的形式對無監(jiān)督雙語詞典抽取性能的影響
4.6 迭代增強技術(shù)
4.6.1 兩種不同的迭代增強技術(shù)
4.6.2 迭代增強技術(shù)對模型性能的影響
4.7 優(yōu)化的無監(jiān)督雙語詞典抽取模型
4.7.1 實驗設(shè)置
4.7.2 性能測試與分析
4.8 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其他成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于Web數(shù)據(jù)的特定領(lǐng)域雙語詞典抽取[J]. 張永臣,孫樂,李飛,李文波,西野文人,于浩,方高林. 中文信息學(xué)報. 2006(02)
本文編號:3310480
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:72 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究目的和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 有監(jiān)督雙語詞典抽取模型
1.2.2 半監(jiān)督雙語詞典抽取模型
1.2.3 無監(jiān)督雙語詞典抽取模型
1.3 本文的主要研究內(nèi)容
1.4 論文的組織結(jié)構(gòu)
第2章 基線無監(jiān)督雙語詞典抽取模型的分析
2.1 引言
2.2 無監(jiān)督雙語詞典抽取的任務(wù)設(shè)置
2.2.1 數(shù)據(jù)集
2.2.2 評估方式
2.3 基線模型
2.3.1 預(yù)訓(xùn)練單語詞向量
2.3.2 對抗訓(xùn)練
2.3.3 迭代增強
2.4 基線模型的不足
2.4.1 同構(gòu)性假設(shè)
2.4.2 單向的線性變換
2.5 本章小結(jié)
第3章 基于共享語義空間的無監(jiān)督雙語詞典抽取模型
3.1 引言
3.2 共享語義空間
3.2.1 共享語義空間假設(shè)
3.2.2 共享語義空間的優(yōu)越性分析
3.3 基于共享語義空間的無監(jiān)督詞典抽取模型
3.3.1 模型結(jié)構(gòu)
3.3.2 模型實現(xiàn)細(xì)節(jié)
3.3.3 模型選擇策略
3.3.4 模型參數(shù)細(xì)節(jié)
3.4 共享語義空間的有效性驗證
3.4.1 實驗設(shè)置
3.4.2 實驗結(jié)果與分析
3.5 本章小結(jié)
第4章 無監(jiān)督雙語詞典抽取模型的優(yōu)化
4.1 引言
4.2 預(yù)訓(xùn)練單語詞向量
4.2.1 詞向量的預(yù)訓(xùn)練算法
4.2.2 預(yù)訓(xùn)練單語詞向量對模型性能的影響
4.3 單語詞向量的預(yù)處理
4.3.1 單語詞向量的常見預(yù)處理方式
4.3.2 預(yù)處理單語詞向量對性能的影響
4.4 共享語義空間的維度
4.4.1 共享語義空間的維度設(shè)置
4.4.2 共享語義空間的維度對模型性能的影響
4.5 詞向量映射的形式
4.5.1 正交、線性和非線性的詞向量映射模型
4.5.2 詞向量映射的形式對無監(jiān)督雙語詞典抽取性能的影響
4.6 迭代增強技術(shù)
4.6.1 兩種不同的迭代增強技術(shù)
4.6.2 迭代增強技術(shù)對模型性能的影響
4.7 優(yōu)化的無監(jiān)督雙語詞典抽取模型
4.7.1 實驗設(shè)置
4.7.2 性能測試與分析
4.8 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其他成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于Web數(shù)據(jù)的特定領(lǐng)域雙語詞典抽取[J]. 張永臣,孫樂,李飛,李文波,西野文人,于浩,方高林. 中文信息學(xué)報. 2006(02)
本文編號:3310480
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3310480.html
最近更新
教材專著