基于反饋機(jī)制的無(wú)監(jiān)督跨語(yǔ)言詞表示方法
發(fā)布時(shí)間:2022-10-15 20:15
跨語(yǔ)言詞語(yǔ)表示方法能夠把兩種或多種人類語(yǔ)言的詞語(yǔ)表示在一個(gè)共同的空間中,為各種語(yǔ)義計(jì)算和知識(shí)遷移提供基礎(chǔ)支撐。大多跨語(yǔ)言詞語(yǔ)表示方法,都需要某種形式的監(jiān)督知識(shí)來訓(xùn)練模型。然而,資源的匱乏,已經(jīng)成為制約各種跨語(yǔ)言任務(wù)的瓶頸問題。無(wú)監(jiān)督方法不需要任何的平行語(yǔ)料或雙語(yǔ)詞典,僅僅依賴各種語(yǔ)言的單語(yǔ)語(yǔ)料庫(kù),就能夠自動(dòng)學(xué)習(xí)得到跨語(yǔ)言詞語(yǔ)表示和翻譯詞典。因而具有非常重要的研究意義。然而現(xiàn)有的方法存在一個(gè)很大的問題:要求在單語(yǔ)語(yǔ)料上分別訓(xùn)練的詞向量滿足同構(gòu)性假設(shè)。本文提出基于反饋機(jī)制的跨語(yǔ)言詞向量共訓(xùn)練方法,旨在使得詞向量天然具有跨語(yǔ)言性質(zhì)。本文首先從各個(gè)角度對(duì)基線模型進(jìn)行了改進(jìn),包括詞向量的初始化、初始詞典的性能、映射方式和距離度量方式等方面的研究。最終確定了使用迭代初始化的方式以及跨領(lǐng)域相似度本地縮放等技術(shù)可以提高抽取詞典的準(zhǔn)確率。之后,給出了獲取訓(xùn)練詞典的標(biāo)準(zhǔn)。分別研究了詞條選詞的標(biāo)準(zhǔn)和候選詞表大小的設(shè)置兩個(gè)問題,最終得到訓(xùn)練詞典。發(fā)現(xiàn)了基于確信度抽取詞典的方式更加有效。利用訓(xùn)練詞典,分別使用加入正則項(xiàng)約束的方法和基于替換的方法進(jìn)行詞向量的共訓(xùn)練。這兩種方法基于不同的思路,但目標(biāo)都希望詞典中互為...
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景
1.2 課題研究目的與意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.3.1 有監(jiān)督方法研究現(xiàn)狀
1.3.2 無(wú)監(jiān)督方法研究現(xiàn)狀
1.4 本文主要研究?jī)?nèi)容及章節(jié)安排
1.4.1 研究?jī)?nèi)容
1.4.2 章節(jié)安排
第2章 基線模型分析優(yōu)化與訓(xùn)練詞典的獲取
2.1 引言
2.2 基線模型介紹
2.2.1 vecmap模型原理和訓(xùn)練過程
2.2.2 樞紐點(diǎn)問題和CSLS
2.2.3 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置
2.3 基線模型分析與優(yōu)化
2.3.1 vecmap模型的分析
2.3.2 關(guān)于影響因素的實(shí)驗(yàn)
2.3.3 同構(gòu)性的分析
2.3.4 優(yōu)化方式
2.4 訓(xùn)練詞典獲取
2.4.1 選取待翻譯詞條標(biāo)準(zhǔn)分析
2.4.2 每個(gè)待翻譯詞條的候選譯文個(gè)數(shù)分析
2.4.3 關(guān)于候選譯文個(gè)數(shù)的實(shí)驗(yàn)
2.5 本章小結(jié)
第3章 基于替換的跨語(yǔ)言詞向量共訓(xùn)練
3.1 引言
3.2 基于反饋機(jī)制的無(wú)監(jiān)督跨語(yǔ)言詞典抽取
3.2.1 模型框架
3.2.2 詞向量的共訓(xùn)練方法
3.3 單語(yǔ)詞向量訓(xùn)練方法
3.3.1 語(yǔ)言模型簡(jiǎn)介
3.3.2 連續(xù)詞袋模型
3.3.3 隨機(jī)負(fù)采樣算法
3.4 基于替換的共訓(xùn)練方法
3.4.1 方法原理介紹
3.4.2 具體實(shí)現(xiàn)和細(xì)節(jié)說明
3.4.3 實(shí)驗(yàn)結(jié)果及分析
3.5 本章小結(jié)
第4章 加入正則項(xiàng)約束的跨語(yǔ)言詞向量共訓(xùn)練
4.1 引言
4.2 word2vec的損失函數(shù)及梯度求導(dǎo)
4.3 加入正則項(xiàng)限制的共訓(xùn)練方法
4.3.1 模型原理
4.3.2 梯度推導(dǎo)
4.3.3 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文及其他成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]人工智能背景下對(duì)機(jī)器翻譯的思考[J]. 張一寧,徐林熇. 長(zhǎng)春理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2019(03)
[2]全球化趨勢(shì)與世界語(yǔ)言問題[J]. 劉汝山,王美玲. 中國(guó)海洋大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2007(06)
[3]基于Web數(shù)據(jù)的特定領(lǐng)域雙語(yǔ)詞典抽取[J]. 張永臣,孫樂,李飛,李文波,西野文人,于浩,方高林. 中文信息學(xué)報(bào). 2006(02)
[4]網(wǎng)絡(luò)時(shí)代的語(yǔ)言競(jìng)爭(zhēng):文化生態(tài)學(xué)的思考[J]. 黃長(zhǎng)著. 國(guó)外社會(huì)科學(xué). 2001(01)
本文編號(hào):3691966
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景
1.2 課題研究目的與意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.3.1 有監(jiān)督方法研究現(xiàn)狀
1.3.2 無(wú)監(jiān)督方法研究現(xiàn)狀
1.4 本文主要研究?jī)?nèi)容及章節(jié)安排
1.4.1 研究?jī)?nèi)容
1.4.2 章節(jié)安排
第2章 基線模型分析優(yōu)化與訓(xùn)練詞典的獲取
2.1 引言
2.2 基線模型介紹
2.2.1 vecmap模型原理和訓(xùn)練過程
2.2.2 樞紐點(diǎn)問題和CSLS
2.2.3 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置
2.3 基線模型分析與優(yōu)化
2.3.1 vecmap模型的分析
2.3.2 關(guān)于影響因素的實(shí)驗(yàn)
2.3.3 同構(gòu)性的分析
2.3.4 優(yōu)化方式
2.4 訓(xùn)練詞典獲取
2.4.1 選取待翻譯詞條標(biāo)準(zhǔn)分析
2.4.2 每個(gè)待翻譯詞條的候選譯文個(gè)數(shù)分析
2.4.3 關(guān)于候選譯文個(gè)數(shù)的實(shí)驗(yàn)
2.5 本章小結(jié)
第3章 基于替換的跨語(yǔ)言詞向量共訓(xùn)練
3.1 引言
3.2 基于反饋機(jī)制的無(wú)監(jiān)督跨語(yǔ)言詞典抽取
3.2.1 模型框架
3.2.2 詞向量的共訓(xùn)練方法
3.3 單語(yǔ)詞向量訓(xùn)練方法
3.3.1 語(yǔ)言模型簡(jiǎn)介
3.3.2 連續(xù)詞袋模型
3.3.3 隨機(jī)負(fù)采樣算法
3.4 基于替換的共訓(xùn)練方法
3.4.1 方法原理介紹
3.4.2 具體實(shí)現(xiàn)和細(xì)節(jié)說明
3.4.3 實(shí)驗(yàn)結(jié)果及分析
3.5 本章小結(jié)
第4章 加入正則項(xiàng)約束的跨語(yǔ)言詞向量共訓(xùn)練
4.1 引言
4.2 word2vec的損失函數(shù)及梯度求導(dǎo)
4.3 加入正則項(xiàng)限制的共訓(xùn)練方法
4.3.1 模型原理
4.3.2 梯度推導(dǎo)
4.3.3 實(shí)驗(yàn)結(jié)果及分析
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文及其他成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]人工智能背景下對(duì)機(jī)器翻譯的思考[J]. 張一寧,徐林熇. 長(zhǎng)春理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2019(03)
[2]全球化趨勢(shì)與世界語(yǔ)言問題[J]. 劉汝山,王美玲. 中國(guó)海洋大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版). 2007(06)
[3]基于Web數(shù)據(jù)的特定領(lǐng)域雙語(yǔ)詞典抽取[J]. 張永臣,孫樂,李飛,李文波,西野文人,于浩,方高林. 中文信息學(xué)報(bào). 2006(02)
[4]網(wǎng)絡(luò)時(shí)代的語(yǔ)言競(jìng)爭(zhēng):文化生態(tài)學(xué)的思考[J]. 黃長(zhǎng)著. 國(guó)外社會(huì)科學(xué). 2001(01)
本文編號(hào):3691966
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3691966.html
最近更新
教材專著