基于共享語(yǔ)義空間的無(wú)監(jiān)督雙語(yǔ)詞典抽取

發(fā)布時(shí)間：2021-07-30 02:16

　　無(wú)監(jiān)督雙語(yǔ)詞典抽�。║nsupervised Bilingual Lexicon Induction）旨在不借助任何跨語(yǔ)言知識(shí)的條件下從兩種語(yǔ)言的單語(yǔ)語(yǔ)料中獲取雙語(yǔ)翻譯詞典。成功的解決這個(gè)問(wèn)題將會(huì)為資源匱乏的語(yǔ)言和很多跨語(yǔ)言自然語(yǔ)言處理任務(wù)帶來(lái)巨大的收益。近年來(lái),人們?cè)跓o(wú)監(jiān)督雙語(yǔ)詞典抽取上的研究取得了巨大的進(jìn)步,并已成功將獲取到的無(wú)監(jiān)督雙語(yǔ)詞典應(yīng)用到許多下游任務(wù)中。然而現(xiàn)有的方法并不是完美的,存在如下兩個(gè)不足:（1）現(xiàn)有模型在理論上不是最優(yōu)的,其性能也不夠理想;（2）在真實(shí)的場(chǎng)景下魯棒性不足,尤其是差異較大的語(yǔ)言對(duì)中準(zhǔn)確率較低。為了解決以上問(wèn)題,本文主要進(jìn)行了以下兩方面的工作,用來(lái)獲取更高質(zhì)量的無(wú)監(jiān)督雙語(yǔ)詞典。第一,本文提出了一種基于共享語(yǔ)義空間的無(wú)監(jiān)督雙語(yǔ)詞典抽取模型。相比于現(xiàn)有的方法,本模型不是學(xué)習(xí)一個(gè)從源語(yǔ)言詞向量空間到目標(biāo)語(yǔ)言詞向量空間的單向線性變換,而是為源語(yǔ)言和目標(biāo)語(yǔ)言學(xué)習(xí)一個(gè)共享的語(yǔ)義空間,再利用這個(gè)空間進(jìn)行無(wú)監(jiān)督雙語(yǔ)詞典抽取。理論上來(lái)說(shuō),基于共享語(yǔ)義空間的模型相比于現(xiàn)有模型表達(dá)能力更強(qiáng)。因此在這個(gè)空間中,兩個(gè)語(yǔ)言的詞向量可以更好的匹配,從而更有利于雙語(yǔ)詞典抽取。通過(guò)在8...

【文章來(lái)源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁(yè)數(shù)】：72 頁(yè)

【學(xué)位級(jí)別】：碩士

【文章目錄】：
摘要
ABSTRACT
第1章緒論
    1.1 課題背景及研究目的和意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 有監(jiān)督雙語(yǔ)詞典抽取模型
        1.2.2 半監(jiān)督雙語(yǔ)詞典抽取模型
        1.2.3 無(wú)監(jiān)督雙語(yǔ)詞典抽取模型
    1.3 本文的主要研究?jī)?nèi)容
    1.4 論文的組織結(jié)構(gòu)
第2章基線無(wú)監(jiān)督雙語(yǔ)詞典抽取模型的分析
    2.1 引言
    2.2 無(wú)監(jiān)督雙語(yǔ)詞典抽取的任務(wù)設(shè)置
        2.2.1 數(shù)據(jù)集
        2.2.2 評(píng)估方式
    2.3 基線模型
        2.3.1 預(yù)訓(xùn)練單語(yǔ)詞向量
        2.3.2 對(duì)抗訓(xùn)練
        2.3.3 迭代增強(qiáng)
    2.4 基線模型的不足
        2.4.1 同構(gòu)性假設(shè)
        2.4.2 單向的線性變換
    2.5 本章小結(jié)
第3章基于共享語(yǔ)義空間的無(wú)監(jiān)督雙語(yǔ)詞典抽取模型
    3.1 引言
    3.2 共享語(yǔ)義空間
        3.2.1 共享語(yǔ)義空間假設(shè)
        3.2.2 共享語(yǔ)義空間的優(yōu)越性分析
    3.3 基于共享語(yǔ)義空間的無(wú)監(jiān)督詞典抽取模型
        3.3.1 模型結(jié)構(gòu)
        3.3.2 模型實(shí)現(xiàn)細(xì)節(jié)
        3.3.3 模型選擇策略
        3.3.4 模型參數(shù)細(xì)節(jié)
    3.4 共享語(yǔ)義空間的有效性驗(yàn)證
        3.4.1 實(shí)驗(yàn)設(shè)置
        3.4.2 實(shí)驗(yàn)結(jié)果與分析
    3.5 本章小結(jié)
第4章無(wú)監(jiān)督雙語(yǔ)詞典抽取模型的優(yōu)化
    4.1 引言
    4.2 預(yù)訓(xùn)練單語(yǔ)詞向量
        4.2.1 詞向量的預(yù)訓(xùn)練算法
        4.2.2 預(yù)訓(xùn)練單語(yǔ)詞向量對(duì)模型性能的影響
    4.3 單語(yǔ)詞向量的預(yù)處理
        4.3.1 單語(yǔ)詞向量的常見預(yù)處理方式
        4.3.2 預(yù)處理單語(yǔ)詞向量對(duì)性能的影響
    4.4 共享語(yǔ)義空間的維度
        4.4.1 共享語(yǔ)義空間的維度設(shè)置
        4.4.2 共享語(yǔ)義空間的維度對(duì)模型性能的影響
    4.5 詞向量映射的形式
        4.5.1 正交、線性和非線性的詞向量映射模型
        4.5.2 詞向量映射的形式對(duì)無(wú)監(jiān)督雙語(yǔ)詞典抽取性能的影響
    4.6 迭代增強(qiáng)技術(shù)
        4.6.1 兩種不同的迭代增強(qiáng)技術(shù)
        4.6.2 迭代增強(qiáng)技術(shù)對(duì)模型性能的影響
    4.7 優(yōu)化的無(wú)監(jiān)督雙語(yǔ)詞典抽取模型
        4.7.1 實(shí)驗(yàn)設(shè)置
        4.7.2 性能測(cè)試與分析
    4.8 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其他成果
致謝

【參考文獻(xiàn)】：
期刊論文
[1]基于Web數(shù)據(jù)的特定領(lǐng)域雙語(yǔ)詞典抽取[J]. 張永臣,孫樂,李飛,李文波,西野文人,于浩,方高林.  中文信息學(xué)報(bào). 2006(02)

本文編號(hào)：3310480

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3310480.html

上一篇：基于大數(shù)據(jù)的用戶精準(zhǔn)定位與行為分析
下一篇：AD公司統(tǒng)計(jì)平臺(tái)分析和優(yōu)化策略

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于共享語(yǔ)義空間的無(wú)監(jiān)督雙語(yǔ)詞典抽取