雙語最大名詞短語分析及應(yīng)用研究
發(fā)布時(shí)間:2022-01-02 08:21
本文主要研究雙語最大名詞短語的識(shí)別對(duì)齊及其在統(tǒng)計(jì)機(jī)器翻譯中的應(yīng)用。機(jī)器翻譯本質(zhì)上是個(gè)語言問題,其最終解決也必須依靠語言學(xué)知識(shí)的運(yùn)用。研究如何更有效地在統(tǒng)計(jì)機(jī)器翻譯中融入有價(jià)值的句法層面的語言學(xué)知識(shí),對(duì)于推動(dòng)統(tǒng)計(jì)機(jī)器翻譯的發(fā)展,具有重要的理論意義和應(yīng)用價(jià)值。本文針對(duì)漢-英語言對(duì),在考察了具有豐富句法和語義信息的漢英最大名詞短語的結(jié)構(gòu)特點(diǎn)后,從統(tǒng)計(jì)機(jī)器翻譯的實(shí)際應(yīng)用出發(fā),致力于最大名詞短語在雙語中的擴(kuò)展—雙語最大名詞短語的識(shí)別和對(duì)齊的研究,并論證在統(tǒng)計(jì)翻譯模型中融入雙語最大名詞短語的可行性。研究?jī)?nèi)容主要包含以下四個(gè)部分:⑴提出并研究引入混合特征的漢語最大名詞短語雙向標(biāo)注融合識(shí)別算法以漢語最大名詞短語識(shí)別為研究任務(wù),在分析現(xiàn)有方法的基礎(chǔ)上,從漢語的語言學(xué)特殊性以及基于支持向量機(jī)的序列標(biāo)注算法的特點(diǎn)出發(fā),考查了基于混合特征的融合算法的適應(yīng)性。通過理論分析和實(shí)驗(yàn)證明,采用詞和基本組塊混合標(biāo)注單元的標(biāo)注方法對(duì)漢語最大名詞短語的識(shí)別是有效的,并且其正反向識(shí)別結(jié)果具有一定的互補(bǔ)性,在此基礎(chǔ)上提出的基于“邊界分歧”的雙向序列標(biāo)注融合算法能發(fā)掘雙向識(shí)別的互補(bǔ)性,并達(dá)到較高的融合精度,F-1值達(dá)到88.24...
【文章來源】:北京理工大學(xué)北京市 211工程院校 985工程院校
【文章頁數(shù)】:125 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 論文研究的目的和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展趨勢(shì)
1.2.1 最大名詞短語的研究現(xiàn)狀及發(fā)展趨勢(shì)
1.2.2 統(tǒng)計(jì)機(jī)器翻譯的研究現(xiàn)狀及發(fā)展趨勢(shì)
1.3 論文的研究?jī)?nèi)容
1.4 論文的結(jié)構(gòu)安排
第2章 雙語最大名詞短語簡(jiǎn)析
2.1 漢英雙語最大名詞短語特性
2.2 雙語最大名詞短語的定義
2.3 雙語最大名詞短語識(shí)別對(duì)齊的問題描述和性能評(píng)價(jià)
2.3.1 問題描述
2.3.2 性能評(píng)價(jià)
2.4 雙語最大名詞短語的中心詞
2.5 漢英最大名詞短語識(shí)別的互補(bǔ)性
本章小結(jié)
第3章 引入混合特征的最大名詞短語雙向標(biāo)注融合算法
3.1 機(jī)器學(xué)習(xí)算法
3.1.1 支持向量機(jī)
3.1.2 條件隨機(jī)場(chǎng)
3.2 基于“邊界分歧”的序列標(biāo)注融合算法
3.3 特征選擇
3.3.1 詞層面的特征
3.3.2 基本組塊層面的特征
3.3.3 詞和基本組塊混合特征
3.3.4 標(biāo)點(diǎn)分類特征
3.4 實(shí)驗(yàn)結(jié)果及分析
3.4.1 實(shí)驗(yàn)設(shè)置
3.4.2 特征選擇實(shí)驗(yàn)
3.4.3 雙向融合實(shí)驗(yàn)
3.4.4 比較實(shí)驗(yàn)
本章小結(jié)
第4章 雙語最大名詞短語識(shí)別對(duì)齊
4.1 基于句法分析的雙語最大名詞短語獲取
4.1.1 基于雙端句法分析的最大名詞短語對(duì)獲取
4.1.2 基于單端句法分析的最大名詞短語對(duì)獲取
4.2 一體化的雙語最大名詞短語識(shí)別對(duì)齊算法
4.2.1 粗識(shí)別對(duì)齊
4.2.2 擴(kuò)展候選最大名詞短語對(duì)
4.2.3 單語句法信任度
4.2.4 雙語對(duì)齊信任度
4.2.5 最優(yōu)假設(shè)搜索算法
4.3 實(shí)驗(yàn)結(jié)果及分析
4.3.1 實(shí)驗(yàn)設(shè)置
4.3.2 實(shí)驗(yàn)結(jié)果與分析
本章小結(jié)
第5章 雙語協(xié)同訓(xùn)練的最大名詞短語識(shí)別算法
5.1 雙語協(xié)同訓(xùn)練算法
5.2 雙語對(duì)齊標(biāo)注一致率
5.3 標(biāo)記投射修正模型
5.3.1 投射最大名詞短語擴(kuò)展
5.3.2 最優(yōu)假設(shè)搜索
5.4 實(shí)驗(yàn)結(jié)果及分析
5.4.1 實(shí)驗(yàn)設(shè)置
5.4.2 Baseline實(shí)驗(yàn)
5.4.3 雙語Co-training算法實(shí)驗(yàn)
5.4.4 增量標(biāo)注選擇策略比較
本章小結(jié)
第6章 融入雙語最大名詞短語的機(jī)器翻譯系統(tǒng)及實(shí)現(xiàn)
6.1 短語翻譯模型的特征
6.2 融入雙語最大名詞短語的翻譯模型
6.2.1 Method-I
6.2.2 Method-II
6.2.3 Method-III
6.3 實(shí)驗(yàn)結(jié)果及分析
6.3.1 實(shí)驗(yàn)設(shè)置
6.3.2 Method-I實(shí)驗(yàn)
6.3.3 Method-II和Method-III實(shí)驗(yàn)
本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表論文與研究成果清單
致謝
作者簡(jiǎn)介
【參考文獻(xiàn)】:
期刊論文
[1]基于統(tǒng)計(jì)學(xué)習(xí)模型的句法分析方法綜述[J]. 吳偉成,周俊生,曲維光. 中文信息學(xué)報(bào). 2013(03)
[2]漢語組塊分析研究綜述[J]. 李業(yè)剛,黃河燕. 中文信息學(xué)報(bào). 2013(03)
[3]面向機(jī)器翻譯的英語詞性標(biāo)注研究及其應(yīng)用(英文)[J]. 馬建軍,黃德根,劉海霞,盛文鳳. 中國(guó)通信. 2012(03)
[4]英語功能名詞短語研究及其應(yīng)用[J]. 馬建軍,黃德根. 大連理工大學(xué)學(xué)報(bào). 2012(01)
[5]基于句法的統(tǒng)計(jì)機(jī)器翻譯模型與方法[J]. 劉群. 中文信息學(xué)報(bào). 2011(06)
[6]基于條件隨機(jī)場(chǎng)模型的漢語功能塊自動(dòng)標(biāo)注[J]. 李國(guó)臣,王瑞波,李濟(jì)洪. 計(jì)算機(jī)研究與發(fā)展. 2010(02)
[7]漢語塊分析評(píng)測(cè)任務(wù)設(shè)計(jì)[J]. 周強(qiáng),李玉梅. 中文信息學(xué)報(bào). 2010(01)
[8]基于雙向標(biāo)注融合的漢語最長(zhǎng)短語識(shí)別方法[J]. 鑒萍,宗成慶. 智能系統(tǒng)學(xué)報(bào). 2009(05)
[9]最長(zhǎng)名詞短語識(shí)別研究[J]. 錢小飛. 現(xiàn)代語文(語言研究版). 2009(07)
[10]分布式策略與CRFs相結(jié)合識(shí)別漢語組塊[J]. 黃德根,于靜. 中文信息學(xué)報(bào). 2009(01)
博士論文
[1]面向機(jī)器翻譯的英語功能名詞短語識(shí)別研究[D]. 馬建軍.大連理工大學(xué) 2012
[2]基于統(tǒng)計(jì)學(xué)習(xí)的中文組塊分析技術(shù)研究[D]. 孫廣路.哈爾濱工業(yè)大學(xué) 2008
碩士論文
[1]中文最長(zhǎng)名詞短語識(shí)別研究[D]. 王月穎.哈爾濱工業(yè)大學(xué) 2007
本文編號(hào):3563835
【文章來源】:北京理工大學(xué)北京市 211工程院校 985工程院校
【文章頁數(shù)】:125 頁
【學(xué)位級(jí)別】:博士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 論文研究的目的和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展趨勢(shì)
1.2.1 最大名詞短語的研究現(xiàn)狀及發(fā)展趨勢(shì)
1.2.2 統(tǒng)計(jì)機(jī)器翻譯的研究現(xiàn)狀及發(fā)展趨勢(shì)
1.3 論文的研究?jī)?nèi)容
1.4 論文的結(jié)構(gòu)安排
第2章 雙語最大名詞短語簡(jiǎn)析
2.1 漢英雙語最大名詞短語特性
2.2 雙語最大名詞短語的定義
2.3 雙語最大名詞短語識(shí)別對(duì)齊的問題描述和性能評(píng)價(jià)
2.3.1 問題描述
2.3.2 性能評(píng)價(jià)
2.4 雙語最大名詞短語的中心詞
2.5 漢英最大名詞短語識(shí)別的互補(bǔ)性
本章小結(jié)
第3章 引入混合特征的最大名詞短語雙向標(biāo)注融合算法
3.1 機(jī)器學(xué)習(xí)算法
3.1.1 支持向量機(jī)
3.1.2 條件隨機(jī)場(chǎng)
3.2 基于“邊界分歧”的序列標(biāo)注融合算法
3.3 特征選擇
3.3.1 詞層面的特征
3.3.2 基本組塊層面的特征
3.3.3 詞和基本組塊混合特征
3.3.4 標(biāo)點(diǎn)分類特征
3.4 實(shí)驗(yàn)結(jié)果及分析
3.4.1 實(shí)驗(yàn)設(shè)置
3.4.2 特征選擇實(shí)驗(yàn)
3.4.3 雙向融合實(shí)驗(yàn)
3.4.4 比較實(shí)驗(yàn)
本章小結(jié)
第4章 雙語最大名詞短語識(shí)別對(duì)齊
4.1 基于句法分析的雙語最大名詞短語獲取
4.1.1 基于雙端句法分析的最大名詞短語對(duì)獲取
4.1.2 基于單端句法分析的最大名詞短語對(duì)獲取
4.2 一體化的雙語最大名詞短語識(shí)別對(duì)齊算法
4.2.1 粗識(shí)別對(duì)齊
4.2.2 擴(kuò)展候選最大名詞短語對(duì)
4.2.3 單語句法信任度
4.2.4 雙語對(duì)齊信任度
4.2.5 最優(yōu)假設(shè)搜索算法
4.3 實(shí)驗(yàn)結(jié)果及分析
4.3.1 實(shí)驗(yàn)設(shè)置
4.3.2 實(shí)驗(yàn)結(jié)果與分析
本章小結(jié)
第5章 雙語協(xié)同訓(xùn)練的最大名詞短語識(shí)別算法
5.1 雙語協(xié)同訓(xùn)練算法
5.2 雙語對(duì)齊標(biāo)注一致率
5.3 標(biāo)記投射修正模型
5.3.1 投射最大名詞短語擴(kuò)展
5.3.2 最優(yōu)假設(shè)搜索
5.4 實(shí)驗(yàn)結(jié)果及分析
5.4.1 實(shí)驗(yàn)設(shè)置
5.4.2 Baseline實(shí)驗(yàn)
5.4.3 雙語Co-training算法實(shí)驗(yàn)
5.4.4 增量標(biāo)注選擇策略比較
本章小結(jié)
第6章 融入雙語最大名詞短語的機(jī)器翻譯系統(tǒng)及實(shí)現(xiàn)
6.1 短語翻譯模型的特征
6.2 融入雙語最大名詞短語的翻譯模型
6.2.1 Method-I
6.2.2 Method-II
6.2.3 Method-III
6.3 實(shí)驗(yàn)結(jié)果及分析
6.3.1 實(shí)驗(yàn)設(shè)置
6.3.2 Method-I實(shí)驗(yàn)
6.3.3 Method-II和Method-III實(shí)驗(yàn)
本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表論文與研究成果清單
致謝
作者簡(jiǎn)介
【參考文獻(xiàn)】:
期刊論文
[1]基于統(tǒng)計(jì)學(xué)習(xí)模型的句法分析方法綜述[J]. 吳偉成,周俊生,曲維光. 中文信息學(xué)報(bào). 2013(03)
[2]漢語組塊分析研究綜述[J]. 李業(yè)剛,黃河燕. 中文信息學(xué)報(bào). 2013(03)
[3]面向機(jī)器翻譯的英語詞性標(biāo)注研究及其應(yīng)用(英文)[J]. 馬建軍,黃德根,劉海霞,盛文鳳. 中國(guó)通信. 2012(03)
[4]英語功能名詞短語研究及其應(yīng)用[J]. 馬建軍,黃德根. 大連理工大學(xué)學(xué)報(bào). 2012(01)
[5]基于句法的統(tǒng)計(jì)機(jī)器翻譯模型與方法[J]. 劉群. 中文信息學(xué)報(bào). 2011(06)
[6]基于條件隨機(jī)場(chǎng)模型的漢語功能塊自動(dòng)標(biāo)注[J]. 李國(guó)臣,王瑞波,李濟(jì)洪. 計(jì)算機(jī)研究與發(fā)展. 2010(02)
[7]漢語塊分析評(píng)測(cè)任務(wù)設(shè)計(jì)[J]. 周強(qiáng),李玉梅. 中文信息學(xué)報(bào). 2010(01)
[8]基于雙向標(biāo)注融合的漢語最長(zhǎng)短語識(shí)別方法[J]. 鑒萍,宗成慶. 智能系統(tǒng)學(xué)報(bào). 2009(05)
[9]最長(zhǎng)名詞短語識(shí)別研究[J]. 錢小飛. 現(xiàn)代語文(語言研究版). 2009(07)
[10]分布式策略與CRFs相結(jié)合識(shí)別漢語組塊[J]. 黃德根,于靜. 中文信息學(xué)報(bào). 2009(01)
博士論文
[1]面向機(jī)器翻譯的英語功能名詞短語識(shí)別研究[D]. 馬建軍.大連理工大學(xué) 2012
[2]基于統(tǒng)計(jì)學(xué)習(xí)的中文組塊分析技術(shù)研究[D]. 孫廣路.哈爾濱工業(yè)大學(xué) 2008
碩士論文
[1]中文最長(zhǎng)名詞短語識(shí)別研究[D]. 王月穎.哈爾濱工業(yè)大學(xué) 2007
本文編號(hào):3563835
本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/3563835.html
最近更新
教材專著