文言文翻譯及閱讀理解關(guān)鍵技術(shù)的研究
本文關(guān)鍵詞:文言文翻譯及閱讀理解關(guān)鍵技術(shù)的研究
更多相關(guān)文章: 正文提取 句子對(duì)齊 古漢語(yǔ)翻譯 閱讀理解
【摘要】:在漫長(zhǎng)的歷史長(zhǎng)河中,古漢語(yǔ)書(shū)寫(xiě)的典籍汗牛充棟。近年來(lái),統(tǒng)計(jì)機(jī)器翻譯技術(shù)得到了很大發(fā)展。Moses等開(kāi)源的翻譯工具只需要雙語(yǔ)平行句對(duì)即可訓(xùn)練出翻譯系統(tǒng)。同時(shí),其他自然語(yǔ)言處理技術(shù)的發(fā)展更是激勵(lì)著人們解決現(xiàn)實(shí)的人工智能問(wèn)題。本課題的目的在于探索文言文翻譯及閱讀理解答題的關(guān)鍵技術(shù)。為了解決這個(gè)任務(wù),我們的研究包含以下幾個(gè)方面。(1)古漢語(yǔ)現(xiàn)代漢語(yǔ)平行語(yǔ)料庫(kù)的獲取和加工。本文利用互聯(lián)網(wǎng)上存在的古漢語(yǔ)現(xiàn)代漢語(yǔ)平行網(wǎng)頁(yè)獲取古漢語(yǔ)現(xiàn)代漢語(yǔ)平行語(yǔ)料庫(kù)。本文將平行語(yǔ)料的獲取分為兩個(gè)階段,第一個(gè)階段是獲取網(wǎng)頁(yè)正文,第二個(gè)階段是句子對(duì)齊。通過(guò)對(duì)基于DOM樹(shù)的文本密度的方法進(jìn)行改進(jìn),我們提出基于DOM樹(shù)的標(biāo)點(diǎn)密度的方法。在獲取古漢語(yǔ)現(xiàn)代漢語(yǔ)網(wǎng)頁(yè)正文時(shí),我們的方法F值得到了一定的提升。在句子對(duì)齊時(shí),我們引入句子長(zhǎng)度、匹配模式、同源率,使用對(duì)數(shù)線(xiàn)性模型對(duì)句子得分進(jìn)行建模。通過(guò)不同的框架,我們引入了10個(gè)同源率。和基于長(zhǎng)度的句子對(duì)齊方法相比,我們的方法使結(jié)果得到了較大的提升。(2)基于Moses的古漢語(yǔ)和現(xiàn)代漢語(yǔ)翻譯系統(tǒng)的優(yōu)化。本文在獲取了古漢語(yǔ)現(xiàn)代漢語(yǔ)平行句對(duì)后,對(duì)翻譯系統(tǒng)的優(yōu)化進(jìn)行研究。我們使用Moses從語(yǔ)言模型和翻譯模型兩個(gè)方面進(jìn)行優(yōu)化。在語(yǔ)言模型方面,我們從語(yǔ)料、平滑方法、模型混合等方面進(jìn)行分析。在翻譯模型方面,我們考慮分詞對(duì)翻譯模型的影響。我們的方法使翻譯系統(tǒng)性能得到了較大幅度的提升。(3)文言文閱讀理解答題技術(shù)的研究。對(duì)選中的三類(lèi)題進(jìn)行答題技術(shù)的研究。將選項(xiàng)準(zhǔn)確性抽象為某種相似度,最后依據(jù)相似度的大小確定答案。對(duì)于翻譯辨析題和概括分析題,依據(jù)詞袋、最長(zhǎng)公共子串、編輯距離、余弦相似度、N-gram等設(shè)計(jì)了24種相似度。對(duì)于詞意辨析,依據(jù)詞袋、短語(yǔ)翻譯表、詞意相似度等設(shè)計(jì)了7種相似度。使用相似度答題取得了不錯(cuò)的答題準(zhǔn)確率。對(duì)于詞意辨析題,依據(jù)相似度獲取了8個(gè)特征,使用svm-rank進(jìn)行三重交叉校驗(yàn),得到了更高的答題準(zhǔn)確率。
【關(guān)鍵詞】:正文提取 句子對(duì)齊 古漢語(yǔ)翻譯 閱讀理解
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:H085
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 緒論9-18
- 1.1 本文的研究背景和意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-16
- 1.2.1 正文提取技術(shù)10-13
- 1.2.2 句子對(duì)齊技術(shù)13-14
- 1.2.3 機(jī)器翻譯技術(shù)14-15
- 1.2.4 閱讀理解答題技術(shù)15-16
- 1.3 研究?jī)?nèi)容及章節(jié)安排16-18
- 第2章 古漢語(yǔ)現(xiàn)代漢語(yǔ)平行語(yǔ)料庫(kù)的獲取和加工18-32
- 2.1 引言18
- 2.2 古漢語(yǔ)現(xiàn)代漢語(yǔ)網(wǎng)頁(yè)的獲取和分析18-20
- 2.2.1 古漢語(yǔ)現(xiàn)代漢語(yǔ)網(wǎng)頁(yè)的獲取19-20
- 2.2.2 文言文資源的分析20
- 2.3 基于DO M樹(shù)的標(biāo)點(diǎn)密度的正文提取20-27
- 2.3.1 DO M介紹20-21
- 2.3.2 文本密度21-22
- 2.3.3 復(fù)雜文本密度22-23
- 2.3.4 標(biāo)點(diǎn)密度23-24
- 2.3.5 密度和24
- 2.3.6 閾值及正文提取算法24-25
- 2.3.7 正文提取實(shí)驗(yàn)結(jié)果和分析25-27
- 2.4 多特征融合的古漢語(yǔ)現(xiàn)代漢語(yǔ)的句子對(duì)齊27-31
- 2.4.1 長(zhǎng)度特征27-28
- 2.4.2 匹配模式特征28
- 2.4.3 同源詞特征28-29
- 2.4.4 多特征融合的句對(duì)得分29-30
- 2.4.5 句子對(duì)齊實(shí)驗(yàn)結(jié)果和分析30-31
- 2.5 本章小結(jié)31-32
- 第3章 基于MOSES的古漢語(yǔ)現(xiàn)代漢語(yǔ)翻譯系統(tǒng)的優(yōu)化32-39
- 3.1 引言32-33
- 3.2 語(yǔ)言模型的優(yōu)化33-36
- 3.2.1 語(yǔ)言模型介紹33
- 3.2.2 多種目標(biāo)語(yǔ)料的語(yǔ)言模型33-34
- 3.2.3 混合語(yǔ)言模型34-36
- 3.2.4 實(shí)驗(yàn)結(jié)果和分析36
- 3.3 翻譯模型的優(yōu)化36-38
- 3.3.1 字-字翻譯模型36-37
- 3.3.2 字-詞翻譯模型37
- 3.3.3 字-字詞混合翻譯模型37
- 3.3.4 詞-詞翻譯模型37-38
- 3.3.5 實(shí)驗(yàn)結(jié)果和分析38
- 3.4 本章小結(jié)38-39
- 第4章 高考語(yǔ)文文言文閱讀理解答題技術(shù)的研究39-51
- 4.1 高考語(yǔ)文文言文閱讀理解題型調(diào)研39-43
- 4.1.1 閱讀理解答題介紹41-42
- 4.1.2 文言文閱讀理解的特殊性42-43
- 4.1.3 三類(lèi)題的一般性分析43
- 4.2 實(shí)驗(yàn)數(shù)據(jù)及實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)43-44
- 4.3 三類(lèi)題的答題技術(shù)研究44-50
- 4.3.1 翻譯辨析題答題技術(shù)的研究44-48
- 4.3.2 詞意辨析題答題技術(shù)的研究48-49
- 4.3.3 概括分析題答題技術(shù)的研究49
- 4.3.4 實(shí)驗(yàn)結(jié)果對(duì)比分析49-50
- 4.4 本章小結(jié)50-51
- 結(jié)論51-53
- 參考文獻(xiàn)53-59
- 攻讀碩士學(xué)位期間發(fā)表的論文59-61
- 致謝61
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 焦紅波,車(chē)玉曉;從翻譯系統(tǒng)理論看《湯姆叔叔的小屋》的不同譯本[J];華北水利水電學(xué)院學(xué)報(bào)(社科版);2005年04期
2 T.W.卡爾弗特 ,J.A.蘭迪斯 ,J.查普曼 ,劉建一;計(jì)算機(jī)與舞譜[J];文藝研究;1985年06期
3 王爾康;采用世界語(yǔ)的翻譯系統(tǒng)[J];上?萍挤g;1987年06期
4 馮志偉;網(wǎng)絡(luò)翻譯系統(tǒng)市場(chǎng)潛力很大[J];中文信息;1997年06期
5 王樹(shù)槐;翻譯系統(tǒng)中信息傳播的優(yōu)化──兼論兩級(jí)翻譯學(xué)的建立[J];華中理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);1999年01期
6 范;;《雅信譯霸英漢翻譯系統(tǒng)98》[J];科技潮;1998年07期
7 姜一平;;美國(guó)電腦翻譯研究現(xiàn)狀[J];國(guó)外語(yǔ)言學(xué);1986年02期
8 長(zhǎng)尾真;楊平;;自動(dòng)翻譯[J];計(jì)算機(jī)科學(xué);1985年02期
9 幼秧;“石油科技文獻(xiàn)計(jì)算機(jī)翻譯系統(tǒng)研究”獲得成功[J];中國(guó)科技翻譯;1999年03期
10 張俐,李晶皎,趙欣,王寶庫(kù);開(kāi)放式滿(mǎn)漢輔助翻譯系統(tǒng)的研究和實(shí)現(xiàn)[J];東北大學(xué)學(xué)報(bào);1999年06期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前8條
1 蘇牧;余勝民;韓兆濱;張樹(shù)武;徐波;;一種基于電話(huà)的中英雙向翻譯系統(tǒng)[A];第七屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議(NCMMSC7)論文集[C];2003年
2 曾華琳;李堂秋;曹冬林;;機(jī)器輔助翻譯系統(tǒng)用詞典的管理[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年
3 潘治文;李怡平;;一個(gè)基于語(yǔ)料庫(kù)的葡中翻譯系統(tǒng)[A];信息科學(xué)與微電子技術(shù):中國(guó)科協(xié)第三屆青年學(xué)術(shù)年會(huì)論文集[C];1998年
4 譚詠梅;王樅;王小捷;鐘義信;;基于實(shí)例的機(jī)器輔助寫(xiě)作翻譯系統(tǒng)[A];2006年首屆ICT大會(huì)信息、知識(shí)、智能及其轉(zhuǎn)換理論第一次高峰論壇會(huì)議論文集[C];2006年
5 吐?tīng)柛?依布拉音;艾爾肯.伊米爾;阿布力米提.阿不都熱依木;;基于翻譯記憶庫(kù)與基于規(guī)則的漢維-維漢機(jī)器輔助翻譯系統(tǒng)方法與框架研究[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
6 謝曉方;喬勇軍;;基于增強(qiáng)現(xiàn)實(shí)技術(shù)的翻譯系統(tǒng)建模技術(shù)研究[A];第五屆全國(guó)仿真器學(xué)術(shù)會(huì)論文集[C];2004年
7 方李成;宗成慶;;基于層次短語(yǔ)的統(tǒng)計(jì)翻譯系統(tǒng)中規(guī)則冗余的高效約束方法[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
8 陳振標(biāo);黃泰翼;徐波;;語(yǔ)音翻譯中的口音建模與處理[A];第六屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集[C];2001年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前6條
1 楊文利;中國(guó)口語(yǔ)翻譯系統(tǒng)在國(guó)際評(píng)測(cè)中奪魁[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2007年
2 李大慶;CASIA口語(yǔ)翻譯系統(tǒng)在國(guó)際評(píng)測(cè)中奪魁[N];科技日?qǐng)?bào);2007年
3 ;輕松跨越語(yǔ)言障礙[N];中國(guó)電腦教育報(bào);2004年
4 馮沙;俄漢智能輔助翻譯系統(tǒng)問(wèn)世[N];科技日?qǐng)?bào);2002年
5 記者 王艷紅;德推出同步口語(yǔ)翻譯系統(tǒng)[N];新華每日電訊;2001年
6 L&H公司高級(jí)副總裁及亞太區(qū)總裁 胡國(guó)輝博士;自然語(yǔ)言技術(shù)支持新一代語(yǔ)音上網(wǎng)[N];中國(guó)計(jì)算機(jī)報(bào);2000年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 姜海濤;內(nèi)核級(jí)二進(jìn)制翻譯系統(tǒng)設(shè)計(jì)及性能優(yōu)化[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
2 馬湘寧;二進(jìn)制翻譯關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 柳賢花;古典漢文翻譯系統(tǒng)標(biāo)準(zhǔn)化方案研究[D];延邊大學(xué);2012年
2 陸少斌;口語(yǔ)翻譯系統(tǒng)[D];北京工業(yè)大學(xué);2003年
3 徐帆;軟硬協(xié)同動(dòng)態(tài)二進(jìn)制翻譯系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
4 李曉龍;基于多核平臺(tái)的多線(xiàn)程動(dòng)態(tài)二進(jìn)制翻譯系統(tǒng)優(yōu)化框架[D];上海交通大學(xué);2010年
5 吳浩;二進(jìn)制翻譯系統(tǒng)QEMU的優(yōu)化技術(shù)[D];上海交通大學(xué);2007年
6 車(chē)玉曉;從Uncle Tom's Cabin的不同譯本看翻譯系統(tǒng)理論[D];鄭州大學(xué);2005年
7 馬舒蘭;動(dòng)態(tài)二進(jìn)制翻譯中的TCache的設(shè)計(jì)與實(shí)現(xiàn)[D];上海交通大學(xué);2008年
8 王清;基于Globish的規(guī)范子集英漢翻譯系統(tǒng)研究[D];上海師范大學(xué);2008年
9 衡良;基于神經(jīng)網(wǎng)絡(luò)的數(shù)字化工藝設(shè)計(jì)卡片翻譯系統(tǒng)研究[D];四川大學(xué);2006年
10 屈慶琳;嵌入式語(yǔ)音翻譯系統(tǒng)的研究[D];安徽理工大學(xué);2012年
,本文編號(hào):677666
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/677666.html