面向Web的多語平行句對挖掘技術(shù)研究
本文關(guān)鍵詞:面向Web的多語平行句對挖掘技術(shù)研究
更多相關(guān)文章: 雙語平行語料 混合網(wǎng)頁 語料獲取 多語綜合檢索
【摘要】:雙語平行語料庫是統(tǒng)計(jì)機(jī)器翻譯及其一系列相關(guān)研究應(yīng)用不可或缺的重要資源。傳統(tǒng)的人工校驗(yàn)、錄入平行語料的方式不僅耗時(shí)費(fèi)力,,而且很難在有限的時(shí)間內(nèi)建立起較大規(guī)模的平行語料庫。隨著互聯(lián)網(wǎng)上各種雙語、多語網(wǎng)站的興起,很多研究人員開始研究從互聯(lián)網(wǎng)上獲取雙語平行語料。然而,以往的一些研究主要集中于從平行網(wǎng)頁(內(nèi)容互為翻譯的兩個(gè)不同語種的網(wǎng)頁)中獲取平行語料。由于平行網(wǎng)頁的稀缺性,導(dǎo)致所獲得的語料規(guī)模、領(lǐng)域覆蓋度不是很好。后來,有學(xué)者發(fā)現(xiàn)Web上存在著大量的混合網(wǎng)頁(同一網(wǎng)頁中存在互為翻譯的兩個(gè)語種的正文),且混合網(wǎng)頁中的雙語語料質(zhì)量、覆蓋領(lǐng)域都是平行網(wǎng)頁所無法比擬的。因此,本文的研究主要圍繞Web上的混合網(wǎng)頁展開,并致力于建設(shè)能夠從Web中的混合網(wǎng)頁中自動(dòng)獲取雙語平行語料的系統(tǒng)。 本文的具體研究內(nèi)容主要涉及以下幾個(gè)方面: (1)本文總結(jié)了近年來國內(nèi)外雙語平行語料庫建設(shè)以及雙語平行語料庫建設(shè)方法的研究現(xiàn)狀。目前,國內(nèi)雙語平行語料庫建設(shè)和研究工作的主要側(cè)重于語料的后期處理,如語料庫的加工標(biāo)注、翻譯知識獲取等方面。同時(shí),已有的平行語料庫集中于中英雙語平行語料庫,面向大規(guī)模原始多語種的雙語平行語料庫的建設(shè)并沒有得到充分重視。 (2)本文在對現(xiàn)有雙語平行語料庫建設(shè)方法進(jìn)行理論分析的基礎(chǔ)上,實(shí)現(xiàn)了從Web自動(dòng)挖掘平行語料的系統(tǒng)。該系統(tǒng)以互聯(lián)網(wǎng)上廣泛存在的具有較高研究價(jià)值的雙語混合網(wǎng)頁為主要的雙語語料來源,其主要技術(shù)難點(diǎn)在于候選網(wǎng)頁獲取、雙語混合網(wǎng)頁檢測、網(wǎng)頁正文解析、平行句對齊等。本系統(tǒng)采用借助搜索引擎的檢測與下載同步進(jìn)行的候選網(wǎng)頁獲取方法,以網(wǎng)頁內(nèi)不同語種正文比例進(jìn)行混合網(wǎng)頁檢測,使用標(biāo)簽分析的方法進(jìn)行網(wǎng)頁正文解析,平行句對齊則是采用融合了HTML標(biāo)簽特征的句對齊方法。通過實(shí)驗(yàn)檢驗(yàn),本系統(tǒng)雙語混合網(wǎng)頁檢測準(zhǔn)確率達(dá)到95%以上;網(wǎng)頁正文解析準(zhǔn)確率達(dá)到88%以上;平行句對齊準(zhǔn)確率達(dá)到90%以上。 (3)本文結(jié)合所獲取的雙語語料,完成了基于Lucene的多語綜合檢索系統(tǒng)。該系統(tǒng)以英語為中間語言進(jìn)行用戶查詢的處理,經(jīng)過簡單測試,該系統(tǒng)返回的檢索結(jié)果基本符合要求。
【關(guān)鍵詞】:雙語平行語料 混合網(wǎng)頁 語料獲取 多語綜合檢索
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
【目錄】:
- 摘要4-5
- Abstract5-9
- 第1章 緒論9-15
- 1.1 課題背景9-10
- 1.2 國內(nèi)外相關(guān)研究現(xiàn)狀10-13
- 1.3 研究內(nèi)容及章節(jié)安排13-15
- 第2章 候選網(wǎng)頁獲取及正文解析15-35
- 2.1 引言15-16
- 2.2 候選網(wǎng)頁集合獲取16-21
- 2.3 網(wǎng)頁正文解析21-33
- 2.4 本章小結(jié)33-35
- 第3章 混合網(wǎng)頁檢測35-44
- 3.1 引言35
- 3.2 語種識別35-38
- 3.3 網(wǎng)頁正文互譯檢測38-42
- 3.4 本章小結(jié)42-44
- 第4章 多特征平行句對齊44-51
- 4.1 引言44-45
- 4.2 平行句對齊方法45-48
- 4.3 實(shí)驗(yàn)對比與分析48-49
- 4.4 本章小結(jié)49-51
- 第5章 多語綜合檢索系統(tǒng)51-61
- 5.1 引言51
- 5.2 LUCENE 簡介51-53
- 5.3 系統(tǒng)設(shè)計(jì)框架53-57
- 5.4 實(shí)驗(yàn)結(jié)果與分析57-60
- 5.5 本章小結(jié)60-61
- 結(jié)論61-62
- 參考文獻(xiàn)62-66
- 攻讀碩士學(xué)位期間發(fā)表的論文及其它成果66-68
- 致謝68
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李維剛;劉挺;張宇;李生;;基于長度和位置信息的雙語句子對齊方法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2006年05期
2 張霞亮;陳家駿;;基于邏輯行和最大接納距離的網(wǎng)頁正文抽取[J];計(jì)算機(jī)工程與應(yīng)用;2009年25期
3 聶建云,陳江;利用平行網(wǎng)頁建立中英文統(tǒng)計(jì)翻譯模型[J];中文信息學(xué)報(bào);2001年01期
4 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期
5 周佳穎;朱珍民;高曉芳;;基于統(tǒng)計(jì)與正文特征的中文網(wǎng)頁正文抽取研究[J];中文信息學(xué)報(bào);2009年05期
6 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語混合網(wǎng)頁識別新方法[J];中文信息學(xué)報(bào);2011年01期
7 才讓加;;面向自然語言處理的大規(guī)模漢藏(藏漢)雙語語料庫構(gòu)建技術(shù)研究[J];中文信息學(xué)報(bào);2011年06期
8 黃立波;朱志瑜;;國內(nèi)英漢雙語平行語料庫建構(gòu)與研究現(xiàn)狀及展望[J];當(dāng)代外語研究;2013年01期
9 熊忠陽;藺顯強(qiáng);張玉芳;牙漫;;結(jié)合網(wǎng)頁結(jié)構(gòu)與文本特征的正文提取方法[J];計(jì)算機(jī)工程;2013年12期
10 邵振凱;;網(wǎng)頁信息提取技術(shù)[J];計(jì)算機(jī)技術(shù) 與發(fā)展;2013年09期
本文編號:908856
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/908856.html