一種有效的基于Web的雙語翻譯對(duì)獲取方法
[Abstract]:The translation of nomenclature and new words has an important effect on the performance of machine translation, cross-language retrieval, automatic question and answer system, but these translations are difficult to obtain from the existing translation dictionaries. This paper presents a method for automatic acquisition of high quality bilingual translation pairs from Chinese web pages. This method utilizes the characteristics of bilingual translation pairs in web pages and uses statistical discriminant model to automatically mine the bilingual translation pairs that exist in web sites. The experimental results show that the correct rate of TOP1 is 82.1% and the accuracy rate of TOP3 is 94.5%. A method of using search engine to verify candidate translation is also proposed in this paper. The accuracy of TOP1 can be improved to 84.3%.
【作者單位】: 北京大學(xué)軟件與微電子學(xué)院;中國科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(60603095)
【分類號(hào)】:TP391.2
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 張永臣;孫樂;李飛;李文波;西野文人;于浩;方高林;;基于Web數(shù)據(jù)的特定領(lǐng)域雙語詞典抽取[J];中文信息學(xué)報(bào);2006年02期
【共引文獻(xiàn)】
相關(guān)期刊論文 前4條
1 周宥良;狄萍;貢正仙;周國棟;;插入語分類抽取研究方法探討[J];計(jì)算機(jī)應(yīng)用與軟件;2011年04期
2 王東波;謝靖;;英漢對(duì)照語言對(duì)自動(dòng)獲取[J];圖書情報(bào)工作;2010年17期
3 王東波;蘇新寧;;英漢雙語句子級(jí)平行語料庫自動(dòng)構(gòu)建[J];現(xiàn)代圖書情報(bào)技術(shù);2009年12期
4 張寧;;自然語言處理中基于模板的漢語語句改寫的方法[J];職業(yè)技術(shù);2012年07期
相關(guān)會(huì)議論文 前2條
1 郭稷;呂雅娟;劉群;;一種有效的基于Web的雙語翻譯對(duì)獲取方法[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年
2 章成志;王惠臨;;基于專業(yè)領(lǐng)域平行語料的雙語核心術(shù)語抽取研究[A];中國計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
相關(guān)碩士學(xué)位論文 前9條
1 桑亞輝;基于模板方法的漢語語句自動(dòng)改寫研究[D];解放軍信息工程大學(xué);2008年
2 王超;大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中的平行句對(duì)抽取[D];哈爾濱工業(yè)大學(xué);2011年
3 丁康健;考試系統(tǒng)中智能化輔助閱卷技術(shù)研究[D];哈爾濱工程大學(xué);2011年
4 劉颯;專業(yè)領(lǐng)域可比語料的構(gòu)建與評(píng)價(jià)研究[D];南京理工大學(xué);2012年
5 南鉉國;基于語句相似度計(jì)算的主觀題自動(dòng)評(píng)分技術(shù)研究[D];延邊大學(xué);2007年
6 廖曉玲;基于Web論文庫的學(xué)術(shù)領(lǐng)域雙語資源研究[D];天津大學(xué);2008年
7 張瑞;英語在線考試及批閱系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];重慶大學(xué);2009年
8 周宥良;基于WEB的雙語翻譯對(duì)抽取方法研究[D];蘇州大學(xué);2010年
9 徐華;基于可比較語料庫的中英文詞表構(gòu)建研究[D];蘇州大學(xué);2012年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 孫樂,金友兵,杜林,孫玉芳;平行語料庫中雙語術(shù)語詞典的自動(dòng)抽取[J];中文信息學(xué)報(bào);2000年06期
2 王斌;基于未對(duì)齊漢英雙語庫的翻譯對(duì)抽取[J];中文信息學(xué)報(bào);2000年06期
3 許勇,荀恩東,賈愛平,宋柔;基于互連網(wǎng)的術(shù)語定義獲取系統(tǒng)[J];中文信息學(xué)報(bào);2004年04期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 龍艷花;郭武;戴禮榮;;采用支持向量機(jī)的說話者確認(rèn)中的樣本平衡[J];中文信息學(xué)報(bào);2008年03期
2 木合亞提·尼亞孜別克;古力沙吾利;;哈薩克文信息處理的現(xiàn)狀和發(fā)展方向[J];中文信息學(xué)報(bào);2010年04期
3 周程遠(yuǎn);朱敏;楊云;;基于詞典的中文分詞算法研究[J];計(jì)算機(jī)與數(shù)字工程;2009年03期
4 羅杰;陳力;夏德麟;王凱;;基于新的關(guān)鍵詞提取方法的快速文本分類系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;2006年04期
5 朱曉旭;李培峰;朱巧明;刁紅軍;;一個(gè)適用于手持設(shè)備的多層漢字輸入法模型[J];中文信息學(xué)報(bào);2006年06期
6 扎西加;珠杰;;面向信息處理的藏文分詞規(guī)范研究[J];中文信息學(xué)報(bào);2009年04期
7 干俊偉,黃德根;漢語介詞短語的自動(dòng)識(shí)別[J];中文信息學(xué)報(bào);2005年04期
8 劉云峰,齊歡,Xiang’en Hu,Zhiqiang Cai;潛在語義分析權(quán)重計(jì)算的改進(jìn)[J];中文信息學(xué)報(bào);2005年06期
9 趙海;揭春雨;;基于有效子串標(biāo)注的中文分詞[J];中文信息學(xué)報(bào);2007年05期
10 賈寧;張全;;基于句間關(guān)系的漢語語義塊省略恢復(fù)[J];中文信息學(xué)報(bào);2008年06期
相關(guān)會(huì)議論文 前10條
1 宋蘭;孫茂松;;中文文本全文查重的實(shí)驗(yàn)研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
2 劉匯丹;芮建武;吳健;;藏文網(wǎng)頁的編碼識(shí)別與轉(zhuǎn)換[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
3 徐印才;任立群;段元慧;任俊泉;;輸血科智能管理系統(tǒng)的開發(fā)與應(yīng)用[A];第四屆全國臨床檢驗(yàn)學(xué)術(shù)會(huì)議論文匯編[C];2006年
4 丁力行;;2002年全國暖通空調(diào)計(jì)算機(jī)應(yīng)用研討會(huì)[A];2001年湖南省暖通空調(diào)制冷學(xué)術(shù)年會(huì)論文集[C];2001年
5 陳皓;鄭利平;劉曉平;;模板在虛擬現(xiàn)實(shí)平臺(tái)中的應(yīng)用[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
6 于平;李漢彬;高長君;;應(yīng)用ActiveX技術(shù)實(shí)現(xiàn)Surfer自動(dòng)繪制等值線圖[A];中國氣象學(xué)會(huì)2007年年會(huì)天氣預(yù)報(bào)預(yù)警和影響評(píng)估技術(shù)分會(huì)場論文集[C];2007年
7 何大治;謝步瀛;;基于子空間網(wǎng)絡(luò)的人員疏散模型[A];中國圖學(xué)新進(jìn)展2007——第一屆中國圖學(xué)大會(huì)暨第十屆華東六省一市工程圖學(xué)學(xué)術(shù)年會(huì)論文集[C];2007年
8 繆崢紅;周新蕾;;安全性關(guān)鍵軟件的可靠性測試與安全性分析[A];提高全民科學(xué)素質(zhì)、建設(shè)創(chuàng)新型國家——2006中國科協(xié)年會(huì)論文集(下冊(cè))[C];2006年
9 石素卿;;京郊新農(nóng)村發(fā)展電子商務(wù)的障礙與對(duì)策[A];提高全民科學(xué)素質(zhì)、建設(shè)創(chuàng)新型國家——2006中國科協(xié)年會(huì)論文集[C];2006年
10 柏艷平;趙銀燕;肖田元;;基于XML的鍵合圖模型交換及重用[A];第十屆中國科協(xié)年會(huì)論文集(一)[C];2008年
相關(guān)重要報(bào)紙文章 前10條
1 記者 梁捷;我國中文信息處理技術(shù)從實(shí)驗(yàn)室走向全面應(yīng)用[N];光明日?qǐng)?bào);2009年
2 卜建設(shè)、盧山;市計(jì)算機(jī)應(yīng)用學(xué)會(huì)成立[N];唐山勞動(dòng)日?qǐng)?bào);2010年
3 姚雙云 華中師范大學(xué)語言與語言教育研究中心;虛詞知識(shí)庫:中文信息處理的基石[N];中國社會(huì)科學(xué)報(bào);2011年
4 倪光南;活力重現(xiàn)的中文信息處理[N];計(jì)算機(jī)世界;2001年
5 齊悅;速記界泰斗唐亞偉 獲中文信息處理領(lǐng)域最高科技獎(jiǎng)[N];中國質(zhì)量報(bào);2006年
6 張波 龍雨;中文信息處理國際學(xué)術(shù)會(huì)議在武漢大學(xué)召開[N];中國社會(huì)科學(xué)院院報(bào);2007年
7 記者 韓曉玲邋通訊員 張波 龍雨;海內(nèi)外專家聚焦中文信息處理[N];湖北日?qǐng)?bào);2007年
8 記者 段佳;中文信息處理技術(shù)加速前行[N];大眾科技報(bào);2009年
9 本報(bào)記者 毛國兵 通訊員 嵐宇;亞偉速錄:實(shí)現(xiàn)中文信息處理產(chǎn)業(yè)化的自主品牌[N];中國貿(mào)易報(bào);2008年
10 袁欽玲;網(wǎng)吧專用計(jì)算機(jī)應(yīng)用標(biāo)準(zhǔn)出臺(tái)[N];中國計(jì)算機(jī)報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 陳守強(qiáng);丁書文教授用藥規(guī)律的計(jì)算機(jī)輔助分析[D];山東中醫(yī)藥大學(xué);2005年
2 楊偉;郵運(yùn)汽車運(yùn)輸組織優(yōu)化與信息支持系統(tǒng)研究[D];西南交通大學(xué);2005年
3 宋春陽;面向信息處理的現(xiàn)代漢語“名+名”邏輯語義研究[D];上海師范大學(xué);2003年
4 由麗萍;構(gòu)建現(xiàn)代漢語框架語義知識(shí)庫技術(shù)研究[D];上海師范大學(xué);2006年
5 周衛(wèi)華;面向中文信息處理的現(xiàn)代漢語動(dòng)賓語義搭配研究[D];華中師范大學(xué);2007年
6 詹衛(wèi)東;面向中文信息處理的現(xiàn)代漢語短語結(jié)構(gòu)規(guī)則研究[D];北京大學(xué);1999年
7 李蘇紅;基于實(shí)體模型的工程圖樣數(shù)字化設(shè)計(jì)的研究[D];吉林大學(xué);2007年
8 劉杰;泄漏發(fā)射的信息重建與防御對(duì)策[D];浙江大學(xué);2004年
9 李瓊;漢語復(fù)句書讀前后語言片段的非分句識(shí)別[D];華中師范大學(xué);2008年
10 涂蓉;肝CT圖像分析的臨床與計(jì)算機(jī)應(yīng)用研究[D];中南大學(xué);2004年
相關(guān)碩士學(xué)位論文 前10條
1 陶東成;基于Linux和XIM協(xié)議的中文輸入法服務(wù)器的實(shí)現(xiàn)及其應(yīng)用[D];蘇州大學(xué);2004年
2 羅忠毅;數(shù)字化中醫(yī)古籍的理想模式及其相關(guān)問題研究[D];成都中醫(yī)藥大學(xué);2005年
3 王敏;基于改進(jìn)的隱馬爾科夫模型漢語詞性標(biāo)注[D];山西大學(xué);2007年
4 黨蘭學(xué);漢字語法語義智能輸入法總體設(shè)計(jì)與部分實(shí)現(xiàn)[D];河南大學(xué);2006年
5 傅成宏;現(xiàn)代漢語兼語結(jié)構(gòu)的自動(dòng)識(shí)別[D];南京師范大學(xué);2007年
6 白曉梅;校園網(wǎng)中文搜索引掣系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2006年
7 曹林峰;中文文字差錯(cuò)率統(tǒng)計(jì)軟件的實(shí)現(xiàn)[D];西安電子科技大學(xué);2007年
8 劉桂梅;周有光語文改革思想研究[D];山東師范大學(xué);2005年
9 張玉華;基于碼本的輸入法評(píng)測系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[D];蘇州大學(xué);2005年
10 杜瑩;漢字語法語義智能輸入法核心算法及實(shí)現(xiàn)技術(shù)[D];河南大學(xué);2006年
,本文編號(hào):2151848
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2151848.html