基于全局搜索和局部分類(lèi)的特定領(lǐng)域雙語(yǔ)網(wǎng)站識(shí)別方法
本文關(guān)鍵詞:基于全局搜索和局部分類(lèi)的特定領(lǐng)域雙語(yǔ)網(wǎng)站識(shí)別方法
更多相關(guān)文章: 統(tǒng)計(jì)機(jī)器翻譯 特定領(lǐng)域機(jī)器翻譯 雙語(yǔ)網(wǎng)站 翻譯等價(jià)對(duì)
【摘要】:根據(jù)領(lǐng)域性較強(qiáng)的網(wǎng)站往往蘊(yùn)含大量平行或可比較雙語(yǔ)樣本這一特點(diǎn),針對(duì)特定領(lǐng)域雙語(yǔ)網(wǎng)站的自動(dòng)識(shí)別問(wèn)題,提出了一種基于全局搜索和局部分類(lèi)的方法。以電子器件領(lǐng)域?yàn)槟繕?biāo),采用全局搜索方法獲得該領(lǐng)域雙語(yǔ)網(wǎng)站18 944個(gè),隨機(jī)抽取其中3 000個(gè)網(wǎng)站進(jìn)行人工標(biāo)注,在標(biāo)注語(yǔ)料上,采用局部分類(lèi)方法識(shí)別該領(lǐng)域雙語(yǔ)網(wǎng)站的性能(F值)達(dá)到85.19%。在此基礎(chǔ)上,利用識(shí)別出的目標(biāo)領(lǐng)域雙語(yǔ)網(wǎng)站中的雙語(yǔ)句對(duì),擴(kuò)充特定領(lǐng)域機(jī)器翻譯系統(tǒng)的訓(xùn)練集進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,相同測(cè)試集下,特定領(lǐng)域機(jī)器翻譯系統(tǒng)的性能獲得顯著提升,驗(yàn)證了本文所提出的自動(dòng)識(shí)別特定領(lǐng)域雙語(yǔ)網(wǎng)站方法的有效性。
【作者單位】: 蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: 統(tǒng)計(jì)機(jī)器翻譯 特定領(lǐng)域機(jī)器翻譯 雙語(yǔ)網(wǎng)站 翻譯等價(jià)對(duì)
【基金】:國(guó)家自然科學(xué)基金(No.61272259;61272260;61373097)
【分類(lèi)號(hào)】:TP393.092
【正文快照】: 0引言統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,SMT)系統(tǒng)的性能很大程度上依賴(lài)于訓(xùn)練語(yǔ)料的規(guī)模和質(zhì)量。原因在于,訓(xùn)練語(yǔ)料的規(guī)模越大、質(zhì)量越好,則有效的翻譯知識(shí)越多,涵蓋的語(yǔ)言現(xiàn)象也越充分,從而有助于提升翻譯系統(tǒng)中語(yǔ)言模型和翻譯模型的訓(xùn)練效果。然而,葉莎妮等[1]
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 葉莎妮;呂雅娟;黃峗;劉群;;基于Web的雙語(yǔ)平行句對(duì)自動(dòng)獲取[J];中文信息學(xué)報(bào);2008年05期
2 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語(yǔ)混合網(wǎng)頁(yè)識(shí)別新方法[J];中文信息學(xué)報(bào);2011年01期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 楊緒兵,韓自存;ε不敏感的核Adaline算法及其在圖像去噪中的應(yīng)用[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2003年04期
2 陶秀鳳,唐詩(shī)忠,周鳴爭(zhēng);基于支持向量機(jī)的軟測(cè)量模型及應(yīng)用[J];安徽工程科技學(xué)院學(xué)報(bào)(自然科學(xué)版);2004年02期
3 許高程;張文君;王衛(wèi)紅;;支持向量機(jī)技術(shù)在遙感影像滑坡體提取中的應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2009年06期
4 郭立萍;唐家奎;米素娟;張成雯;趙理君;;基于支持向量機(jī)遙感圖像融合分類(lèi)方法研究進(jìn)展[J];安徽農(nóng)業(yè)科學(xué);2010年17期
5 馮學(xué)軍;;最小二乘支持向量機(jī)的研究與應(yīng)用[J];安慶師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年01期
6 鄒心遙;姚若河;;基于LSSVM的威布爾分布形狀參數(shù)估計(jì)(英文)[J];半導(dǎo)體技術(shù);2008年06期
7 鄒心遙;姚若河;;基于LSSVM的小子樣元器件壽命預(yù)測(cè)[J];半導(dǎo)體技術(shù);2011年09期
8 李卓遠(yuǎn),吳為民,王e,
本文編號(hào):950823
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/950823.html