基于全局搜索和局部分類的特定領(lǐng)域雙語網(wǎng)站識別方法
本文關(guān)鍵詞:基于全局搜索和局部分類的特定領(lǐng)域雙語網(wǎng)站識別方法
更多相關(guān)文章: 統(tǒng)計機(jī)器翻譯 特定領(lǐng)域機(jī)器翻譯 雙語網(wǎng)站 翻譯等價對
【摘要】:根據(jù)領(lǐng)域性較強的網(wǎng)站往往蘊含大量平行或可比較雙語樣本這一特點,針對特定領(lǐng)域雙語網(wǎng)站的自動識別問題,提出了一種基于全局搜索和局部分類的方法。以電子器件領(lǐng)域為目標(biāo),采用全局搜索方法獲得該領(lǐng)域雙語網(wǎng)站18 944個,隨機(jī)抽取其中3 000個網(wǎng)站進(jìn)行人工標(biāo)注,在標(biāo)注語料上,采用局部分類方法識別該領(lǐng)域雙語網(wǎng)站的性能(F值)達(dá)到85.19%。在此基礎(chǔ)上,利用識別出的目標(biāo)領(lǐng)域雙語網(wǎng)站中的雙語句對,擴(kuò)充特定領(lǐng)域機(jī)器翻譯系統(tǒng)的訓(xùn)練集進(jìn)行實驗。實驗結(jié)果表明,相同測試集下,特定領(lǐng)域機(jī)器翻譯系統(tǒng)的性能獲得顯著提升,驗證了本文所提出的自動識別特定領(lǐng)域雙語網(wǎng)站方法的有效性。
【作者單位】: 蘇州大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院;
【關(guān)鍵詞】: 統(tǒng)計機(jī)器翻譯 特定領(lǐng)域機(jī)器翻譯 雙語網(wǎng)站 翻譯等價對
【基金】:國家自然科學(xué)基金(No.61272259;61272260;61373097)
【分類號】:TP393.092
【正文快照】: 0引言統(tǒng)計機(jī)器翻譯(Statistical Machine Translation,SMT)系統(tǒng)的性能很大程度上依賴于訓(xùn)練語料的規(guī)模和質(zhì)量。原因在于,訓(xùn)練語料的規(guī)模越大、質(zhì)量越好,則有效的翻譯知識越多,涵蓋的語言現(xiàn)象也越充分,從而有助于提升翻譯系統(tǒng)中語言模型和翻譯模型的訓(xùn)練效果。然而,葉莎妮等[1]
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前2條
1 葉莎妮;呂雅娟;黃峗;劉群;;基于Web的雙語平行句對自動獲取[J];中文信息學(xué)報;2008年05期
2 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語混合網(wǎng)頁識別新方法[J];中文信息學(xué)報;2011年01期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊緒兵,韓自存;ε不敏感的核Adaline算法及其在圖像去噪中的應(yīng)用[J];安徽工程科技學(xué)院學(xué)報(自然科學(xué)版);2003年04期
2 陶秀鳳,唐詩忠,周鳴爭;基于支持向量機(jī)的軟測量模型及應(yīng)用[J];安徽工程科技學(xué)院學(xué)報(自然科學(xué)版);2004年02期
3 許高程;張文君;王衛(wèi)紅;;支持向量機(jī)技術(shù)在遙感影像滑坡體提取中的應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2009年06期
4 郭立萍;唐家奎;米素娟;張成雯;趙理君;;基于支持向量機(jī)遙感圖像融合分類方法研究進(jìn)展[J];安徽農(nóng)業(yè)科學(xué);2010年17期
5 馮學(xué)軍;;最小二乘支持向量機(jī)的研究與應(yīng)用[J];安慶師范學(xué)院學(xué)報(自然科學(xué)版);2009年01期
6 鄒心遙;姚若河;;基于LSSVM的威布爾分布形狀參數(shù)估計(英文)[J];半導(dǎo)體技術(shù);2008年06期
7 鄒心遙;姚若河;;基于LSSVM的小子樣元器件壽命預(yù)測[J];半導(dǎo)體技術(shù);2011年09期
8 李卓遠(yuǎn),吳為民,王e,
本文編號:950823
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/950823.html