天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于機(jī)器翻譯的漢維文可比語(yǔ)料自動(dòng)獲取系統(tǒng)的構(gòu)建與研究

發(fā)布時(shí)間:2017-12-16 02:33

  本文關(guān)鍵詞:基于機(jī)器翻譯的漢維文可比語(yǔ)料自動(dòng)獲取系統(tǒng)的構(gòu)建與研究


  更多相關(guān)文章: 可比語(yǔ)料庫(kù) 漢維文可比語(yǔ)料庫(kù)構(gòu)建 命名實(shí)體識(shí)別 文檔相似度


【摘要】:可比語(yǔ)料庫(kù)作為自然語(yǔ)言處理領(lǐng)域研究的熱點(diǎn)一直被眾多學(xué)者關(guān)注,其能為機(jī)器翻譯,跨語(yǔ)言信息檢索、搜索引擎等應(yīng)用提供基礎(chǔ)資源。隨著互聯(lián)網(wǎng)信息的井噴式發(fā)展,語(yǔ)料庫(kù)的規(guī)模變得越來(lái)越大,而跨語(yǔ)言可比語(yǔ)料中包含的翻譯等價(jià)對(duì),專(zhuān)業(yè)術(shù)語(yǔ)互譯對(duì),新詞互譯對(duì)等內(nèi)容也逐漸被研究員們重視起來(lái)?杀日Z(yǔ)料庫(kù)具有資源規(guī)模大、時(shí)效性強(qiáng)、內(nèi)容范圍廣等特點(diǎn),作為基礎(chǔ)資源庫(kù),在信息處理等方面都有大量的應(yīng)用。因此,可比語(yǔ)料獲取系統(tǒng)的構(gòu)建研究十分重要。為了滿(mǎn)足漢文-維吾爾文在可比語(yǔ)料庫(kù)上的需求,在分析了現(xiàn)有研究工作基礎(chǔ)上,本文提出構(gòu)建漢維可比語(yǔ)料自動(dòng)獲取系統(tǒng)。本系統(tǒng)主要完成以下四個(gè)層次功能的設(shè)計(jì)與實(shí)現(xiàn):第一,根據(jù)網(wǎng)頁(yè)內(nèi)容的多樣性,本系統(tǒng)設(shè)計(jì)了針對(duì)新疆漢維文雙語(yǔ)網(wǎng)站的網(wǎng)頁(yè)內(nèi)容獲取方案并利用機(jī)器翻譯系統(tǒng)對(duì)維吾爾語(yǔ)進(jìn)行翻譯。第二,對(duì)維吾爾譯文與中文語(yǔ)料進(jìn)行去停用詞,分詞等預(yù)處理,利用命名實(shí)體識(shí)別、詞性分析對(duì)文本進(jìn)行打分并剔除得分較低的文本。第三,利用神經(jīng)網(wǎng)絡(luò)模型對(duì)文本進(jìn)行分類(lèi),分類(lèi)的結(jié)果更有利于文本相似度的計(jì)算。第四,使用關(guān)鍵詞抽取技術(shù),潛語(yǔ)義分析算法對(duì)漢文-維吾爾文進(jìn)行相似度計(jì)算并建立索引,達(dá)到獲取漢維可比語(yǔ)料系統(tǒng)構(gòu)建的目的。本系統(tǒng)可以在網(wǎng)絡(luò)中獲取較高質(zhì)量的漢維文可比語(yǔ)料,相較于傳統(tǒng)的基于主題提取計(jì)算文本相似度的方法,系統(tǒng)設(shè)計(jì)可比文檔篩選方案,并使用關(guān)鍵詞提取與潛語(yǔ)義分析相結(jié)合的方法提高了可比語(yǔ)料的獲取質(zhì)量。提出的采集方案具有時(shí)效性好,涉及領(lǐng)域廣,質(zhì)量較高等特點(diǎn),適合構(gòu)建跨語(yǔ)言可比語(yǔ)料獲取系統(tǒng)。
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.1

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條

1 龐偉;;雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建研究綜述[J];信息技術(shù)與信息化;2015年03期

2 孫昌年;鄭誠(chéng);夏青松;;基于LDA的中文文本相似度計(jì)算[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年01期

3 康小麗;章成志;;用于雙語(yǔ)術(shù)語(yǔ)抽取的專(zhuān)業(yè)領(lǐng)域中英文可比語(yǔ)料庫(kù)構(gòu)建[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2012年02期

4 梁建飛;吐?tīng)柛ひ啦祭?田生偉;賽依旦·阿不力米提;;漢維主題網(wǎng)頁(yè)自動(dòng)獲取技術(shù)的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2012年01期

5 王靜;劉志鏡;;基于概率模型的Web信息抽取[J];模式識(shí)別與人工智能;2010年06期

6 任高舉;吐?tīng)柛ひ敛祭?艾山·吾買(mǎi)爾;;統(tǒng)計(jì)機(jī)器翻譯中漢維短語(yǔ)對(duì)抽取的研究[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期

7 熱西旦·塔依;吐?tīng)柛ひ啦祭?;漢文-維吾爾文雙語(yǔ)語(yǔ)料庫(kù)中段落對(duì)齊技術(shù)研究[J];新疆大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年01期

8 陳懷興;尹存燕;陳家駿;;一種命名實(shí)體翻譯等價(jià)對(duì)的抽取方法[J];中文信息學(xué)報(bào);2008年04期

9 孫廣范;宋金平;袁琦;肖健;單玉秋;;中英可比語(yǔ)料庫(kù)中翻譯等價(jià)對(duì)抽取方法研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年32期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前7條

1 龐偉;基于Web的藏漢雙語(yǔ)可比語(yǔ)料庫(kù)構(gòu)建技術(shù)研究[D];中央民族大學(xué);2015年

2 艾山·毛力尼亞孜;維漢雙語(yǔ)平行語(yǔ)料庫(kù)加工處理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];新疆大學(xué);2014年

3 彭哲;跨語(yǔ)言文本相關(guān)性檢測(cè)技術(shù)研究[D];中南大學(xué);2014年

4 徐會(huì)芳;可比語(yǔ)料中雙語(yǔ)多詞術(shù)語(yǔ)互譯對(duì)抽取方法研究[D];大連理工大學(xué);2013年

5 劉颯;專(zhuān)業(yè)領(lǐng)域可比語(yǔ)料的構(gòu)建與評(píng)價(jià)研究[D];南京理工大學(xué);2012年

6 梁建飛;網(wǎng)絡(luò)環(huán)境下獲取漢維篇章級(jí)平行語(yǔ)料的研究[D];新疆大學(xué);2011年

7 于海濤;可比較語(yǔ)料庫(kù)的研究與構(gòu)建[D];大連理工大學(xué);2009年

,

本文編號(hào):1294400

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1294400.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)1a602***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com