【摘要】:當(dāng)今世界,互聯(lián)網(wǎng)消息迅速膨脹,農(nóng)業(yè)知識產(chǎn)權(quán)檢索技術(shù)得到充分發(fā)展。單一語種檢索可以有效檢索出中文農(nóng)業(yè)知識產(chǎn)權(quán)信息,然而隨著用戶對農(nóng)業(yè)知識產(chǎn)權(quán)檢索需求的提高,在中文中進(jìn)行檢索已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足需要,檢索英語語種中的相關(guān)信息成為必要,于是我們將目光投向了跨語言農(nóng)業(yè)知識產(chǎn)權(quán)檢索領(lǐng)域。針對跨語言農(nóng)業(yè)知識產(chǎn)權(quán)檢索效率低這一問題,本文以短語統(tǒng)計(jì)機(jī)器翻譯和潛在語義跨語言查詢擴(kuò)展為研究對象,主要完成了以下工作: (1)基于短語的統(tǒng)計(jì)機(jī)器翻譯模型的構(gòu)建。針對普通機(jī)器翻譯機(jī)對農(nóng)業(yè)知識產(chǎn)權(quán)信息翻譯準(zhǔn)確率低這一問題,使用加入農(nóng)業(yè)專業(yè)語料庫的基于短語的統(tǒng)計(jì)機(jī)器翻譯模型對其進(jìn)行了改進(jìn)研究。首先,通過信息抽取,獲得農(nóng)業(yè)雙語語料庫,經(jīng)過語料庫預(yù)處理、詞語對齊和短語抽取對訓(xùn)練語料庫進(jìn)行模型訓(xùn)練。然后,采用isi解碼器對測試語句進(jìn)行解碼。其次,對解碼輸出進(jìn)行后處理,得到最終的翻譯結(jié)果。最后,使用BLEU和NIST評測標(biāo)準(zhǔn)對翻譯結(jié)果進(jìn)行評價(jià),輸出評價(jià)結(jié)果文檔。評價(jià)結(jié)果文檔證明,加入農(nóng)業(yè)語料的基于短語的統(tǒng)計(jì)機(jī)器翻譯模型翻譯質(zhì)量提高了16.9%。 (2)基于潛在語義分析的跨語言查詢擴(kuò)展優(yōu)化研究。針對跨語言信息檢索中存在的查詢詞不匹配造成的查準(zhǔn)率低這一問題,引入了跨語言查詢擴(kuò)展方法。前人在建立雙語空間時采用奇異值分解法,此方法構(gòu)造的空間矩陣會出現(xiàn)負(fù)值,極大影響語料的表示,通過加入非負(fù)矩陣分解法對其進(jìn)行了改進(jìn)。雙語空間矩陣構(gòu)造好后,為了減少計(jì)算量還須對其進(jìn)行降維,往常研究者們都是直接設(shè)定這個維度值,,然而,維度值若過大則計(jì)算量并不能減少,過小的話導(dǎo)致語義信息丟失,從而失去意義。研究建立擇優(yōu)模型,設(shè)立多個維度值,通過一個信任度來選擇最優(yōu)的維度值對空間矩陣進(jìn)行降維,達(dá)到降維的目的。在目標(biāo)語言擴(kuò)展時,需要聚類提高文本聚合度,而最常用的方法使k-means聚類算法,然而此方法在遇到矩陣存在孤立點(diǎn)問題時,會極大影響聚合精度,通過使用k-medoid聚類方法對其改進(jìn)。通過實(shí)驗(yàn)驗(yàn)證,加入非負(fù)矩陣分解法后,檢索精度提高了9.8%,加入擇優(yōu)模型后,檢索精度提高了18.2%,改進(jìn)k-means聚類方法后,檢索精度提高了3.8%,綜合以上所有改進(jìn)后,檢索精度達(dá)到了61.28%,提高了40.6%。 (3)結(jié)合基于短語的統(tǒng)計(jì)機(jī)器翻譯模型和基于潛在語義分析的跨語言查詢擴(kuò)展方法,搭建了跨語言農(nóng)業(yè)知識產(chǎn)權(quán)檢索平臺。經(jīng)過測試表明,該平臺具有良好的可用性、健壯性和可維護(hù)性。
【圖文】:
別得到 chinese3600.txt 和 english3600.txt 中英文檔,將 chinese3600.txt 中的全角形式的標(biāo)點(diǎn)符號手工刪除。最后,使用 ICTCLAS 基于串匹配與統(tǒng)計(jì)分詞法對平行語料庫中的中文語料進(jìn)行詞語劃分,英文分詞使用 Egypt 自帶工具。把生成的拆分后的內(nèi)容繼續(xù)存到原文件中。處理后的語料庫如圖 3-6 所示。為了區(qū)別于語言模型中的測試句子,選擇前 3000 對雙語語料(分別命名為 chinese 與 english)用于訓(xùn)練,得出翻譯概率表。把3600 句中的英文句子 english3600 作為語言模型訓(xùn)練集用于訓(xùn)練出標(biāo)準(zhǔn)的語言模型。

接下來需要對已拆分的語料庫進(jìn)行詞語對齊,首先從拆分好的平行語料庫逐對讀入中英雙語句子對,對其詞性標(biāo)注、禁用詞過濾和詞形還原處理,然后計(jì)算每個句子中的詞語相似度和相對偏移位置,并用 Bootstrap 方法訓(xùn)練詞性轉(zhuǎn)移概率,最后計(jì)算詞語對齊概率,得到詞語對齊語料庫,如圖 3-7(左)所示。短語抽取對詞語對齊結(jié)果依賴性圖 3-7 詞語對齊與短語抽取結(jié)果圖Fig.3-7 Words alignment and phrases extraction results22
【學(xué)位授予單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 田久樂;趙蔚;;基于同義詞詞林的詞語相似度計(jì)算方法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2010年06期
2 李二森;張保明;楊娜;楊靖宇;郭曉剛;;非負(fù)矩陣分解在高光譜圖像解混中的應(yīng)用探討[J];測繪通報(bào);2011年03期
3 劉艷玲;李璐;;農(nóng)業(yè)知識產(chǎn)權(quán)評估問題研究[J];財(cái)會通訊;2011年26期
4 李衛(wèi)疆;趙鐵軍;王憲剛;;基于統(tǒng)計(jì)機(jī)器翻譯模型的查詢擴(kuò)展[J];電子與信息學(xué)報(bào);2008年03期
5 楊小紅;;Internet上免費(fèi)專利信息資源的檢索與獲得[J];甘肅科技;2012年06期
6 何中軍;劉群;林守勛;;基于短語相似度的統(tǒng)計(jì)機(jī)器翻譯模型[J];高技術(shù)通訊;2009年04期
7 萬小軍,楊建武,陳曉鷗;文檔聚類中k-means算法的一種改進(jìn)算法[J];計(jì)算機(jī)工程;2003年02期
8 閉劍婷;蘇一丹;;基于潛在語義分析的跨語言查詢擴(kuò)展方法[J];計(jì)算機(jī)工程;2009年10期
9 王衛(wèi)國;徐煒民;;基于潛在語義分析的個性化查詢擴(kuò)展模型[J];計(jì)算機(jī)工程;2010年21期
10 蓋杰,王怡,武港山;潛在語義分析理論及其應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2004年03期
本文編號:
2546715
本文鏈接:http://sikaile.net/falvlunwen/zhishichanquanfa/2546715.html