漢蒙跨語言檢索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-01-21 20:41
【摘要】:[目的/意義]基于漢蒙間跨語言檢索系統(tǒng)發(fā)展現(xiàn)狀,設(shè)計(jì)并實(shí)現(xiàn)通過漢文、傳統(tǒng)蒙古文關(guān)鍵詞檢索西里爾蒙古文文檔的系統(tǒng)。[方法/過程]漢蒙跨語言檢索系統(tǒng)包括機(jī)器翻譯和文檔檢索。在機(jī)器翻譯方面,實(shí)現(xiàn)了基于詞典的漢文到西里爾蒙古文機(jī)器翻譯,并實(shí)現(xiàn)了基于規(guī)則和統(tǒng)計(jì)的傳統(tǒng)蒙古文到西里爾蒙古文轉(zhuǎn)換;在文檔檢索方面,基于Lucene全文索引工具包對大量的西里爾蒙古文文檔建立索引,并根據(jù)向量空間模型對查詢和文檔的相似度進(jìn)行排序,得到與查詢最為匹配的文檔集。[結(jié)果/結(jié)論]本系統(tǒng)響應(yīng)速度較快,準(zhǔn)確率較高,達(dá)到可用水平。一方面促進(jìn)中國與蒙古國之間的科技、文化、教育的交流;另一方面對我國西里爾蒙古文的研究有一定的促進(jìn)作用。
【圖文】:
煞絞劍嘹?以構(gòu)成大規(guī)模的蒙古文單詞,詞典一般很難包含全部,所以基于詞典和規(guī)則的方法有一定局限性。而統(tǒng)計(jì)模型的性能與語料庫的規(guī)模、代表性、正確性以及加工深度有密切關(guān)系,其過分依賴語料庫的質(zhì)量。本文結(jié)合基于規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,建立了高效的T2C轉(zhuǎn)換系統(tǒng)。2.1基于規(guī)則的T2C轉(zhuǎn)換方法西里爾蒙古文與傳統(tǒng)蒙古文同屬于黏著語,從單詞的構(gòu)造上均可以分為:詞根、詞干、附加成分。在形態(tài)學(xué)方面,其構(gòu)詞是以詞根或詞干為基礎(chǔ),后接詞綴來派生新詞和進(jìn)行詞形變化,而且變化復(fù)雜多樣。基于規(guī)則的T2C轉(zhuǎn)換流程如圖1所示,主要分為3個(gè)步驟:首先,對輸入的傳統(tǒng)蒙古文進(jìn)行后綴切分;其次,分別對切分后的詞干及后綴部分根據(jù)規(guī)則轉(zhuǎn)換成對應(yīng)的西里爾蒙古文詞干及后綴;最后,依據(jù)西里爾蒙古文構(gòu)詞規(guī)則將對應(yīng)的西里爾蒙古文詞干及后綴進(jìn)行綴接得到西里爾蒙古文單詞。圖1基于規(guī)則的T2C轉(zhuǎn)換流程傳統(tǒng)蒙古文后綴切分比較復(fù)雜,會有元音及輔音的脫落、生成和變換等現(xiàn)象。本文依據(jù)傳統(tǒng)蒙古文的詞干后綴切分規(guī)則[13]進(jìn)行切分。傳統(tǒng)蒙古文與西里爾蒙古文的詞干及后綴對應(yīng)轉(zhuǎn)換同樣需要遵循相應(yīng)的規(guī)則。其規(guī)則參考了T2C轉(zhuǎn)換詞干對照庫(包含63501詞條)[14-16]、動(dòng)詞后綴對照庫(包含495條)[14-16]、靜詞后綴對照庫(包含335條)[14-16]及對照規(guī)則庫(包含130條對應(yīng)規(guī)則)[14-16]。基于規(guī)則的T2C轉(zhuǎn)換最后一步就是將第二步轉(zhuǎn)換得到的西里爾蒙古文詞干及后綴根據(jù)西里爾蒙古文構(gòu)詞規(guī)則進(jìn)行綴接。由于在西里爾蒙古文構(gòu)詞時(shí)也會有元音及輔音的脫落、生成和變換等現(xiàn)象,本文根據(jù)西里爾蒙古文構(gòu)詞特點(diǎn),依據(jù)西里爾蒙古文后綴綴接規(guī)則[17-18](共計(jì)30多條)完成西里爾蒙古文單詞的合成。基于規(guī)則的T2C轉(zhuǎn)換對于集內(nèi)詞的?
q∈S(g,φ')∏K+1j-1p(qj|qj-1…qj-N+1)(5)本文使用最大似然估計(jì)法,得到相應(yīng)參數(shù),并使用Kneser-Ney平滑算法來做數(shù)據(jù)平滑;诮y(tǒng)計(jì)模型的單詞級T2C可以很好地解決對集外詞的轉(zhuǎn)換。2.3基于規(guī)則與統(tǒng)計(jì)相結(jié)合的T2C轉(zhuǎn)換方法T2C轉(zhuǎn)換系統(tǒng)框架如圖2所示:首先,對輸入的傳統(tǒng)蒙古文預(yù)處理;其次,使用基于規(guī)則的方法完成單詞級T2C的轉(zhuǎn)換,轉(zhuǎn)換不成功的單詞則使用統(tǒng)計(jì)模型的方法對其進(jìn)行轉(zhuǎn)換;最后,通過語言模型選擇詞序列,T2C轉(zhuǎn)換會有單詞一對多的情況,,需要使用語言模型進(jìn)行選擇最優(yōu)詞序列。圖2T2C轉(zhuǎn)換系統(tǒng)流程圖3索引和檢索在上述CH2C、T2C翻譯模型的基礎(chǔ)上,為了能夠高效地實(shí)現(xiàn)漢蒙跨語言檢索,本文采用Lucene工具對西里爾蒙古文文檔構(gòu)建索引。3.1基于Lucene的索引建立方法語料庫中的西里爾蒙古文文檔屬于沒有定長并且格式不固定的非結(jié)構(gòu)化數(shù)據(jù),采用順序掃描的方法對非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行檢索效率非常低。為了提高文檔的檢索效率,首先要為西里爾蒙古文文檔集創(chuàng)建索引。Lucene采用倒排索引結(jié)構(gòu)建立索引。其索引創(chuàng)建流程如圖3所示。主要分為3個(gè)步驟:首先,將西里爾蒙古文文檔傳給分詞器,進(jìn)行分詞,去除標(biāo)點(diǎn)符號,去除停詞(如:юм,шYY)等預(yù)處理工作;其次,將得到的單詞進(jìn)行形態(tài)學(xué)處理,獲得西里爾蒙古文單詞對應(yīng)的詞干;最后,將處理后的單詞構(gòu)建索引表。圖3西里爾蒙古文文檔索引創(chuàng)建過程3.2基于Lucene的檢索方法索引建立完成后,利用向量空間模型[21],將查詢關(guān)鍵詞和文檔都表示成為向量。文檔和查詢關(guān)鍵詞之間的相似度通過向量夾角的余弦值表示。在檢索時(shí),假設(shè)經(jīng)過翻譯或轉(zhuǎn)換得到的西里爾蒙古文查詢關(guān)鍵詞為Q,文檔集合為D(D1,D2,…,Dn),則檢索的過程可以描述?
【圖文】:
煞絞劍嘹?以構(gòu)成大規(guī)模的蒙古文單詞,詞典一般很難包含全部,所以基于詞典和規(guī)則的方法有一定局限性。而統(tǒng)計(jì)模型的性能與語料庫的規(guī)模、代表性、正確性以及加工深度有密切關(guān)系,其過分依賴語料庫的質(zhì)量。本文結(jié)合基于規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,建立了高效的T2C轉(zhuǎn)換系統(tǒng)。2.1基于規(guī)則的T2C轉(zhuǎn)換方法西里爾蒙古文與傳統(tǒng)蒙古文同屬于黏著語,從單詞的構(gòu)造上均可以分為:詞根、詞干、附加成分。在形態(tài)學(xué)方面,其構(gòu)詞是以詞根或詞干為基礎(chǔ),后接詞綴來派生新詞和進(jìn)行詞形變化,而且變化復(fù)雜多樣。基于規(guī)則的T2C轉(zhuǎn)換流程如圖1所示,主要分為3個(gè)步驟:首先,對輸入的傳統(tǒng)蒙古文進(jìn)行后綴切分;其次,分別對切分后的詞干及后綴部分根據(jù)規(guī)則轉(zhuǎn)換成對應(yīng)的西里爾蒙古文詞干及后綴;最后,依據(jù)西里爾蒙古文構(gòu)詞規(guī)則將對應(yīng)的西里爾蒙古文詞干及后綴進(jìn)行綴接得到西里爾蒙古文單詞。圖1基于規(guī)則的T2C轉(zhuǎn)換流程傳統(tǒng)蒙古文后綴切分比較復(fù)雜,會有元音及輔音的脫落、生成和變換等現(xiàn)象。本文依據(jù)傳統(tǒng)蒙古文的詞干后綴切分規(guī)則[13]進(jìn)行切分。傳統(tǒng)蒙古文與西里爾蒙古文的詞干及后綴對應(yīng)轉(zhuǎn)換同樣需要遵循相應(yīng)的規(guī)則。其規(guī)則參考了T2C轉(zhuǎn)換詞干對照庫(包含63501詞條)[14-16]、動(dòng)詞后綴對照庫(包含495條)[14-16]、靜詞后綴對照庫(包含335條)[14-16]及對照規(guī)則庫(包含130條對應(yīng)規(guī)則)[14-16]。基于規(guī)則的T2C轉(zhuǎn)換最后一步就是將第二步轉(zhuǎn)換得到的西里爾蒙古文詞干及后綴根據(jù)西里爾蒙古文構(gòu)詞規(guī)則進(jìn)行綴接。由于在西里爾蒙古文構(gòu)詞時(shí)也會有元音及輔音的脫落、生成和變換等現(xiàn)象,本文根據(jù)西里爾蒙古文構(gòu)詞特點(diǎn),依據(jù)西里爾蒙古文后綴綴接規(guī)則[17-18](共計(jì)30多條)完成西里爾蒙古文單詞的合成。基于規(guī)則的T2C轉(zhuǎn)換對于集內(nèi)詞的?
q∈S(g,φ')∏K+1j-1p(qj|qj-1…qj-N+1)(5)本文使用最大似然估計(jì)法,得到相應(yīng)參數(shù),并使用Kneser-Ney平滑算法來做數(shù)據(jù)平滑;诮y(tǒng)計(jì)模型的單詞級T2C可以很好地解決對集外詞的轉(zhuǎn)換。2.3基于規(guī)則與統(tǒng)計(jì)相結(jié)合的T2C轉(zhuǎn)換方法T2C轉(zhuǎn)換系統(tǒng)框架如圖2所示:首先,對輸入的傳統(tǒng)蒙古文預(yù)處理;其次,使用基于規(guī)則的方法完成單詞級T2C的轉(zhuǎn)換,轉(zhuǎn)換不成功的單詞則使用統(tǒng)計(jì)模型的方法對其進(jìn)行轉(zhuǎn)換;最后,通過語言模型選擇詞序列,T2C轉(zhuǎn)換會有單詞一對多的情況,,需要使用語言模型進(jìn)行選擇最優(yōu)詞序列。圖2T2C轉(zhuǎn)換系統(tǒng)流程圖3索引和檢索在上述CH2C、T2C翻譯模型的基礎(chǔ)上,為了能夠高效地實(shí)現(xiàn)漢蒙跨語言檢索,本文采用Lucene工具對西里爾蒙古文文檔構(gòu)建索引。3.1基于Lucene的索引建立方法語料庫中的西里爾蒙古文文檔屬于沒有定長并且格式不固定的非結(jié)構(gòu)化數(shù)據(jù),采用順序掃描的方法對非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行檢索效率非常低。為了提高文檔的檢索效率,首先要為西里爾蒙古文文檔集創(chuàng)建索引。Lucene采用倒排索引結(jié)構(gòu)建立索引。其索引創(chuàng)建流程如圖3所示。主要分為3個(gè)步驟:首先,將西里爾蒙古文文檔傳給分詞器,進(jìn)行分詞,去除標(biāo)點(diǎn)符號,去除停詞(如:юм,шYY)等預(yù)處理工作;其次,將得到的單詞進(jìn)行形態(tài)學(xué)處理,獲得西里爾蒙古文單詞對應(yīng)的詞干;最后,將處理后的單詞構(gòu)建索引表。圖3西里爾蒙古文文檔索引創(chuàng)建過程3.2基于Lucene的檢索方法索引建立完成后,利用向量空間模型[21],將查詢關(guān)鍵詞和文檔都表示成為向量。文檔和查詢關(guān)鍵詞之間的相似度通過向量夾角的余弦值表示。在檢索時(shí),假設(shè)經(jīng)過翻譯或轉(zhuǎn)換得到的西里爾蒙古文查詢關(guān)鍵詞為Q,文檔集合為D(D1,D2,…,Dn),則檢索的過程可以描述?
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 飛龍;高光來;閆學(xué)亮;魏宏喜;;傳統(tǒng)蒙古文與西里爾蒙古文相互轉(zhuǎn)換方法的研究[J];計(jì)算機(jī)工程與應(yīng)用;2014年23期
2 高紅霞;馬小蕾;;西里爾蒙古文網(wǎng)頁向傳統(tǒng)蒙古文自動(dòng)轉(zhuǎn)換系統(tǒng)的文字轉(zhuǎn)換研究[J];內(nèi)蒙古民族大學(xué)學(xué)報(bào);2012年05期
3 張sソ
本文編號:2571716
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2571716.html
最近更新
教材專著