天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 語言藝術(shù)論文 >

蒙古文真詞錯誤的偵測與糾錯建議的生成研究

發(fā)布時間:2018-08-12 18:04
【摘要】:本文針對蒙古文文本字詞級錯誤,借鑒其他語言成功的校對系統(tǒng)設(shè)計實現(xiàn)了具有真詞錯誤查錯與糾錯建議生成功能的文本校對系統(tǒng)。在實現(xiàn)該系統(tǒng)的過程中,我們充分利用內(nèi)蒙古大學(xué)蒙古學(xué)學(xué)院創(chuàng)建的1000萬詞級"現(xiàn)代蒙古語語料庫"。首先,從語料庫中提取詞語同現(xiàn)頻率。其次,在詞語同現(xiàn)矩陣的基礎(chǔ)上研制了真詞錯誤查錯模型。本文主要從以下幾個方面進(jìn)行研究并做了實驗。(1)本文實現(xiàn)的蒙古文真詞錯誤校對系統(tǒng)主要有查錯和糾錯兩個模塊組成,由于糾錯是在查錯的基礎(chǔ)上進(jìn)行的下一步操作,因此蒙古文真詞錯誤的查錯研究更為重要。首先,我們先利用統(tǒng)計的方法從1000萬詞級語料庫中提取了詞語同現(xiàn)頻率。然后統(tǒng)計得到的有效詞頻共1,845,983條。(2)為了對可能出錯的詞語提供糾錯建議,在借鑒人們以往的研究成果的基礎(chǔ)上,建立了易混淆詞詞典,也就是糾錯知識庫。(3)在詞語同現(xiàn)矩陣的基礎(chǔ)上,利用詞的二元接續(xù)關(guān)系設(shè)計實現(xiàn)了蒙古文真詞錯誤查錯算法。并為已查到的真詞錯誤提供糾錯建議,在易混淆詞詞典的基礎(chǔ)上設(shè)計實現(xiàn)了一種糾錯建議生成的算法。(4)在設(shè)計實現(xiàn)該系統(tǒng)的基礎(chǔ)上,總結(jié)出實驗全部過程中所遇到的問題及相應(yīng)的解決方法。再對最后的實驗結(jié)果進(jìn)行分析和評價。
[Abstract]:Aiming at word-level errors in Mongolian text, this paper designs and implements a text proofreading system with the functions of error checking and error correction advice generation in other languages. In the process of realizing this system, we make full use of the "Modern Mongolian Corpus" of 10 million words created by the College of Mongolian Studies of Inner Mongolia University. First, the cooccurrence frequency is extracted from the corpus. Secondly, on the basis of word cooccurrence matrix, the model of true word error detection is developed. This paper mainly carries on the research from the following several aspects and has made the experiment. (1) the Mongolian true word error proofreading system realized in this paper mainly has two modules: check the error and correct the error, because the error correction is the next operation on the basis of the error checking. Therefore, it is more important to investigate the errors of Mongolian true words. Firstly, the cooccurrence frequency of words is extracted from 10 million word-level corpus by statistical method. Then, the effective word frequency is 1845983. (2) in order to provide error correction advice for words that may go wrong, a dictionary of confusing words is established on the basis of people's previous research results. That is the error correction knowledge base. (3) on the basis of the cooccurrence matrix of words, the error detection algorithm of Mongolian true words is designed by using the binary continuity of words. An algorithm of error correction is designed and implemented on the basis of confusing word dictionary. (4) based on the design and implementation of the system. The problems encountered in the whole process of experiment and the corresponding solutions are summarized. Then the final experimental results are analyzed and evaluated.
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:H212

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 孫彥;;大型工具書《中國蒙古文古籍總目》正式出版[J];文獻(xiàn);2000年03期

2 華沙寶;蒙古文網(wǎng)絡(luò)信息技術(shù)處理的對策[J];民族語文;2002年06期

3 白云莉;;蒙古文整詞輸入法的設(shè)計與實現(xiàn)[J];內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版);2008年03期

4 哈森其木格;;《蒙古文論發(fā)展概論》評析[J];內(nèi)蒙古民族大學(xué)學(xué)報(社會科學(xué)版);2011年03期

5 烏日娜;;清代蒙古文歷史文獻(xiàn)及其整理研究概況[J];蘭臺世界;2011年19期

6 包力高;;蒙古文[J];民族語文;1980年02期

7 黃時鑒;;羅依果著《孝經(jīng)的古蒙古文譯本》簡介[J];蒙古學(xué)資料與情報;1984年02期

8 斯欽朝克圖;;蒙古文信息處理已進(jìn)入標(biāo)準(zhǔn)化[J];民族語文;1986年05期

9 吳肅民;關(guān)照宏;;蒙古文古籍種種[J];中國民族;1987年05期

10 昂如布;包力高;;關(guān)于改進(jìn)蒙古文的探討[J];蒙古學(xué)資料與情報;1987年01期

相關(guān)會議論文 前10條

1 包艷花;圖格木勒;;多字體印刷蒙古文識別后處理研究[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年

2 吉仁尼格;;蒙古文同形詞的統(tǒng)計法[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

3 呼斯勒;六月;斯日古楞;;淺談蒙古文通用編輯器幾點基本規(guī)范[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

4 道布;;回鶻式蒙古文[A];中國民族古文字[C];1982年

5 道布;;回鶻式蒙古文研究概況[A];中國民族古文字研究[C];1980年

6 白雙成;胡其圖;木仁;;蒙古文音節(jié)切分算法實現(xiàn)及其應(yīng)用[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

7 孟和吉雅;白音門德;敖其爾;田會利;;蒙古文語音合成技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年

8 孟和吉雅;敖其爾;鞏政;;蒙古文網(wǎng)頁制作技術(shù)分析[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集[C];2005年

9 確精扎布;;蒙古文編碼國際標(biāo)準(zhǔn)通過以后研制的幾種蒙古文錄入系統(tǒng)比較[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集[C];2005年

10 寶金良;;蒙古文文本標(biāo)點符號及其屬性字段設(shè)置[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集[C];2005年

相關(guān)重要報紙文章 前10條

1 記者 吉儒木圖;手機(jī)可以使用蒙古文了[N];內(nèi)蒙古日報(漢);2007年

2 記者 解太榮;《蒙古秘史》回鶻體蒙古文復(fù)原項目完成[N];錫林郭勒日報;2009年

3 孟克;如何打破蒙古文圖書產(chǎn)銷兩難的困境[N];中國民族報;2010年

4 記者 阿斯鋼;蒙古國總統(tǒng)簽命令推廣回鶻式蒙古文[N];新華每日電訊;2010年

5 記者 蘇布達(dá);全盟首屆蒙古文圖書節(jié)落幕[N];錫林郭勒日報(漢);2012年

6 陳崗龍 (蒙古族);蒙古文文學(xué)翻譯的兩個問題[N];文藝報;2013年

7 金壇;蒙古文:描繪大自然的千姿百態(tài)[N];中國民族報;2014年

8 阿勒得爾圖;沙日布卻瑪:用回鶻體蒙古文還原《蒙古秘史》[N];中國民族報;2006年

9 記者 張文強(qiáng);蒙古文圖書農(nóng)牧民閱讀大接力活動啟動[N];內(nèi)蒙古日報(漢);2008年

10 徐恒泰;要全力抓好蒙古文教學(xué)資源建設(shè)[N];鄂爾多斯日報;2008年

相關(guān)博士學(xué)位論文 前9條

1 蘇向東;基于深度學(xué)習(xí)和知識策略的蒙古文古籍識別研究[D];內(nèi)蒙古大學(xué);2016年

2 巴圖額爾敦;文本資源檢索技術(shù)在西里爾蒙古文遠(yuǎn)程教育系統(tǒng)中的應(yīng)用研究[D];內(nèi)蒙古大學(xué);2017年

3 淑琴;蒙古文同形詞知識庫的構(gòu)建[D];內(nèi)蒙古大學(xué);2010年

4 達(dá)古拉;《清內(nèi)秘書院蒙古文檔案匯編》語言研究[D];內(nèi)蒙古大學(xué);2012年

5 魏宏喜;蒙古文古籍圖像檢索技術(shù)研究[D];內(nèi)蒙古大學(xué);2012年

6 通拉嘎;基于蒙古文語料庫的人名自動識別[D];中央民族大學(xué);2013年

7 莎日娜;烏蘭巴托版蒙古文譯本《今古奇觀》研究[D];中國社會科學(xué)院研究生院;2010年

8 王桂榮;蒙古文字結(jié)構(gòu)研究[D];內(nèi)蒙古大學(xué);2011年

9 普日布蘇榮;蒙古語語料庫建設(shè)的有關(guān)問題[D];內(nèi)蒙古大學(xué);2015年

相關(guān)碩士學(xué)位論文 前10條

1 關(guān)高娃;蒙古文停用詞和英文停用詞比較研究[D];內(nèi)蒙古大學(xué);2011年

2 常紅梅;袞布扎布語言論著中的蒙古文阿里嘎禮研究[D];內(nèi)蒙古大學(xué);2013年

3 劉璐;面向蒙古文增量g┱溝男畔⒓燜骷際躚芯縖D];內(nèi)蒙古大學(xué);2015年

4 李坤;蒙古文網(wǎng)絡(luò)熱點詞提取算法研究[D];內(nèi)蒙古大學(xué);2015年

5 王洪偉;基于規(guī)則和統(tǒng)計的西里爾與傳統(tǒng)蒙古文相互轉(zhuǎn)換方法研究[D];內(nèi)蒙古大學(xué);2015年

6 張畔;蒙古文搜索引擎基本方法的實現(xiàn)[D];內(nèi)蒙古大學(xué);2015年

7 宋莉;蒙古文字造形元數(shù)據(jù)的分類編號探討[D];內(nèi)蒙古農(nóng)業(yè)大學(xué);2015年

8 青玉;指導(dǎo)小學(xué)生蒙古文正字法教學(xué)探析[D];內(nèi)蒙古師范大學(xué);2015年

9 達(dá)拉夫;文獻(xiàn)學(xué)視角下的蒙古文古籍研究[D];內(nèi)蒙古大學(xué);2015年

10 王亞君;基于Linux IBUS的傳統(tǒng)蒙古文輸入法的研究與實現(xiàn)[D];內(nèi)蒙古師范大學(xué);2015年

,

本文編號:2179868

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/yuyanyishu/2179868.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶586a9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com