基于蒙古文音節(jié)分析的文本校對方法研究
發(fā)布時(shí)間:2021-08-03 20:44
文本校對是蒙古文自然語言處理的基礎(chǔ)工作之一,文本校對工作的推進(jìn)將直接影響到蒙古文信息處理工作的有序開展。為了解決傳統(tǒng)蒙古文使用過程中存在的文本錯(cuò)誤問題,本文提出了以音節(jié)分析為基礎(chǔ),融合統(tǒng)計(jì)特征和蒙古文構(gòu)詞規(guī)則的方法,并利用混淆集實(shí)現(xiàn)了蒙古文文本的自動(dòng)校對。本文在蒙古文音節(jié)的基礎(chǔ)上進(jìn)行了文本校對的相關(guān)研究。首先,本文通過對蒙古文音節(jié)切分建立了音節(jié)混淆集,并實(shí)現(xiàn)了蒙古文真詞混淆集的自動(dòng)生成,然后利用人工補(bǔ)充完善混淆集。在此基礎(chǔ)上,本文利用網(wǎng)絡(luò)爬蟲獲取相關(guān)網(wǎng)絡(luò)語料,建立了單詞級(jí)語言模型,實(shí)現(xiàn)了蒙古文的真詞錯(cuò)誤的文本校對。其次,本文在音節(jié)的基礎(chǔ)上,結(jié)合蒙古文構(gòu)詞規(guī)則和音節(jié)語言模型實(shí)現(xiàn)了蒙古文的查錯(cuò)過程,然后利用融合統(tǒng)計(jì)特征的音節(jié)混淆字典和混淆音節(jié)的歸一化概率實(shí)現(xiàn)了蒙古文的非詞錯(cuò)誤的校對過程。在蒙古文單詞的單字符增減替換方面,相比于基于中間碼的校正系統(tǒng),本文所提出的方法各方面的性能都有所提升。最后,本文利用融合蒙古文文本的上下文語境的方法改善了蒙古文真詞錯(cuò)誤的校對算法,然后,通過聯(lián)合本文的校對方法實(shí)現(xiàn)了對蒙古文的非詞錯(cuò)誤與真詞錯(cuò)誤的校正。本文利用蒙古文音節(jié)的特點(diǎn)建立音節(jié)與真詞混淆集實(shí)現(xiàn)了對蒙古文...
【文章來源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
蒙古文的書寫片段樣式Figure2.1WritingfragmentstyleinMongolian蒙古文使用字母來表示文字,每個(gè)蒙古文單詞都是一個(gè)字母序列,由于其是表音文字,每一個(gè)音節(jié)將代表一個(gè)讀音,因此音節(jié)可以作為傳統(tǒng)蒙古文的研究基礎(chǔ)
形同音不同字錯(cuò)誤占了 29%,格錯(cuò)誤 4%。在單音字類型的錯(cuò)誤中又包含了多字母錯(cuò)誤比如表 2.3:表 2. 3 蒙古文文本錯(cuò)誤情況統(tǒng)計(jì)表Table 2. 3 Statistics of errors in Mongolian texts型 錯(cuò)誤總數(shù) 錯(cuò)誤 476 錯(cuò)誤 666 錯(cuò)誤 8374 發(fā)現(xiàn),替換字母所造成的錯(cuò)誤占了絕大部分,這也于存在變形的特點(diǎn),所以同一個(gè)名義字符在句首, 2.2,左邊的‘ ’(U+1823)等是蒙古文的名義,詞中和詞尾所表現(xiàn)出來的形態(tài)則是名義字符在不
24圖 4.1獲取蒙古文真詞混淆集流程圖Figure 4.1 Flow chart of obtaining Mongolian real-word confusion set述方法,本文在蒙古文正字法詞典和音節(jié)混淆集的基礎(chǔ)上建立了蒙本文通過人工添加的方式不斷地將一些常見的蒙古文真詞錯(cuò)誤的易建的真詞混淆集庫中。是蒙古文真詞混淆集的部分示例:
【參考文獻(xiàn)】:
期刊論文
[1]蒙古文文本自動(dòng)校對研究綜述[J]. 包烏格德勒,李娟. 電腦知識(shí)與技術(shù). 2016(35)
[2]中文“非多字詞錯(cuò)誤”自動(dòng)校對方法研究[J]. 劉亮亮,曹存根. 計(jì)算機(jī)科學(xué). 2016(10)
[3]基于語料庫的英語文章語法錯(cuò)誤檢查及糾正方法[J]. 譚詠梅,王曉輝,楊一梟. 北京郵電大學(xué)學(xué)報(bào). 2016(04)
[4]面向政治新聞?lì)I(lǐng)域的中文文本校對方法研究[J]. 張仰森,唐安杰,張澤偉. 中文信息學(xué)報(bào). 2014(06)
[5]漢字種子混淆集的構(gòu)建方法研究[J]. 施恒利,劉亮亮,王石,符建輝,張?jiān)佘S,曹存根. 計(jì)算機(jī)科學(xué). 2014(08)
[6]基于詞典和統(tǒng)計(jì)相結(jié)合的維吾爾語拼寫檢查方法[J]. 麥合甫熱提,艾山·吾買爾,麥熱哈巴·艾力,吐爾根·伊布拉音,張健. 中文信息學(xué)報(bào). 2014(02)
[7]基于統(tǒng)計(jì)翻譯框架的蒙古文自動(dòng)拼寫校對方法[J]. 蘇傳捷,侯宏旭,楊萍,員華瑞. 中文信息學(xué)報(bào). 2013(06)
[8]領(lǐng)域問答系統(tǒng)中的文本錯(cuò)誤自動(dòng)發(fā)現(xiàn)方法[J]. 劉亮亮,王石,王東升,汪平仄,曹存根. 中文信息學(xué)報(bào). 2013(03)
[9]傳統(tǒng)蒙古文編碼及其應(yīng)用現(xiàn)狀分析[J]. 金良,散旦瑪,玉英. 語文學(xué)刊. 2012(07)
[10]基于上下文的拉丁維文拼寫校對的研究[J]. 何晉一,陳紅英,姜文斌,張海波,劉群. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2011(12)
碩士論文
[1]字詞級(jí)中文文本自動(dòng)校對的方法研究[D]. 卓利艷.鄭州大學(xué) 2018
[2]基于詞典與HMM相結(jié)合的蒙古文最小詞素編碼到標(biāo)準(zhǔn)編碼的轉(zhuǎn)換研究[D]. 許楊.內(nèi)蒙古大學(xué) 2018
[3]蒙古文真詞錯(cuò)誤的偵測與糾錯(cuò)建議的生成研究[D]. 迎春.內(nèi)蒙古大學(xué) 2017
[4]中文真詞錯(cuò)誤自動(dòng)校對方法研究[D]. 顧德之.江蘇科技大學(xué) 2017
[5]繁體中文拼寫檢錯(cuò)研究[D]. 王勇.南京郵電大學(xué) 2016
[6]基于規(guī)則和統(tǒng)計(jì)的西里爾與傳統(tǒng)蒙古文相互轉(zhuǎn)換方法研究[D]. 王洪偉.內(nèi)蒙古大學(xué) 2015
[7]基于句法功能和搭配知識(shí)的句法分析器設(shè)計(jì)和實(shí)現(xiàn)[D]. 吳龍鳳.南京農(nóng)業(yè)大學(xué) 2015
[8]中文文本自動(dòng)校對系統(tǒng)[D]. 石敏.江蘇科技大學(xué) 2015
[9]基于規(guī)則的蒙古文自動(dòng)校對方法研究[D]. 江布勒.內(nèi)蒙古大學(xué) 2014
[10]多種蒙古文編碼自動(dòng)識(shí)別方法的研究[D]. 李倩.內(nèi)蒙古大學(xué) 2014
本文編號(hào):3320304
【文章來源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
蒙古文的書寫片段樣式Figure2.1WritingfragmentstyleinMongolian蒙古文使用字母來表示文字,每個(gè)蒙古文單詞都是一個(gè)字母序列,由于其是表音文字,每一個(gè)音節(jié)將代表一個(gè)讀音,因此音節(jié)可以作為傳統(tǒng)蒙古文的研究基礎(chǔ)
形同音不同字錯(cuò)誤占了 29%,格錯(cuò)誤 4%。在單音字類型的錯(cuò)誤中又包含了多字母錯(cuò)誤比如表 2.3:表 2. 3 蒙古文文本錯(cuò)誤情況統(tǒng)計(jì)表Table 2. 3 Statistics of errors in Mongolian texts型 錯(cuò)誤總數(shù) 錯(cuò)誤 476 錯(cuò)誤 666 錯(cuò)誤 8374 發(fā)現(xiàn),替換字母所造成的錯(cuò)誤占了絕大部分,這也于存在變形的特點(diǎn),所以同一個(gè)名義字符在句首, 2.2,左邊的‘ ’(U+1823)等是蒙古文的名義,詞中和詞尾所表現(xiàn)出來的形態(tài)則是名義字符在不
24圖 4.1獲取蒙古文真詞混淆集流程圖Figure 4.1 Flow chart of obtaining Mongolian real-word confusion set述方法,本文在蒙古文正字法詞典和音節(jié)混淆集的基礎(chǔ)上建立了蒙本文通過人工添加的方式不斷地將一些常見的蒙古文真詞錯(cuò)誤的易建的真詞混淆集庫中。是蒙古文真詞混淆集的部分示例:
【參考文獻(xiàn)】:
期刊論文
[1]蒙古文文本自動(dòng)校對研究綜述[J]. 包烏格德勒,李娟. 電腦知識(shí)與技術(shù). 2016(35)
[2]中文“非多字詞錯(cuò)誤”自動(dòng)校對方法研究[J]. 劉亮亮,曹存根. 計(jì)算機(jī)科學(xué). 2016(10)
[3]基于語料庫的英語文章語法錯(cuò)誤檢查及糾正方法[J]. 譚詠梅,王曉輝,楊一梟. 北京郵電大學(xué)學(xué)報(bào). 2016(04)
[4]面向政治新聞?lì)I(lǐng)域的中文文本校對方法研究[J]. 張仰森,唐安杰,張澤偉. 中文信息學(xué)報(bào). 2014(06)
[5]漢字種子混淆集的構(gòu)建方法研究[J]. 施恒利,劉亮亮,王石,符建輝,張?jiān)佘S,曹存根. 計(jì)算機(jī)科學(xué). 2014(08)
[6]基于詞典和統(tǒng)計(jì)相結(jié)合的維吾爾語拼寫檢查方法[J]. 麥合甫熱提,艾山·吾買爾,麥熱哈巴·艾力,吐爾根·伊布拉音,張健. 中文信息學(xué)報(bào). 2014(02)
[7]基于統(tǒng)計(jì)翻譯框架的蒙古文自動(dòng)拼寫校對方法[J]. 蘇傳捷,侯宏旭,楊萍,員華瑞. 中文信息學(xué)報(bào). 2013(06)
[8]領(lǐng)域問答系統(tǒng)中的文本錯(cuò)誤自動(dòng)發(fā)現(xiàn)方法[J]. 劉亮亮,王石,王東升,汪平仄,曹存根. 中文信息學(xué)報(bào). 2013(03)
[9]傳統(tǒng)蒙古文編碼及其應(yīng)用現(xiàn)狀分析[J]. 金良,散旦瑪,玉英. 語文學(xué)刊. 2012(07)
[10]基于上下文的拉丁維文拼寫校對的研究[J]. 何晉一,陳紅英,姜文斌,張海波,劉群. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2011(12)
碩士論文
[1]字詞級(jí)中文文本自動(dòng)校對的方法研究[D]. 卓利艷.鄭州大學(xué) 2018
[2]基于詞典與HMM相結(jié)合的蒙古文最小詞素編碼到標(biāo)準(zhǔn)編碼的轉(zhuǎn)換研究[D]. 許楊.內(nèi)蒙古大學(xué) 2018
[3]蒙古文真詞錯(cuò)誤的偵測與糾錯(cuò)建議的生成研究[D]. 迎春.內(nèi)蒙古大學(xué) 2017
[4]中文真詞錯(cuò)誤自動(dòng)校對方法研究[D]. 顧德之.江蘇科技大學(xué) 2017
[5]繁體中文拼寫檢錯(cuò)研究[D]. 王勇.南京郵電大學(xué) 2016
[6]基于規(guī)則和統(tǒng)計(jì)的西里爾與傳統(tǒng)蒙古文相互轉(zhuǎn)換方法研究[D]. 王洪偉.內(nèi)蒙古大學(xué) 2015
[7]基于句法功能和搭配知識(shí)的句法分析器設(shè)計(jì)和實(shí)現(xiàn)[D]. 吳龍鳳.南京農(nóng)業(yè)大學(xué) 2015
[8]中文文本自動(dòng)校對系統(tǒng)[D]. 石敏.江蘇科技大學(xué) 2015
[9]基于規(guī)則的蒙古文自動(dòng)校對方法研究[D]. 江布勒.內(nèi)蒙古大學(xué) 2014
[10]多種蒙古文編碼自動(dòng)識(shí)別方法的研究[D]. 李倩.內(nèi)蒙古大學(xué) 2014
本文編號(hào):3320304
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3320304.html
最近更新
教材專著