基于音節(jié)統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間：2016-10-02 18:13

本文關(guān)鍵詞：基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究，由筆耕文化傳播整理發(fā)布。

《內(nèi)蒙古大學(xué)》 2007年

趙軍

【摘要】： 隨著社會(huì)的信息化不斷深入發(fā)展，電子雜志、報(bào)刊、文檔等各種電子出版物不斷涌現(xiàn)。如何保證這些文本的正確性，已經(jīng)成為自然語言處理研究人員關(guān)注的熱點(diǎn)。目前，在蒙古文信息處理研究中，校對(duì)領(lǐng)域的工作一直以來是一個(gè)空白。長(zhǎng)期以來，研究人員采用基于字典的校對(duì)方法。該方法在詞典信息量小的情況下，其效率還能被用戶接受。但隨著信息量的不斷增大，，校對(duì)的效率將會(huì)下降。本文的目標(biāo)是提出一個(gè)能夠很好解決目前蒙古文校對(duì)領(lǐng)域問題的新方法。主要工作如下：首先，介紹了蒙古文詞法和語法方面的相關(guān)知識(shí)。結(jié)合蒙古文的詞法特點(diǎn)，從蒙古文單詞包含的字符數(shù)量、音節(jié)數(shù)量和音節(jié)位置三個(gè)角度對(duì)蒙古文詞匯特性進(jìn)行了初步分析。其次，重點(diǎn)研究了在自然語言處理領(lǐng)域常用的計(jì)算模型和文本相似度計(jì)算領(lǐng)域的相關(guān)技術(shù)。結(jié)合對(duì)蒙古文詞匯特性的分析和各計(jì)算模型的比較，本文提出了基于音節(jié)的2-gram蒙古文校對(duì)模型；同時(shí)從校對(duì)模型設(shè)計(jì)、校對(duì)模型學(xué)習(xí)算法設(shè)計(jì)和校對(duì)算法設(shè)計(jì)三個(gè)方面進(jìn)行詳細(xì)論述。另外，結(jié)合蒙古文的實(shí)際特點(diǎn)，論文提出了基于有向圖的文本錯(cuò)誤分析方法，并對(duì)各類型錯(cuò)誤進(jìn)行了分析。

【關(guān)鍵詞】：
【學(xué)位授予單位】：內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2007
【分類號(hào)】：TP391.1
【目錄】：

摘要4-5

ABSTRACT5-7

目錄7-9

圖表目錄9-10

第一章引言10-14

1.1 自然語言信息處理研究的本質(zhì)及意義10-11

1.2 本文主要開展的研究工作11-12

1.3 論文結(jié)構(gòu)12-14

第二章自然語言詞匯信息處理研究現(xiàn)狀14-19

2.1 自然語言詞匯信息處理研究的目的和意義14

2.2 國(guó)內(nèi)外自然語言詞匯信息處理研究現(xiàn)狀14-19

2.2.1 英文詞匯信息處理研究15

2.2.2 漢文詞匯信息處理研究15-18

2.2.3 少數(shù)民族語言詞匯信息處理研究18-19

第三章蒙古文詞匯特性分析19-24

3.1 概述19

3.2 語言知識(shí)概述19

3.3 蒙古文詞匯信息分析19-24

3.3.1 蒙古文詞長(zhǎng)性質(zhì)分析19-21

3.3.2 音節(jié)特性分析21-24

第四章蒙古文詞匯校對(duì)模型24-34

4.1 語言模型24-29

4.1.1 短語結(jié)構(gòu)語法24-25

4.1.2 統(tǒng)計(jì)語言模型25-29

4.1.2.1 基于概率分布的語言模型25-26

4.1.2.2 基于上下文信息的語言建模26-29

4.2 蒙古文詞匯校對(duì)模型設(shè)計(jì)29-31

4.3 模型學(xué)習(xí)算法設(shè)計(jì)31-32

4.4 蒙古文校對(duì)算法32-34

第五章蒙古文音節(jié)相似性度量34-40

5.1 文本相似度34-38

5.1.1 相似度34

5.1.2 相似度計(jì)算的主要方法34-38

5.2 蒙古文音節(jié)相似性度量38-40

第六章錯(cuò)誤類型分析40-44

1、錯(cuò)誤類型一—多余字母40-41

2、錯(cuò)誤類型二—遺漏字母41-42

3、錯(cuò)誤類型三—錯(cuò)錄字母42-44

第七章校對(duì)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)44-49

7.1 系統(tǒng)總體模塊劃分及調(diào)用關(guān)系設(shè)計(jì)44

7.2 系統(tǒng)實(shí)現(xiàn)44-49

7.2.1 預(yù)處理模塊實(shí)現(xiàn)44-46

7.2.2 音節(jié)切分模塊46

7.2.3 蒙古文校對(duì)系統(tǒng)46-49

第八章結(jié)論與展望49-51

8.1 主要結(jié)論49

8.2 本文的創(chuàng)新之處49

8.3 后續(xù)的研究工作49-51

參考文獻(xiàn)51-54

致謝54

下載全文更多同類文獻(xiàn)

CAJ全文下載

(如何獲取全文？歡迎：購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 溫晉根;實(shí)用型世界語文本校對(duì)程序[J];電腦開發(fā)與應(yīng)用;1997年04期

2 王永景;劉功申;李生紅;荊濤;;用于文本校對(duì)的分詞與詞性標(biāo)注一體化算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年08期

3 郝莉;敖登巴拉;鞏政;圖雅;;基于貝葉斯算法的蒙古文文本自動(dòng)校對(duì)研究[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年04期

4 戴文華,焦翠珍,徐斌;基于統(tǒng)計(jì)的自然語言處理模型[J];咸寧學(xué)院學(xué)報(bào);2005年03期

5 張強(qiáng);陶宏才;;基于HTK的語音識(shí)別語言模型設(shè)計(jì)及性能分析[J];成都信息工程學(xué)院學(xué)報(bào);2009年02期

6 趙巖;王曉龍;徐志明;劉秉權(quán);;利用詞性信息改進(jìn)Katz平滑算法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2007年09期

7 李學(xué)明;唐相楨;;基于3-gram模型和數(shù)據(jù)挖掘技術(shù)的元數(shù)據(jù)預(yù)取[J];重慶大學(xué)學(xué)報(bào);2008年06期

8 林暉;林劼;;基于Markov模型的改進(jìn)型疑錯(cuò)窗口算法[J];實(shí)驗(yàn)科學(xué)與技術(shù);2008年04期

9 陳智鵬;呂玉琴;劉華生;劉剛;屠輝;;基于N-gram統(tǒng)計(jì)模型的搜索引擎中文糾錯(cuò)[J];中國(guó)電子科學(xué)研究院學(xué)報(bào);2009年03期

10 胡俊鋒;陳浩;陳蓉;譚斌;于中華;;基于感知器的生物醫(yī)學(xué)命名實(shí)體邊界識(shí)別算法[J];計(jì)算機(jī)應(yīng)用;2007年12期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條

1 詹津明;牟曉隆;李樹青;方棣棠;;一個(gè)大字表語音識(shí)別系統(tǒng)中的語言模型[A];第五屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1998年

2 趙軍;敖其爾;吉仁尼格;鞏政;葡萄;陳建東;;基于統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)[A];民族語言文字信息技術(shù)研究——第十一屆全國(guó)民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

3 才讓加;頭旦才讓;周毛先;;藏語語料庫(kù)加工方法研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

4 努爾艾力·喀迪爾;彭良瑞;;基于SRILM的阿拉伯和維吾爾文語言模型建立方法[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前4條

1 《計(jì)算機(jī)世界》評(píng)測(cè)實(shí)驗(yàn)室郭見洌;[N];計(jì)算機(jī)世界;2000年

2 本報(bào)實(shí)習(xí)生譚征;[N];市場(chǎng)報(bào);2002年

3 曉文;[N];通信產(chǎn)業(yè)報(bào);2000年

4 記者李光明　實(shí)習(xí)生范天嬌;[N];法制日?qǐng)?bào);2009年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 趙軍;基于音節(jié)統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2007年

2 郇政永;基于OCR的中文文本校對(duì)研究[D];北方工業(yè)大學(xué);2011年

3 秦健;N-gram技術(shù)在中文詞法分析中的應(yīng)用研究[D];中國(guó)海洋大學(xué);2009年

4 毛偉;基于統(tǒng)計(jì)語言模型的中文自動(dòng)文本分類系統(tǒng)[D];北京郵電大學(xué);2006年

5 楊永火;組合向量空間模型和語言模型的信息檢索系統(tǒng)[D];天津大學(xué);2006年

6 唐相楨;基于數(shù)據(jù)挖掘的文件元數(shù)據(jù)預(yù)取研究與實(shí)現(xiàn)[D];重慶大學(xué);2008年

7 伊力亞爾·加爾木哈買提;哈薩克文語料庫(kù)詞匯校對(duì)研究[D];新疆大學(xué);2008年

8 戚婕;基于遺傳算法的金融高性能計(jì)算[D];中南大學(xué);2011年

9 孫善祿;搜索引擎糾錯(cuò)算法研究與糾錯(cuò)Bad Case挖掘[D];大連理工大學(xué);2013年

10 陳智鵬;基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究[D];北京郵電大學(xué);2010年

本文關(guān)鍵詞：基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：129181

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/129181.html

上一篇：基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究.doc 全文免費(fèi)在線閱讀
下一篇：基于Android的主題搜索引擎的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于音節(jié)統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)