基于音節(jié)統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
《內(nèi)蒙古大學(xué)》 2007年
基于音節(jié)統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)
趙軍
【摘要】: 隨著社會(huì)的信息化不斷深入發(fā)展,電子雜志、報(bào)刊、文檔等各種電子出版物不斷涌現(xiàn)。如何保證這些文本的正確性,已經(jīng)成為自然語言處理研究人員關(guān)注的熱點(diǎn)。目前,在蒙古文信息處理研究中,校對(duì)領(lǐng)域的工作一直以來是一個(gè)空白。長(zhǎng)期以來,研究人員采用基于字典的校對(duì)方法。該方法在詞典信息量小的情況下,其效率還能被用戶接受。但隨著信息量的不斷增大,,校對(duì)的效率將會(huì)下降。本文的目標(biāo)是提出一個(gè)能夠很好解決目前蒙古文校對(duì)領(lǐng)域問題的新方法。主要工作如下: 首先,介紹了蒙古文詞法和語法方面的相關(guān)知識(shí)。結(jié)合蒙古文的詞法特點(diǎn),從蒙古文單詞包含的字符數(shù)量、音節(jié)數(shù)量和音節(jié)位置三個(gè)角度對(duì)蒙古文詞匯特性進(jìn)行了初步分析。 其次,重點(diǎn)研究了在自然語言處理領(lǐng)域常用的計(jì)算模型和文本相似度計(jì)算領(lǐng)域的相關(guān)技術(shù)。結(jié)合對(duì)蒙古文詞匯特性的分析和各計(jì)算模型的比較,本文提出了基于音節(jié)的2-gram蒙古文校對(duì)模型;同時(shí)從校對(duì)模型設(shè)計(jì)、校對(duì)模型學(xué)習(xí)算法設(shè)計(jì)和校對(duì)算法設(shè)計(jì)三個(gè)方面進(jìn)行詳細(xì)論述。另外,結(jié)合蒙古文的實(shí)際特點(diǎn),論文提出了基于有向圖的文本錯(cuò)誤分析方法,并對(duì)各類型錯(cuò)誤進(jìn)行了分析。
【關(guān)鍵詞】:
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2007
【分類號(hào)】:TP391.1
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 溫晉根;實(shí)用型世界語文本校對(duì)程序[J];電腦開發(fā)與應(yīng)用;1997年04期
2 王永景;劉功申;李生紅;荊濤;;用于文本校對(duì)的分詞與詞性標(biāo)注一體化算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年08期
3 郝莉;敖登巴拉;鞏政;圖雅;;基于貝葉斯算法的蒙古文文本自動(dòng)校對(duì)研究[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年04期
4 戴文華,焦翠珍,徐斌;基于統(tǒng)計(jì)的自然語言處理模型[J];咸寧學(xué)院學(xué)報(bào);2005年03期
5 張強(qiáng);陶宏才;;基于HTK的語音識(shí)別語言模型設(shè)計(jì)及性能分析[J];成都信息工程學(xué)院學(xué)報(bào);2009年02期
6 趙巖;王曉龍;徐志明;劉秉權(quán);;利用詞性信息改進(jìn)Katz平滑算法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2007年09期
7 李學(xué)明;唐相楨;;基于3-gram模型和數(shù)據(jù)挖掘技術(shù)的元數(shù)據(jù)預(yù)取[J];重慶大學(xué)學(xué)報(bào);2008年06期
8 林暉;林劼;;基于Markov模型的改進(jìn)型疑錯(cuò)窗口算法[J];實(shí)驗(yàn)科學(xué)與技術(shù);2008年04期
9 陳智鵬;呂玉琴;劉華生;劉剛;屠輝;;基于N-gram統(tǒng)計(jì)模型的搜索引擎中文糾錯(cuò)[J];中國(guó)電子科學(xué)研究院學(xué)報(bào);2009年03期
10 胡俊鋒;陳浩;陳蓉;譚斌;于中華;;基于感知器的生物醫(yī)學(xué)命名實(shí)體邊界識(shí)別算法[J];計(jì)算機(jī)應(yīng)用;2007年12期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 詹津明;牟曉隆;李樹青;方棣棠;;一個(gè)大字表語音識(shí)別系統(tǒng)中的語言模型[A];第五屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1998年
2 趙軍;敖其爾;吉仁尼格;鞏政;葡萄;陳建東;;基于統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)[A];民族語言文字信息技術(shù)研究——第十一屆全國(guó)民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
3 才讓加;頭旦才讓;周毛先;;藏語語料庫(kù)加工方法研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
4 努爾艾力·喀迪爾;彭良瑞;;基于SRILM的阿拉伯和維吾爾文語言模型建立方法[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前4條
1 《計(jì)算機(jī)世界》評(píng)測(cè)實(shí)驗(yàn)室 郭見洌;[N];計(jì)算機(jī)世界;2000年
2 本報(bào)實(shí)習(xí)生 譚征;[N];市場(chǎng)報(bào);2002年
3 曉文;[N];通信產(chǎn)業(yè)報(bào);2000年
4 記者 李光明 實(shí)習(xí)生 范天嬌;[N];法制日?qǐng)?bào);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 趙軍;基于音節(jié)統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2007年
2 郇政永;基于OCR的中文文本校對(duì)研究[D];北方工業(yè)大學(xué);2011年
3 秦健;N-gram技術(shù)在中文詞法分析中的應(yīng)用研究[D];中國(guó)海洋大學(xué);2009年
4 毛偉;基于統(tǒng)計(jì)語言模型的中文自動(dòng)文本分類系統(tǒng)[D];北京郵電大學(xué);2006年
5 楊永火;組合向量空間模型和語言模型的信息檢索系統(tǒng)[D];天津大學(xué);2006年
6 唐相楨;基于數(shù)據(jù)挖掘的文件元數(shù)據(jù)預(yù)取研究與實(shí)現(xiàn)[D];重慶大學(xué);2008年
7 伊力亞爾·加爾木哈買提;哈薩克文語料庫(kù)詞匯校對(duì)研究[D];新疆大學(xué);2008年
8 戚婕;基于遺傳算法的金融高性能計(jì)算[D];中南大學(xué);2011年
9 孫善祿;搜索引擎糾錯(cuò)算法研究與糾錯(cuò)Bad Case挖掘[D];大連理工大學(xué);2013年
10 陳智鵬;基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究[D];北京郵電大學(xué);2010年
本文關(guān)鍵詞:基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):129181
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/129181.html