天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于音節(jié)統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2016-10-02 18:13

  本文關(guān)鍵詞:基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究,由筆耕文化傳播整理發(fā)布。


《內(nèi)蒙古大學(xué)》 2007年

基于音節(jié)統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)

趙軍  

【摘要】: 隨著社會(huì)的信息化不斷深入發(fā)展,電子雜志、報(bào)刊、文檔等各種電子出版物不斷涌現(xiàn)。如何保證這些文本的正確性,已經(jīng)成為自然語言處理研究人員關(guān)注的熱點(diǎn)。目前,在蒙古文信息處理研究中,校對(duì)領(lǐng)域的工作一直以來是一個(gè)空白。長(zhǎng)期以來,研究人員采用基于字典的校對(duì)方法。該方法在詞典信息量小的情況下,其效率還能被用戶接受。但隨著信息量的不斷增大,,校對(duì)的效率將會(huì)下降。本文的目標(biāo)是提出一個(gè)能夠很好解決目前蒙古文校對(duì)領(lǐng)域問題的新方法。主要工作如下: 首先,介紹了蒙古文詞法和語法方面的相關(guān)知識(shí)。結(jié)合蒙古文的詞法特點(diǎn),從蒙古文單詞包含的字符數(shù)量、音節(jié)數(shù)量和音節(jié)位置三個(gè)角度對(duì)蒙古文詞匯特性進(jìn)行了初步分析。 其次,重點(diǎn)研究了在自然語言處理領(lǐng)域常用的計(jì)算模型和文本相似度計(jì)算領(lǐng)域的相關(guān)技術(shù)。結(jié)合對(duì)蒙古文詞匯特性的分析和各計(jì)算模型的比較,本文提出了基于音節(jié)的2-gram蒙古文校對(duì)模型;同時(shí)從校對(duì)模型設(shè)計(jì)、校對(duì)模型學(xué)習(xí)算法設(shè)計(jì)和校對(duì)算法設(shè)計(jì)三個(gè)方面進(jìn)行詳細(xì)論述。另外,結(jié)合蒙古文的實(shí)際特點(diǎn),論文提出了基于有向圖的文本錯(cuò)誤分析方法,并對(duì)各類型錯(cuò)誤進(jìn)行了分析。

【關(guān)鍵詞】:
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2007
【分類號(hào)】:TP391.1
【目錄】:

  • 摘要4-5
  • ABSTRACT5-7
  • 目錄7-9
  • 圖表目錄9-10
  • 第一章 引言10-14
  • 1.1 自然語言信息處理研究的本質(zhì)及意義10-11
  • 1.2 本文主要開展的研究工作11-12
  • 1.3 論文結(jié)構(gòu)12-14
  • 第二章 自然語言詞匯信息處理研究現(xiàn)狀14-19
  • 2.1 自然語言詞匯信息處理研究的目的和意義14
  • 2.2 國(guó)內(nèi)外自然語言詞匯信息處理研究現(xiàn)狀14-19
  • 2.2.1 英文詞匯信息處理研究15
  • 2.2.2 漢文詞匯信息處理研究15-18
  • 2.2.3 少數(shù)民族語言詞匯信息處理研究18-19
  • 第三章 蒙古文詞匯特性分析19-24
  • 3.1 概述19
  • 3.2 語言知識(shí)概述19
  • 3.3 蒙古文詞匯信息分析19-24
  • 3.3.1 蒙古文詞長(zhǎng)性質(zhì)分析19-21
  • 3.3.2 音節(jié)特性分析21-24
  • 第四章 蒙古文詞匯校對(duì)模型24-34
  • 4.1 語言模型24-29
  • 4.1.1 短語結(jié)構(gòu)語法24-25
  • 4.1.2 統(tǒng)計(jì)語言模型25-29
  • 4.1.2.1 基于概率分布的語言模型25-26
  • 4.1.2.2 基于上下文信息的語言建模26-29
  • 4.2 蒙古文詞匯校對(duì)模型設(shè)計(jì)29-31
  • 4.3 模型學(xué)習(xí)算法設(shè)計(jì)31-32
  • 4.4 蒙古文校對(duì)算法32-34
  • 第五章 蒙古文音節(jié)相似性度量34-40
  • 5.1 文本相似度34-38
  • 5.1.1 相似度34
  • 5.1.2 相似度計(jì)算的主要方法34-38
  • 5.2 蒙古文音節(jié)相似性度量38-40
  • 第六章 錯(cuò)誤類型分析40-44
  • 1、錯(cuò)誤類型一—多余字母40-41
  • 2、錯(cuò)誤類型二—遺漏字母41-42
  • 3、錯(cuò)誤類型三—錯(cuò)錄字母42-44
  • 第七章 校對(duì)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)44-49
  • 7.1 系統(tǒng)總體模塊劃分及調(diào)用關(guān)系設(shè)計(jì)44
  • 7.2 系統(tǒng)實(shí)現(xiàn)44-49
  • 7.2.1 預(yù)處理模塊實(shí)現(xiàn)44-46
  • 7.2.2 音節(jié)切分模塊46
  • 7.2.3 蒙古文校對(duì)系統(tǒng)46-49
  • 第八章 結(jié)論與展望49-51
  • 8.1 主要結(jié)論49
  • 8.2 本文的創(chuàng)新之處49
  • 8.3 后續(xù)的研究工作49-51
  • 參考文獻(xiàn)51-54
  • 致謝54
  • 下載全文 更多同類文獻(xiàn)

    CAJ全文下載

    (如何獲取全文? 歡迎:購(gòu)買知網(wǎng)充值卡、在線充值、在線咨詢)

    CAJViewer閱讀器支持CAJ、PDF文件格式


    【相似文獻(xiàn)】

    中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

    1 溫晉根;實(shí)用型世界語文本校對(duì)程序[J];電腦開發(fā)與應(yīng)用;1997年04期

    2 王永景;劉功申;李生紅;荊濤;;用于文本校對(duì)的分詞與詞性標(biāo)注一體化算法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年08期

    3 郝莉;敖登巴拉;鞏政;圖雅;;基于貝葉斯算法的蒙古文文本自動(dòng)校對(duì)研究[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年04期

    4 戴文華,焦翠珍,徐斌;基于統(tǒng)計(jì)的自然語言處理模型[J];咸寧學(xué)院學(xué)報(bào);2005年03期

    5 張強(qiáng);陶宏才;;基于HTK的語音識(shí)別語言模型設(shè)計(jì)及性能分析[J];成都信息工程學(xué)院學(xué)報(bào);2009年02期

    6 趙巖;王曉龍;徐志明;劉秉權(quán);;利用詞性信息改進(jìn)Katz平滑算法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2007年09期

    7 李學(xué)明;唐相楨;;基于3-gram模型和數(shù)據(jù)挖掘技術(shù)的元數(shù)據(jù)預(yù)取[J];重慶大學(xué)學(xué)報(bào);2008年06期

    8 林暉;林劼;;基于Markov模型的改進(jìn)型疑錯(cuò)窗口算法[J];實(shí)驗(yàn)科學(xué)與技術(shù);2008年04期

    9 陳智鵬;呂玉琴;劉華生;劉剛;屠輝;;基于N-gram統(tǒng)計(jì)模型的搜索引擎中文糾錯(cuò)[J];中國(guó)電子科學(xué)研究院學(xué)報(bào);2009年03期

    10 胡俊鋒;陳浩;陳蓉;譚斌;于中華;;基于感知器的生物醫(yī)學(xué)命名實(shí)體邊界識(shí)別算法[J];計(jì)算機(jī)應(yīng)用;2007年12期

    中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條

    1 詹津明;牟曉隆;李樹青;方棣棠;;一個(gè)大字表語音識(shí)別系統(tǒng)中的語言模型[A];第五屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議論文集[C];1998年

    2 趙軍;敖其爾;吉仁尼格;鞏政;葡萄;陳建東;;基于統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)[A];民族語言文字信息技術(shù)研究——第十一屆全國(guó)民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

    3 才讓加;頭旦才讓;周毛先;;藏語語料庫(kù)加工方法研究[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

    4 努爾艾力·喀迪爾;彭良瑞;;基于SRILM的阿拉伯和維吾爾文語言模型建立方法[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

    中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前4條

    1 《計(jì)算機(jī)世界》評(píng)測(cè)實(shí)驗(yàn)室 郭見洌;[N];計(jì)算機(jī)世界;2000年

    2 本報(bào)實(shí)習(xí)生 譚征;[N];市場(chǎng)報(bào);2002年

    3 曉文;[N];通信產(chǎn)業(yè)報(bào);2000年

    4 記者 李光明 實(shí)習(xí)生 范天嬌;[N];法制日?qǐng)?bào);2009年

    中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

    1 趙軍;基于音節(jié)統(tǒng)計(jì)語言模型蒙古文詞匯分析校正器的設(shè)計(jì)與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2007年

    2 郇政永;基于OCR的中文文本校對(duì)研究[D];北方工業(yè)大學(xué);2011年

    3 秦健;N-gram技術(shù)在中文詞法分析中的應(yīng)用研究[D];中國(guó)海洋大學(xué);2009年

    4 毛偉;基于統(tǒng)計(jì)語言模型的中文自動(dòng)文本分類系統(tǒng)[D];北京郵電大學(xué);2006年

    5 楊永火;組合向量空間模型和語言模型的信息檢索系統(tǒng)[D];天津大學(xué);2006年

    6 唐相楨;基于數(shù)據(jù)挖掘的文件元數(shù)據(jù)預(yù)取研究與實(shí)現(xiàn)[D];重慶大學(xué);2008年

    7 伊力亞爾·加爾木哈買提;哈薩克文語料庫(kù)詞匯校對(duì)研究[D];新疆大學(xué);2008年

    8 戚婕;基于遺傳算法的金融高性能計(jì)算[D];中南大學(xué);2011年

    9 孫善祿;搜索引擎糾錯(cuò)算法研究與糾錯(cuò)Bad Case挖掘[D];大連理工大學(xué);2013年

    10 陳智鵬;基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究[D];北京郵電大學(xué);2010年


      本文關(guān)鍵詞:基于統(tǒng)計(jì)的搜索引擎中文輸入糾錯(cuò)技術(shù)研究,由筆耕文化傳播整理發(fā)布。



    本文編號(hào):129181

    資料下載
    論文發(fā)表

    本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/129181.html


    Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

    版權(quán)申明:資料由用戶0dbe4***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com