天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于MMSEG算法的中文分詞器的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-06-15 14:06

  本文關(guān)鍵詞:基于MMSEG算法的中文分詞器的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的不斷發(fā)展和繁榮,信息也開(kāi)始呈現(xiàn)爆炸式的發(fā)展,整個(gè)互聯(lián)網(wǎng)的信息量體量越來(lái)越龐大,這么大數(shù)據(jù)量對(duì)互聯(lián)網(wǎng)公司來(lái)說(shuō)都是極大的挑戰(zhàn),不論是信息的存儲(chǔ)還是信息的查詢(xún)。對(duì)于搜索引擎來(lái)說(shuō),其核心技術(shù)就是分詞器。對(duì)于中文搜索來(lái)說(shuō)其核心技術(shù)就是中文分詞器。中文分詞與英文分詞有很大的區(qū)別,這樣在中文本身的特點(diǎn)。如果有效進(jìn)行中文分詞,提高分詞正確率是亟待解決的重要問(wèn)題。本文正是在這樣的背景下提出了中文分詞算法的研究,并給予算法進(jìn)行中文分詞器的實(shí)現(xiàn)。本文主要對(duì)MMSEG算法進(jìn)行深入的研究,特別是它的復(fù)雜分詞模式和歧義處理規(guī)則的分析。在此基礎(chǔ)上結(jié)合Lucene搜索框架實(shí)現(xiàn)了中文分詞器MMSEG Analyzer。本文主要的工作內(nèi)容如下:首先對(duì)Lucene搜索框架進(jìn)行了深入的分析,這里包括Lucene的體系結(jié)構(gòu)和索引技術(shù),通過(guò)對(duì)Lucene的深入分析,為中文分詞器MMSEGAnalyzer的設(shè)計(jì)提供了方法論。對(duì)當(dāng)前的中文分詞算法進(jìn)行了深入的分析,尤其對(duì)中文分詞當(dāng)前的主要難題歧義分詞進(jìn)行歸類(lèi)和分析。然后對(duì)MMSEG中文分詞算法進(jìn)行了詳細(xì)的分析,這里主要從詞典的實(shí)現(xiàn)方案、分詞算法以及歧義消除規(guī)則。詞典的實(shí)現(xiàn)方案目前主要有基于整詞二分的詞典構(gòu)造、基于逐字二分的詞典構(gòu)造以及基于TRIE索引樹(shù)的詞典構(gòu)造等。MMSEG算法目前的分詞算法主要分為簡(jiǎn)單最大匹配算法和復(fù)雜最大匹配算法。最后對(duì)MMSEGAnalyzer中文分詞器進(jìn)行了詳細(xì)的設(shè)計(jì)和實(shí)現(xiàn)。MMSEGAnalyzer中文分詞器的實(shí)現(xiàn)也可分為四大塊:詞典管理模塊、分詞模塊、分詞歧義處理模塊、Lucene接口管理模塊。詞典管理模塊主要負(fù)責(zé)詞典的存儲(chǔ)、加載和解析,本文主要從詞典加載、詞典解析以及詞典自動(dòng)加載等三個(gè)方面展開(kāi)了實(shí)現(xiàn)。分詞歧義處理模塊根據(jù)MMSEG算法的四大歧義處理規(guī)則實(shí)現(xiàn)的,這些過(guò)濾規(guī)則在復(fù)雜最大匹配分詞模塊中使用。Lucene接口管理模塊主要提供了MMSEGAnalyzer中文分詞器對(duì)Lucene的分詞器的接入,實(shí)現(xiàn)了對(duì)Lucene的集成。本文基于MMSEG分詞算法實(shí)現(xiàn)了MMSEGAnalyzer中文分詞器。MMSEGAnalyzer中文分詞器通過(guò)Lucene可以很好的實(shí)現(xiàn)中文分詞應(yīng)用場(chǎng)景,很大提高了中文分詞的準(zhǔn)確率。
【關(guān)鍵詞】:MMSEG算法 詞典 中文分詞 分詞器 lucene 分詞算法
【學(xué)位授予單位】:湖南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP311.52;TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-12
  • 第1章 前言12-18
  • 1.1 課題來(lái)源12
  • 1.2 選題的目的與意義12-13
  • 1.3 國(guó)內(nèi)外發(fā)展現(xiàn)狀13-16
  • 1.4 研究?jī)?nèi)容16
  • 1.5 論文組織結(jié)構(gòu)16-18
  • 第2章 相關(guān)技術(shù)研究18-29
  • 2.1 Lucene18-22
  • 2.1.1 Lucene的介紹18-19
  • 2.1.2 Lucene系統(tǒng)結(jié)構(gòu)19-20
  • 2.1.3 Lucene索引技術(shù)20-22
  • 2.2 中文分詞技術(shù)22-26
  • 2.2.1 中文分詞算法22-25
  • 2.2.2 分詞歧義25-26
  • 2.3 開(kāi)發(fā)工具Eclipse26-27
  • 2.4 本章小結(jié)27-29
  • 第3章 MMSEG中文分詞算法29-35
  • 3.1 詞典29-32
  • 3.1.1 基于整詞二分的分詞詞典機(jī)制29-30
  • 3.1.2 基于逐字二分的分詞詞典機(jī)制30
  • 3.1.3 基于TRIE索引樹(shù)的分詞詞典機(jī)制30-32
  • 3.2 分詞算法32
  • 3.3 歧義消除規(guī)則32-34
  • 3.4 本章小結(jié)34-35
  • 第4章 基于MMSEG算法的中文分詞器設(shè)計(jì)35-43
  • 4.1 MMSEGAnalyzer中文分詞器的框架35-37
  • 4.2 詞典管理設(shè)計(jì)37-40
  • 4.2.1 詞典存儲(chǔ)結(jié)構(gòu)的設(shè)計(jì)37-39
  • 4.2.2 詞典加載功能設(shè)計(jì)39-40
  • 4.3 分詞算法的設(shè)計(jì)40-41
  • 4.4 分詞歧義處理設(shè)計(jì)41-42
  • 4.5 本章小結(jié)42-43
  • 第5章 基于MMSEG算法的中文分詞器的實(shí)現(xiàn)43-64
  • 5.1 詞典機(jī)制實(shí)現(xiàn)43-49
  • 5.1.1 詞典的加載實(shí)現(xiàn)43-45
  • 5.1.2 詞典的類(lèi)型識(shí)別和存儲(chǔ)45-48
  • 5.1.3 詞典自動(dòng)加載功能48-49
  • 5.2 分詞算法實(shí)現(xiàn)49-54
  • 5.3 分詞歧義處理實(shí)現(xiàn)54-57
  • 5.4 Lucene接口實(shí)現(xiàn)57-60
  • 5.5 MMSEGAnalyzer測(cè)試60-63
  • 5.5.1 MMSEGAnalyzer功能測(cè)試60-61
  • 5.5.2 分詞性能測(cè)試61-63
  • 5.6 本章小結(jié)63-64
  • 結(jié)論64-66
  • 參考文獻(xiàn)66-70
  • 致謝70

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 張茂元,盧正鼎,鄒春燕;一種基于語(yǔ)境的中文分詞方法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2005年01期

2 程傳鵬;;一種簡(jiǎn)單高效的中文分詞方法[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào);2006年03期

3 張博;姜建國(guó);萬(wàn)平國(guó);;對(duì)互聯(lián)網(wǎng)環(huán)境下中文分詞系統(tǒng)的一種架構(gòu)改進(jìn)[J];計(jì)算機(jī)應(yīng)用研究;2006年11期

4 夏新松;肖建國(guó);;一種新的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法在中文分詞中的應(yīng)用[J];計(jì)算機(jī)科學(xué);2006年03期

5 周軍;王艷紅;;一種基于詞典的中文分詞法的設(shè)計(jì)與實(shí)現(xiàn)[J];黑龍江科技信息;2008年25期

6 許高建;胡學(xué)鋼;路遙;王慶人;;一種改進(jìn)的中文分詞歧義消除算法研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年10期

7 張培穎;;運(yùn)用有向圖進(jìn)行中文分詞研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年22期

8 吳晶晶;荊繼武;聶曉峰;王平建;;一種快速中文分詞詞典機(jī)制[J];中國(guó)科學(xué)院研究生院學(xué)報(bào);2009年05期

9 袁健;張勁松;馬良;;二次回溯中文分詞方法[J];計(jì)算機(jī)應(yīng)用研究;2009年09期

10 劉智文;;利用系統(tǒng)整合提高中文分詞精度的方法研究[J];現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版);2009年10期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 王敏;葉寬余;薛峰;;一種面向網(wǎng)店商品搜索的中文分詞系統(tǒng)設(shè)計(jì)[A];全國(guó)第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國(guó)第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

2 黃昌寧;趙海;;由字構(gòu)詞——中文分詞新方法[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

3 任飛亮;石磊;姚天順;;應(yīng)用支持向量機(jī)進(jìn)行中文分詞[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

4 吳晶晶;荊繼武;王平建;;一種基于詞典的新型中文分詞機(jī)制[A];全國(guó)網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年

5 李玉梅;靳光瑾;黃昌寧;;中文分詞規(guī)范中的歧義字段消解細(xì)則[A];第五屆全國(guó)語(yǔ)言文字應(yīng)用學(xué)術(shù)研討會(huì)論文集[C];2007年

6 修馳;宋柔;;基于“大詞”實(shí)例的中文分詞研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

7 黃居仁;;瓶頸,挑戰(zhàn),與轉(zhuǎn)機(jī):中文分詞研究的新思維[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

8 趙海;揭春雨;;基于子串標(biāo)注的中文分詞:尋找更佳的標(biāo)注單元[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

9 李壽山;黃居仁;;基于詞邊界分類(lèi)的中文分詞方法[A];中國(guó)計(jì)算機(jī)語(yǔ)言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年

10 張梅山;鄧知龍;車(chē)萬(wàn)翔;劉挺;;統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前2條

1 本報(bào)記者 張彤;讓計(jì)算機(jī)說(shuō)中國(guó)話(huà)[N];網(wǎng)絡(luò)世界;2004年

2 清華大學(xué)IT可用性實(shí)驗(yàn)室;2005中文搜索引擎質(zhì)量對(duì)比[N];計(jì)算機(jī)世界;2005年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前4條

1 奚寧;統(tǒng)計(jì)機(jī)器翻譯中的中文分詞策略研究[D];南京大學(xué);2013年

2 修馳;適應(yīng)于不同領(lǐng)域的中文分詞方法研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2013年

3 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年

4 李志國(guó);面向分布式文本知識(shí)管理的中文分詞與文本分類(lèi)研究[D];重慶大學(xué);2008年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 朱云杰;大數(shù)據(jù)環(huán)境下垃圾評(píng)論過(guò)濾系統(tǒng)的研究與實(shí)現(xiàn)[D];東南大學(xué);2015年

2 呂先超;視障漢語(yǔ)轉(zhuǎn)換軟件SunBraille的設(shè)計(jì)實(shí)現(xiàn)[D];蘭州大學(xué);2016年

3 黃積楊;基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D];南京大學(xué);2016年

4 梁科;面向中醫(yī)醫(yī)案的數(shù)據(jù)挖掘技術(shù)研究及應(yīng)用[D];山東大學(xué);2016年

5 鄭宗榮;基于實(shí)例的中文分詞系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2016年

6 張永邦;搜索引擎理論與技術(shù)研究[D];南京郵電大學(xué);2016年

7 劉巖;基于MMSEG算法的中文分詞器的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2016年

8 何榮杰;基于Lucene的全文搜索引擎的研究與實(shí)現(xiàn)[D];江蘇科技大學(xué);2016年

9 曾慶妍;基于A(yíng)LICE的研究生招生咨詢(xún)智能聊天系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];山東師范大學(xué);2016年

10 王荔;統(tǒng)計(jì)全切分中文分詞系統(tǒng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年


  本文關(guān)鍵詞:基于MMSEG算法的中文分詞器的設(shè)計(jì)與實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。



本文編號(hào):452618

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/452618.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)19896***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com