天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

中文分詞技術(shù)在搜索引擎中的研究與應(yīng)用

發(fā)布時(shí)間:2017-10-23 06:13

  本文關(guān)鍵詞:中文分詞技術(shù)在搜索引擎中的研究與應(yīng)用


  更多相關(guān)文章: 中文分詞 搜索引擎 Lucene 最大匹配算法 雙字哈希 歧義處理


【摘要】:中文分詞是計(jì)算機(jī)進(jìn)行漢語文本分析的關(guān)鍵技術(shù),分詞算法的好壞直接影響中文分析系統(tǒng)的實(shí)用性,搜索引擎是中文分詞技術(shù)的重要應(yīng)用之一。如何用更短的時(shí)間得到更高的分詞精確度是目前的研究重點(diǎn)和熱點(diǎn);谧址ヅ涞姆衷~算法是當(dāng)前使用最為廣泛的中文分詞算法,而最大匹配算法是最常用的基于字符串匹配的分詞算法。本文通過分析最大匹配算法的不足,結(jié)合高效的雙字哈希詞典機(jī)制,提出基于雙字哈希詞長分組詞典結(jié)構(gòu)的正向最大匹配改進(jìn)算法,分詞性能明顯提高;然后借用匹配過程進(jìn)行歧義處理,減少錯(cuò)誤切分;之后使用改進(jìn)算法思想重新設(shè)計(jì)Lucene中的中文文本分析模塊,優(yōu)化搜索引擎系統(tǒng)。實(shí)驗(yàn)表明本文提出的基于雙字哈希詞長分組詞典結(jié)構(gòu)的正向最大匹配改進(jìn)算法比最大匹配算法有較大性能提升。本文所做工作總結(jié)如下:1.通過對最大匹配算法的研究,分析最大匹配算法存在的3個(gè)問題,并針對每個(gè)問題提出解決辦法。2.根據(jù)最大匹配算法不足改進(jìn)算法流程,提高分詞性能,并針對改進(jìn)算法的需求設(shè)計(jì)雙字哈希詞長分組的詞典機(jī)制,提出基于雙字哈希詞長分組詞典結(jié)構(gòu)的正向最大匹配改進(jìn)算法。該算法對于每一次匹配都能動(dòng)態(tài)選擇合適匹配初始位置和匹配長度,并能快速的對詞典進(jìn)行查找,減少不必要的匹配消耗,無論從分詞速度還是精確度上都較傳統(tǒng)算法有了一定提升。3.根據(jù)改進(jìn)算法的匹配過程,結(jié)合最大匹配算法+回退一字法算法思想,有效消除部分交集型歧義,使分詞結(jié)果更加準(zhǔn)確。4.通過對搜索引擎知識和Lucene開發(fā)包的學(xué)習(xí),基于Lucene搭建簡單的搜索引擎系統(tǒng)。根據(jù)改進(jìn)算法重新設(shè)計(jì)Lucene中文分析模塊,提高了基于Lucene的搜索引擎系統(tǒng)應(yīng)用性能。5.對基于雙字哈希詞長分組詞典結(jié)構(gòu)的正向最大匹配改進(jìn)算法進(jìn)行實(shí)驗(yàn)評估。首先使用不同詞典機(jī)制對相同語料進(jìn)行分詞,驗(yàn)證本文選取的雙字哈希詞典性能;然后通過使用本文改進(jìn)算法及正向最大匹配算法對相同語料分別進(jìn)行分詞,比較結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出算法在分詞速度及分詞精度上都優(yōu)于正向最大匹配算法,達(dá)到了改進(jìn)目的。
【關(guān)鍵詞】:中文分詞 搜索引擎 Lucene 最大匹配算法 雙字哈希 歧義處理
【學(xué)位授予單位】:青島科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3
【目錄】:
  • 摘要3-4
  • ABSTRACT4-8
  • 1 緒論8-15
  • 1.1 研究背景與意義8-9
  • 1.2 中文分詞研究現(xiàn)狀9-10
  • 1.3 搜索引擎概述10-13
  • 1.3.1 搜索引擎簡介10-11
  • 1.3.2 搜索引擎發(fā)展歷史及現(xiàn)狀11-13
  • 1.4 本文研究內(nèi)容13-14
  • 1.5 論文結(jié)構(gòu)安排14-15
  • 2 中文分詞概述15-28
  • 2.1 中文分詞詞典機(jī)制15-19
  • 2.1.1 基于整詞二分詞典機(jī)制15-16
  • 2.1.2 基于Trie索引樹詞典機(jī)制16-17
  • 2.1.3 基于逐字二分詞典機(jī)制17-18
  • 2.1.4 基于雙字哈希的詞典機(jī)制18-19
  • 2.2 中文分詞主要方法19-22
  • 2.2.1 基于字符串匹配的分詞算法20-21
  • 2.2.2 基于統(tǒng)計(jì)的分詞算法21-22
  • 2.2.3 基于理解的分詞算法22
  • 2.3 中文分詞難點(diǎn)22-27
  • 2.3.1 分詞歧義22-24
  • 2.3.2 新詞識別24
  • 2.3.3 分詞規(guī)范24-25
  • 2.3.4 歧義采集方法25-27
  • 2.4 本章小結(jié)27-28
  • 3 最大匹配算法改進(jìn)及詞典優(yōu)化28-42
  • 3.1 最大匹配算法分析及改進(jìn)28-34
  • 3.1.1 最大匹配算法分析29-30
  • 3.1.2 最大匹配算法改進(jìn)思路30-32
  • 3.1.3 改進(jìn)后的正向最大匹配算法32-34
  • 3.2 雙字哈希詞長分組詞典機(jī)制設(shè)計(jì)34-36
  • 3.3 基于雙字哈希詞長分組詞典結(jié)構(gòu)的最大匹配改進(jìn)算法36-39
  • 3.4 分詞歧義處理39-41
  • 3.5 本章小結(jié)41-42
  • 4 改進(jìn)算法在Lucene中的應(yīng)用實(shí)現(xiàn)42-55
  • 4.1 搜索引擎開發(fā)平臺(tái)Lucene42-44
  • 4.2 Lucene系統(tǒng)結(jié)構(gòu)44-46
  • 4.3 Lucene索引和檢索實(shí)現(xiàn)46-47
  • 4.3.1 Lucene索引實(shí)現(xiàn)46-47
  • 4.3.2 Lucene檢索實(shí)現(xiàn)47
  • 4.4 中文分詞模塊框架設(shè)計(jì)47-49
  • 4.5 構(gòu)造GaiJinAnalyzer分詞器49-52
  • 4.6 優(yōu)化的詞典機(jī)制實(shí)現(xiàn)52-53
  • 4.6.1 詞典的結(jié)構(gòu)52
  • 4.6.2 詞典的建立52-53
  • 4.7 基于改進(jìn)算法的分詞工具53-54
  • 4.8 本章小結(jié)54-55
  • 5 實(shí)驗(yàn)結(jié)果及性能測試55-61
  • 5.1 算法測試環(huán)境及衡量標(biāo)準(zhǔn)55
  • 5.2 實(shí)驗(yàn)結(jié)果及性能比較55-60
  • 5.2.1 驗(yàn)證詞典性能57-58
  • 5.2.2 分詞算法比較58-60
  • 5.3 實(shí)驗(yàn)結(jié)果總結(jié)60-61
  • 總結(jié)與展望61-63
  • 參考文獻(xiàn)63-66
  • 致謝66-67
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文67-69

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 張賢坤;李亞南;田雪;;基于雙哈希結(jié)構(gòu)的整詞二分詞典機(jī)制[J];計(jì)算機(jī)工程與設(shè)計(jì);2014年11期

2 莫建文;鄭陽;首照宇;張順嵐;;改進(jìn)的基于詞典的中文分詞方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年05期

3 彭煥峰;丁宋濤;;一種基于全Hash的整詞二分詞典機(jī)制[J];計(jì)算機(jī)工程;2011年21期

4 葉繼平;張桂珠;;中文分詞詞典結(jié)構(gòu)的研究與改進(jìn)[J];計(jì)算機(jī)工程與應(yīng)用;2012年23期

5 王瑞雷;欒靜;潘曉花;盧修配;;一種改進(jìn)的中文分詞正向最大匹配算法[J];計(jì)算機(jī)應(yīng)用與軟件;2011年03期

6 張慶揚(yáng);柴勝;;使用二級索引的中文分詞詞典[J];計(jì)算機(jī)工程與應(yīng)用;2009年19期

7 譚駿珊;吳惠雄;;一種改進(jìn)整詞二分法的中文分詞詞典設(shè)計(jì)[J];信息技術(shù);2009年05期

8 周程遠(yuǎn);朱敏;楊云;;基于詞典的中文分詞算法研究[J];計(jì)算機(jī)與數(shù)字工程;2009年03期

9 高文利;高元先;;基于三數(shù)組Trie索引樹詞典查詢機(jī)制的分詞系統(tǒng)[J];情報(bào)雜志;2009年02期

10 張啟宇;朱玲;張雅萍;;中文分詞算法研究綜述[J];情報(bào)探索;2008年11期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前5條

1 陳建英;面向中文地址的分詞引擎設(shè)計(jì)及實(shí)現(xiàn)[D];中國科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院);2015年

2 紀(jì)曉陽;基于Nutch搜索引擎系統(tǒng)數(shù)據(jù)處理的中文分詞技術(shù)的研究[D];成都理工大學(xué);2014年

3 康晨陽;基于避免交集型歧義的最大匹配算法改進(jìn)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年

4 劉延吉;基于詞典的中文分詞歧義算法研究[D];東北師范大學(xué);2009年

5 褚敬年;面向企業(yè)信息檢索的中文分詞系統(tǒng)的研究與實(shí)現(xiàn)[D];東北大學(xué);2008年

,

本文編號:1081919

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1081919.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d64d6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com