天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Lucene的中文分詞技術(shù)研究與實現(xiàn)

發(fā)布時間:2017-08-19 02:21

  本文關(guān)鍵詞:基于Lucene的中文分詞技術(shù)研究與實現(xiàn)


  更多相關(guān)文章: 中文分詞 Lucene 哈希 排序算法


【摘要】:信息技術(shù)的快速發(fā)展推動了互聯(lián)網(wǎng)的信息的不斷豐富和搜索引擎技術(shù)的加速發(fā)展,作為信息檢索之一的中文分詞技術(shù)顯得尤為重要,中文分詞技術(shù)促進了全文檢索技術(shù)的發(fā)展。Lucene便是隨著這一過程而產(chǎn)生發(fā)展的。Lucene是由apache公司開發(fā)的一個開源工具包,其目的是為了實現(xiàn)全文檢索。但在具體的實現(xiàn)上,它仍有很多改進的地方,尤其是在對中文信息的處理上。所以本文的研究重點是Lucene的中文分詞技術(shù)。 在對Lucene進行深入研究后,本文提出Lucene的字符串匹配的改進算法——正向最大增字匹配算法,該算法分詞結(jié)果更加準確,在此基礎(chǔ)上,下文構(gòu)造一種Lucene的分析器MyChAnalzyer,該分析器的核心模塊是基于詞前綴的哈希逐字匹配算法的中文分詞器,通過多種方法測試該分析器的分詞性能,主要考察分詞速度和分詞精度兩個方面,其中,分詞精度方面又通過兩種測試方案來測試。從實驗的結(jié)果來看準確率比lucene自帶的分析器有較大的提高。本文最后一章提出改進的排序結(jié)果算法,該算法是將Lucene自帶的排序結(jié)果算法與PageRank算法結(jié)合并改進的,通過測試10個用戶對三個算法的平均滿意度來說明改進算法的優(yōu)越性。 最后,總結(jié)全文,對未來要進行的工作提出了展望。
【關(guān)鍵詞】:中文分詞 Lucene 哈希 排序算法
【學位授予單位】:浙江工商大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【目錄】:
  • 摘要2-4
  • ABSTRACT4-8
  • 第1章 緒論8-15
  • 1.1 中文分詞8
  • 1.2 中文分詞的研究背景8-9
  • 1.3 中文分詞的研究現(xiàn)狀及意義9-11
  • 1.3.1 中文分詞的處理方法9-10
  • 1.3.2 中文分詞中的難題10-11
  • 1.4 中文分詞的研究現(xiàn)狀及意義11-12
  • 1.5 中文分詞應(yīng)用的當前主流搜索引擎簡介12-14
  • 1.6 本文主要工作和思路14-15
  • 第2章 Lucene分析與設(shè)計15-34
  • 2.1 Lucene簡介15
  • 2.2 Lucene的主要功能及特點15-16
  • 2.3 Lucene包結(jié)構(gòu)16-17
  • 2.4 Lucene的系統(tǒng)結(jié)構(gòu)圖17-19
  • 2.5 Lucene的索引結(jié)構(gòu)19-26
  • 2.5.1 Lucene的索引分析19-23
  • 2.5.2 使用Lucene進行索引的核心算法23-24
  • 2.5.3 使用Lucene實現(xiàn)檢索的核心算法24-25
  • 2.5.4 Lucene索引文件格式25
  • 2.5.5 倒排索引原理25-26
  • 2.6 Lucene的分析器26-30
  • 2.6.1 Lucene自帶的中文分詞算法26-27
  • 2.6.2 改進的中文分詞算法27-30
  • 2.7 實驗結(jié)果30-33
  • 2.7.1 準備工作30
  • 2.7.2 運行環(huán)境30-33
  • 2.7.3 結(jié)果比較33
  • 2.8 本章小結(jié)33-34
  • 第3章 中文分詞模塊的設(shè)計34-50
  • 3.1 MyChAnalyzer的構(gòu)造過程34-36
  • 3.2 分詞詞典的構(gòu)造與維護36-39
  • 3.3 分詞算法詳述39-43
  • 3.3.1 變量說明39
  • 3.3.2 算法主要核心思想39-40
  • 3.3.3 算法實現(xiàn)40-43
  • 3.4 實驗結(jié)果43-49
  • 3.4.1 分詞器速度測試43-44
  • 3.4.2 精度測試44-48
  • 3.4.3 分詞系統(tǒng)比較48-49
  • 3.5 本章小結(jié)49-50
  • 第4章 Lucene的結(jié)果排序算法改進50-58
  • 4.1 以頁面內(nèi)容為基礎(chǔ)的算法50-51
  • 4.2 PageRank算法的提出51-52
  • 4.3 PageRank基本原理52-54
  • 4.4 Direct Hit算法54-55
  • 4.5 Lucene排序結(jié)果的改進算法55-56
  • 4.6 算法分析56-58
  • 第5章 總結(jié)與展望58-59
  • 5.1 總結(jié)58
  • 5.2 展望58-59
  • 參考文獻59-62
  • 附錄A:中文分詞程序62-66
  • 本文作者碩士期間的科研成果66-67
  • 致謝67-68

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李向陽,張亞非;一種Hash高速分詞算法[J];解放軍理工大學學報(自然科學版);2004年02期

2 羅智勇;宋柔;;現(xiàn)代漢語通用分詞系統(tǒng)中歧義切分的實用技術(shù)[J];計算機研究與發(fā)展;2006年06期

3 譚瓊,史忠植;分詞中的歧義處理[J];計算機工程與應(yīng)用;2002年11期

4 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J];計算機工程;2006年04期

5 馬玉春,宋瀚濤;Web中文文本分詞技術(shù)研究[J];計算機應(yīng)用;2004年04期

6 李志蜀,李果;中文搜索引擎的原理剖析及開發(fā)實現(xiàn)技術(shù)[J];計算機應(yīng)用研究;2001年11期

7 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學報;2003年04期

8 韓艷;林煜熙;姚建民;;基于統(tǒng)計信息的未登錄詞的擴展識別方法[J];中文信息學報;2009年03期

9 孫西全;馬瑞芳;李燕靈;;基于Lucene的信息檢索的研究與應(yīng)用[J];情報理論與實踐;2006年01期

10 閆引堂,周曉強;交集型歧義字段切分方法研究[J];情報學報;2000年06期

,

本文編號:698123

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/698123.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4e65d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
99久久精品国产麻豆| 邻居人妻人公侵犯人妻视频| 国产白丝粉嫩av在线免费观看| 国产欧美一区二区久久| 日木乱偷人妻中文字幕在线| 加勒比日本欧美在线观看| 国产中文字幕久久黄色片| 永久福利盒子日韩日韩| 欧美日韩校园春色激情偷拍 | 四季精品人妻av一区二区三区| 欧美在线观看视频三区| 成人精品视频在线观看不卡| 91人妻人人精品人人爽| 色无极东京热男人的天堂| 高清一区二区三区四区五区| 日韩欧美好看的剧情片免费| 久久热九九这里只有精品| 97人妻精品免费一区二区| 在线免费观看一二区视频| 亚洲中文字幕在线视频频道| 99国产高清不卡视频| 久热在线视频这里只有精品| 精品午夜福利无人区乱码| 国产精品一区二区视频大全| 日韩无套内射免费精品| 国产精品福利一级久久| 午夜亚洲少妇福利诱惑| 国产高清三级视频在线观看| 美女被后入福利在线观看| 国产韩国日本精品视频| 99香蕉精品视频国产版| 中国少妇精品偷拍视频| 欧美日韩无卡一区二区| 欧美一区二区三区高潮菊竹| 国产三级黄片在线免费看| 国产成人精品在线一区二区三区| 色哟哟哟在线观看视频| 色婷婷国产精品视频一区二区保健 | 色婷婷在线视频免费播放| 狠狠干狠狠操在线播放| 国产精品一区二区视频成人|