基于Lucene的中文分詞技術(shù)研究與實現(xiàn)
本文關(guān)鍵詞:基于Lucene的中文分詞技術(shù)研究與實現(xiàn)
更多相關(guān)文章: 中文分詞 Lucene 哈希 排序算法
【摘要】:信息技術(shù)的快速發(fā)展推動了互聯(lián)網(wǎng)的信息的不斷豐富和搜索引擎技術(shù)的加速發(fā)展,作為信息檢索之一的中文分詞技術(shù)顯得尤為重要,中文分詞技術(shù)促進了全文檢索技術(shù)的發(fā)展。Lucene便是隨著這一過程而產(chǎn)生發(fā)展的。Lucene是由apache公司開發(fā)的一個開源工具包,其目的是為了實現(xiàn)全文檢索。但在具體的實現(xiàn)上,它仍有很多改進的地方,尤其是在對中文信息的處理上。所以本文的研究重點是Lucene的中文分詞技術(shù)。 在對Lucene進行深入研究后,本文提出Lucene的字符串匹配的改進算法——正向最大增字匹配算法,該算法分詞結(jié)果更加準確,在此基礎(chǔ)上,下文構(gòu)造一種Lucene的分析器MyChAnalzyer,該分析器的核心模塊是基于詞前綴的哈希逐字匹配算法的中文分詞器,通過多種方法測試該分析器的分詞性能,主要考察分詞速度和分詞精度兩個方面,其中,分詞精度方面又通過兩種測試方案來測試。從實驗的結(jié)果來看準確率比lucene自帶的分析器有較大的提高。本文最后一章提出改進的排序結(jié)果算法,該算法是將Lucene自帶的排序結(jié)果算法與PageRank算法結(jié)合并改進的,通過測試10個用戶對三個算法的平均滿意度來說明改進算法的優(yōu)越性。 最后,總結(jié)全文,對未來要進行的工作提出了展望。
【關(guān)鍵詞】:中文分詞 Lucene 哈希 排序算法
【學位授予單位】:浙江工商大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1
【目錄】:
- 摘要2-4
- ABSTRACT4-8
- 第1章 緒論8-15
- 1.1 中文分詞8
- 1.2 中文分詞的研究背景8-9
- 1.3 中文分詞的研究現(xiàn)狀及意義9-11
- 1.3.1 中文分詞的處理方法9-10
- 1.3.2 中文分詞中的難題10-11
- 1.4 中文分詞的研究現(xiàn)狀及意義11-12
- 1.5 中文分詞應(yīng)用的當前主流搜索引擎簡介12-14
- 1.6 本文主要工作和思路14-15
- 第2章 Lucene分析與設(shè)計15-34
- 2.1 Lucene簡介15
- 2.2 Lucene的主要功能及特點15-16
- 2.3 Lucene包結(jié)構(gòu)16-17
- 2.4 Lucene的系統(tǒng)結(jié)構(gòu)圖17-19
- 2.5 Lucene的索引結(jié)構(gòu)19-26
- 2.5.1 Lucene的索引分析19-23
- 2.5.2 使用Lucene進行索引的核心算法23-24
- 2.5.3 使用Lucene實現(xiàn)檢索的核心算法24-25
- 2.5.4 Lucene索引文件格式25
- 2.5.5 倒排索引原理25-26
- 2.6 Lucene的分析器26-30
- 2.6.1 Lucene自帶的中文分詞算法26-27
- 2.6.2 改進的中文分詞算法27-30
- 2.7 實驗結(jié)果30-33
- 2.7.1 準備工作30
- 2.7.2 運行環(huán)境30-33
- 2.7.3 結(jié)果比較33
- 2.8 本章小結(jié)33-34
- 第3章 中文分詞模塊的設(shè)計34-50
- 3.1 MyChAnalyzer的構(gòu)造過程34-36
- 3.2 分詞詞典的構(gòu)造與維護36-39
- 3.3 分詞算法詳述39-43
- 3.3.1 變量說明39
- 3.3.2 算法主要核心思想39-40
- 3.3.3 算法實現(xiàn)40-43
- 3.4 實驗結(jié)果43-49
- 3.4.1 分詞器速度測試43-44
- 3.4.2 精度測試44-48
- 3.4.3 分詞系統(tǒng)比較48-49
- 3.5 本章小結(jié)49-50
- 第4章 Lucene的結(jié)果排序算法改進50-58
- 4.1 以頁面內(nèi)容為基礎(chǔ)的算法50-51
- 4.2 PageRank算法的提出51-52
- 4.3 PageRank基本原理52-54
- 4.4 Direct Hit算法54-55
- 4.5 Lucene排序結(jié)果的改進算法55-56
- 4.6 算法分析56-58
- 第5章 總結(jié)與展望58-59
- 5.1 總結(jié)58
- 5.2 展望58-59
- 參考文獻59-62
- 附錄A:中文分詞程序62-66
- 本文作者碩士期間的科研成果66-67
- 致謝67-68
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李向陽,張亞非;一種Hash高速分詞算法[J];解放軍理工大學學報(自然科學版);2004年02期
2 羅智勇;宋柔;;現(xiàn)代漢語通用分詞系統(tǒng)中歧義切分的實用技術(shù)[J];計算機研究與發(fā)展;2006年06期
3 譚瓊,史忠植;分詞中的歧義處理[J];計算機工程與應(yīng)用;2002年11期
4 郎小偉;王申康;;基于Lucene的全文檢索系統(tǒng)研究與開發(fā)[J];計算機工程;2006年04期
5 馬玉春,宋瀚濤;Web中文文本分詞技術(shù)研究[J];計算機應(yīng)用;2004年04期
6 李志蜀,李果;中文搜索引擎的原理剖析及開發(fā)實現(xiàn)技術(shù)[J];計算機應(yīng)用研究;2001年11期
7 李慶虎,陳玉健,孫家廣;一種中文分詞詞典新機制——雙字哈希機制[J];中文信息學報;2003年04期
8 韓艷;林煜熙;姚建民;;基于統(tǒng)計信息的未登錄詞的擴展識別方法[J];中文信息學報;2009年03期
9 孫西全;馬瑞芳;李燕靈;;基于Lucene的信息檢索的研究與應(yīng)用[J];情報理論與實踐;2006年01期
10 閆引堂,周曉強;交集型歧義字段切分方法研究[J];情報學報;2000年06期
,本文編號:698123
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/698123.html