Lucene中文分詞在電子檔案全文檢索中的應(yīng)用研究
發(fā)布時(shí)間:2017-12-19 07:35
本文關(guān)鍵詞:Lucene中文分詞在電子檔案全文檢索中的應(yīng)用研究
更多相關(guān)文章: 全文檢索 Lucene 中文分詞 索引模塊
【摘要】:現(xiàn)在的電子檔案基本都為用戶提供了信息檢索功能,但覺大多數(shù)的電子檔案系統(tǒng)僅支持關(guān)鍵字匹配檢索,且只能檢索數(shù)據(jù)庫中的信息,對(duì)于那些以文件方式存儲(chǔ)在磁盤上信息卻無能為力,或者一些系統(tǒng)采用了數(shù)據(jù)庫自帶的全文檢索功能,但是檢索結(jié)果卻很難令用戶滿意。本文的工作是為華錄松下電子檔案管理系統(tǒng)的項(xiàng)目而做的。該電子檔案管理系統(tǒng)的文件存儲(chǔ)在藍(lán)光光盤上,文件的格式主要有word、pdf和txt等。項(xiàng)目要求實(shí)現(xiàn)全文檢索的功能,現(xiàn)有成熟的搜索引擎不適合該項(xiàng)目。Lucene作為一個(gè)開源的全文檢索引擎工具包,具有完整的索引引擎和搜索引擎。因此,本文利用Lucene開發(fā)該項(xiàng)目專屬的全文檢索系統(tǒng)。針對(duì)Lucene對(duì)中文分詞支持效果不理想的問題,本文做了如下工作:提出了采用正逆向逐字切分法;加入了詞性標(biāo)注模塊,使其在歧義處理和未登錄詞處理方面的效果得到了提高;添加了人名、地名等鏈接詞庫,進(jìn)一步提高了分詞準(zhǔn)確性。本文的全文檢索對(duì)象是計(jì)算機(jī)相關(guān)文檔,因此對(duì)索引模塊做如下優(yōu)化:(1)改進(jìn)索引詞典文件結(jié)構(gòu),將檢索詞按計(jì)算機(jī)專業(yè)詞匯和非計(jì)算機(jī)專業(yè)詞匯進(jìn)行分類。檢索時(shí)只將存放計(jì)算機(jī)專業(yè)詞匯的索引詞典文件導(dǎo)入內(nèi)存中,減少不必要的檢索響應(yīng)時(shí)間;(2)對(duì)待索引文檔設(shè)置權(quán)值。Lucene沒有對(duì)待索引文檔設(shè)置權(quán)值。為了提高搜索的效果,本文對(duì)待索引文檔設(shè)置不同的權(quán)值;(3)改變索引方式。Lucene的索引方式頻繁地進(jìn)行I/0操作,索引效率較低。本文采用以內(nèi)存為緩沖區(qū)建索引文件的分布式并行索引建立方式,縮短索引的建立時(shí)間。本文最后對(duì)所構(gòu)建的全文檢索系統(tǒng)進(jìn)行相關(guān)測(cè)試。從最終的測(cè)試結(jié)果可以看出:本文所提出的中文分詞算法在精度和效率兩個(gè)方面能夠基本滿足需要;優(yōu)化之后的索引模塊在進(jìn)行檢索時(shí)具有更高的效率。
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 張校乾;基于Lucene的全文檢索系統(tǒng)的研究與應(yīng)用[D];大連理工大學(xué);2005年
,本文編號(hào):1307362
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1307362.html
最近更新
教材專著