基于Lucene的垂直搜索引擎的研究與實現(xiàn)
本文關(guān)鍵詞:基于Lucene的垂直搜索引擎的研究與實現(xiàn)
更多相關(guān)文章: 垂直搜索引擎 Heritrix Lucene HtmlParser 中文分詞算法
【摘要】:隨著互聯(lián)網(wǎng)上的信息不斷膨脹以及信息形式的日漸多元化,通用搜索引擎所需要采集、索引和查詢的內(nèi)容越來越多,然而面對龐大的搜索返回結(jié)果,用戶尋找自己所需要的信息是一件很費力的事情。所以,一個專注于特定領(lǐng)域的、數(shù)據(jù)全面深入、更新及時、注重專業(yè)化與結(jié)構(gòu)分析的垂直搜索引擎應(yīng)運(yùn)而生,如何準(zhǔn)確、及時地返回結(jié)構(gòu)化的信息,以及如何實現(xiàn)垂直搜索引擎在特定領(lǐng)域中的應(yīng)用具有重要的研究意義。 在搜索引擎領(lǐng)域,中文分詞對搜索結(jié)果排名的影響非常大,因為搜索引擎在建立索引和檢索結(jié)果的過程中,都需要先分詞。本文在深入研究基于理解的分詞、基于統(tǒng)計的分詞和基于詞典的分詞、以及歧義詞和未登錄詞處理的基礎(chǔ)上,設(shè)計了一種基于字典的字符串匹配方法和基于統(tǒng)計相結(jié)合的分詞算法,其中基于字典的方法采用逆向最大匹配方法。算法中的詞典由核心詞典和臨時詞典組成,并且核心詞典采用二級哈希存儲結(jié)構(gòu),在此基礎(chǔ)上使用整詞二分法的首字哈希查找技術(shù),可在兼顧結(jié)構(gòu)簡單、空間占用小的情況下提高查找效率。臨時詞典采用單字哈希以簡化其構(gòu)造和維護(hù)。統(tǒng)計策略是解決歧義問題及未登錄詞問題的關(guān)鍵,一個好的統(tǒng)計策略的制定至關(guān)重要。本文計算詞頻的統(tǒng)計策略來解決新詞的識別,其中新詞包括未登錄詞和歧義詞。實驗證明,改進(jìn)后的分詞算法在經(jīng)過不斷的統(tǒng)計與學(xué)習(xí)之后,分詞準(zhǔn)確率保持在98%左右,選擇合適的語料,經(jīng)過不斷地統(tǒng)計與學(xué)習(xí),其性能得到很大的提高并能滿足具體領(lǐng)域的應(yīng)用。 在改進(jìn)的中文分詞算法基礎(chǔ)上,本文針對手機(jī)信息的特點和手機(jī)產(chǎn)品詳細(xì)信息的搜索需求進(jìn)行需求分析,在Eclipse開發(fā)環(huán)境中利用Lucene開源框架實現(xiàn)了一個可在Tomcat服務(wù)器上運(yùn)行的手機(jī)信息垂直搜索引擎系統(tǒng)。該系統(tǒng)的設(shè)計方案為:首先改進(jìn)Heritrix爬蟲框架,在Heritrix開源爬蟲框架中定制特定的抓取手機(jī)網(wǎng)頁的類,對互聯(lián)網(wǎng)上電子商務(wù)網(wǎng)站中的手機(jī)信息進(jìn)行采集,然后使用正則表達(dá)式和HtmlParser提取網(wǎng)頁內(nèi)容,并在系統(tǒng)中加入中文分詞算法對信息進(jìn)行處理,同時構(gòu)建手機(jī)信息詞庫,建立手機(jī)信息數(shù)據(jù)庫和索引結(jié)構(gòu),實現(xiàn)用于接收用戶查詢信息的檢索功能,最后將查詢結(jié)果返回給用戶。通過系統(tǒng)測試,本文設(shè)計的手機(jī)信息垂直搜索引擎返回的結(jié)果準(zhǔn)確率高、性能良好,能夠滿足用戶需要,該設(shè)計方法具有可借鑒性,可在其他領(lǐng)域應(yīng)用。
【關(guān)鍵詞】:垂直搜索引擎 Heritrix Lucene HtmlParser 中文分詞算法
【學(xué)位授予單位】:成都理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 引言10-13
- 1.1 研究背景10-11
- 1.2 研究現(xiàn)狀11-12
- 1.3 研究內(nèi)容12-13
- 第2章 垂直搜索引擎的關(guān)鍵技術(shù)13-22
- 2.1 垂直搜索引擎概述13-15
- 2.1.1 垂直搜索引擎簡介13
- 2.1.2 垂直搜索的特點13-14
- 2.1.3 垂直搜索引擎框架14-15
- 2.2 Heritrix網(wǎng)絡(luò)爬蟲簡介15-17
- 2.2.1 Heritrix的工作流程及其構(gòu)架15
- 2.2.2 Heritrix主要組件包含的類15-17
- 2.3 Lucene全文搜索框架17-22
- 2.3.1 Lucene的索引18-21
- 2.3.1.1 Lucene的索引記錄19-20
- 2.3.1.2 Lucene的索引工具20-21
- 2.3.2 Lucene的搜索方式21-22
- 第3章 中文分詞算法22-38
- 3.1 中文分詞技術(shù)概述22-25
- 3.1.1 中文分詞代表23-24
- 3.1.2 中文分詞系統(tǒng)的評價標(biāo)準(zhǔn)24-25
- 3.2 中文分詞算法的分類25
- 3.2.1 基于字符串匹配的分詞方法25
- 3.2.2 基于理解的分詞方法25
- 3.2.3 基于統(tǒng)計的分詞方法25
- 3.3 中文分詞技術(shù)面臨的問題25-28
- 3.3.1 歧義識別26-27
- 3.3.2 未登錄詞的識別27-28
- 3.4 中文分詞算法28-34
- 3.4.1 算法設(shè)計所針對的問題28
- 3.4.2 分詞詞典的設(shè)計28-31
- 3.4.3 統(tǒng)計策略的設(shè)計31
- 3.4.4 語料庫的獲取31-32
- 3.4.5 分詞算法32-34
- 3.5 實驗結(jié)果分析34-38
- 3.5.1 綜合性能測試一34-35
- 3.5.2 綜合性能測試二35-36
- 3.5.3 分全率和分詞效率實驗36
- 3.5.4 歧義詞和未登錄詞處理能力測試36-38
- 第4章 手機(jī)信息垂直搜索引擎系統(tǒng)分析38-43
- 4.1 系統(tǒng)功能模塊分析38-39
- 4.2 系統(tǒng)功能模塊概述39-43
- 4.2.1 網(wǎng)頁抓取模塊39
- 4.2.2 網(wǎng)頁預(yù)處理和索引模塊39-40
- 4.2.2.1 網(wǎng)頁凈化與消重39-40
- 4.2.2.2 PageRank算法40
- 4.2.3 用戶檢索模塊40-41
- 4.2.4 后臺管理模塊41-43
- 第5章 垂直搜索引擎的系統(tǒng)設(shè)計與實現(xiàn)43-62
- 5.1 網(wǎng)頁抓取模塊設(shè)計43-46
- 5.1.1 網(wǎng)頁抓取流程43-44
- 5.1.2 網(wǎng)頁抓取邏輯44-46
- 5.2 網(wǎng)頁信息解析模塊設(shè)計46-48
- 5.3 詞庫的建立48
- 5.4 數(shù)據(jù)庫與索引結(jié)構(gòu)48-53
- 5.4.1 Product類49
- 5.4.2 數(shù)據(jù)庫結(jié)構(gòu)49
- 5.4.3 數(shù)據(jù)庫處理類49-50
- 5.4.4 索引結(jié)構(gòu)50
- 5.4.5 索引處理類50-51
- 5.4.6 綜合處理類51-53
- 5.5 用戶檢索模塊設(shè)計53-62
- 5.5.1 信息檢索的實現(xiàn)53-54
- 5.5.2 檢索結(jié)果的排序54-55
- 5.5.3 搜索引擎后臺55-57
- 5.5.4 Bean類的設(shè)計57
- 5.5.5 Web頁面設(shè)計與實現(xiàn)57-60
- 5.5.6 手機(jī)垂直搜索引擎系統(tǒng)性能評價60-62
- 結(jié)論62-64
- 致謝64-65
- 參考文獻(xiàn)65-67
- 攻讀學(xué)位期間取得學(xué)術(shù)成果67
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前9條
1 吳漢榮;曾勇軍;;Simply Hired:職位搜索新天地[J];電腦與電信;2009年03期
2 陳桂林,王永成,韓客松,王剛;一種改進(jìn)的快速分詞算法[J];計算機(jī)研究與發(fā)展;2000年04期
3 李振星,徐澤平,唐衛(wèi)清,唐榮錫;全二分最大匹配快速分詞算法[J];計算機(jī)工程與應(yīng)用;2002年11期
4 何克抗,徐輝,孫波;書面漢語自動分詞專家系統(tǒng)設(shè)計原理[J];中文信息學(xué)報;1991年02期
5 揭春雨,劉源,梁南元;漢語自動分詞實用系統(tǒng)CASS的設(shè)計和實現(xiàn)[J];中文信息學(xué)報;1991年04期
6 徐秉錚,詹劍,賀前華;基于神經(jīng)網(wǎng)絡(luò)的分詞方法[J];中文信息學(xué)報;1993年02期
7 黃昌寧;趙海;;中文分詞十年回顧[J];中文信息學(xué)報;2007年03期
8 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報科學(xué);2010年03期
9 王冬;雷景生;;一種基于PageRank的頁面排序改進(jìn)算法[J];微電子學(xué)與計算機(jī);2009年04期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李海升;垂直搜索引擎的研究與實現(xiàn)[D];西安電子科技大學(xué);2009年
2 杜佳倫;面向用戶體驗需求的垂直搜索引擎的研究[D];吉林大學(xué);2011年
3 李宜兵;基于搜索引擎網(wǎng)頁排序算法研究[D];沈陽理工大學(xué);2011年
4 楊成寶;我國搜索引擎市場發(fā)展趨勢與策略研究[D];山東大學(xué);2011年
5 任麗蕓;搜索引擎中文分詞技術(shù)研究[D];重慶理工大學(xué);2011年
6 仇亞東;面向農(nóng)業(yè)領(lǐng)域的垂直搜索技術(shù)的研究[D];南京農(nóng)業(yè)大學(xué);2010年
7 陳潔惠;搜索引擎排序算法的研究[D];河海大學(xué);2007年
8 姜華;基于Lucene面向主題搜索引擎的研究與設(shè)計[D];華東師范大學(xué);2007年
9 李廣麗;垂直搜索引擎的研究與設(shè)計[D];華東交通大學(xué);2008年
10 任軍;基于網(wǎng)頁結(jié)構(gòu)特征的垂直搜索引擎研究與實現(xiàn)[D];上海交通大學(xué);2008年
,本文編號:1037135
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1037135.html