基于Lucene和Heritrix的小型主題搜索引擎的研究及實(shí)現(xiàn)
本文關(guān)鍵詞:基于Lucene和Heritrix的小型主題搜索引擎的研究及實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:近年來互聯(lián)網(wǎng)不斷高速的發(fā)展,網(wǎng)絡(luò)上的信息越來越繁雜。光靠用戶自己定位尋找信息已經(jīng)越來越不可行,用戶對(duì)信息搜索的需求越來越大。而目前通用搜索引擎提供給用戶的搜索結(jié)果往往摻雜了很多的不必要信息,用戶開始尋求更準(zhǔn)確的搜索專項(xiàng)內(nèi)容的搜索引擎。所以對(duì)專項(xiàng)搜索引擎技術(shù)的研究顯得很有必要。本文分析了搜索引擎的主要組成模塊和實(shí)現(xiàn)的基本步驟,介紹了一些在搭建搜索引擎時(shí)需要的背景知識(shí)。將構(gòu)建專項(xiàng)搜索引擎拆分為數(shù)據(jù)搜集處理和數(shù)據(jù)搜索這兩個(gè)主要的處理模塊。結(jié)合Heritrix的源代碼和架構(gòu),研究并實(shí)現(xiàn)了數(shù)據(jù)搜集模塊,包括url的解析和分配、多線程機(jī)制的實(shí)現(xiàn)等。對(duì)Heritrix在面向?qū)m?xiàng)內(nèi)容進(jìn)行搜索時(shí)的不足之處進(jìn)行了原因分析,提出了具體改進(jìn)的方法。解決了包括僅針對(duì)專項(xiàng)網(wǎng)頁內(nèi)容進(jìn)行url解析,針對(duì)爬蟲多線程機(jī)制在單一網(wǎng)站搜集時(shí)失效等多個(gè)問題。并給出了利用正則表達(dá)式對(duì)搜集完的數(shù)據(jù)信息進(jìn)行預(yù)處理的方法。結(jié)合Lucene信息檢索工具包的源代碼分析,實(shí)現(xiàn)了數(shù)據(jù)搜索模塊。并根據(jù)專項(xiàng)搜索的需求,定制了專門對(duì)返回的搜索結(jié)果進(jìn)行進(jìn)一步排序和過濾的機(jī)制。針對(duì)Lucene工具包對(duì)中文的支持度不夠,在對(duì)查詢語句的關(guān)鍵詞劃分時(shí),增加了一些對(duì)中文語言的優(yōu)化支持。在分析實(shí)現(xiàn)的過程中結(jié)合了具體的編程語言機(jī)制,說明了在該語言下實(shí)現(xiàn)時(shí)的一些注意事項(xiàng)。最后示范了一個(gè)對(duì)某一網(wǎng)站中散文類別的文章進(jìn)行專項(xiàng)搜集和對(duì)其搜索的主題搜索引擎的實(shí)現(xiàn)方法。針對(duì)主題搜索引擎的主要功能點(diǎn)進(jìn)行了相關(guān)的測(cè)試驗(yàn)證,并在最后根據(jù)其它的搜索查找原理對(duì)搜索結(jié)果進(jìn)行了驗(yàn)證。從最后的搜索的結(jié)果來看,準(zhǔn)確取得了預(yù)期的搜索結(jié)果。并在數(shù)據(jù)搜集階段充分利用了多線程機(jī)制提升了搜集速度。在研究過程中,也存在一些不足和缺陷。比如沒有采用分布式的機(jī)制去實(shí)現(xiàn)搜索。對(duì)搜索引擎的用戶界面沒有優(yōu)化,對(duì)用戶不夠友好。后續(xù)會(huì)考慮采用Solr和DWR技術(shù)來實(shí)現(xiàn)一個(gè)友好的用戶交互界面。DWR是一個(gè)Ajax封裝框架?梢暂^方便的實(shí)現(xiàn)在瀏覽器交互。本主題搜索引擎在對(duì)中文分詞的過程中并沒有采取比較好的詞典分詞方法。因?yàn)椴捎迷~典分詞方法的話,對(duì)詞典的構(gòu)建,需要大量的人工數(shù)據(jù)統(tǒng)計(jì)與分析工作。以后會(huì)在一個(gè)合適的詞典庫的基礎(chǔ)上構(gòu)建一個(gè)自己的分詞庫。在給出搜索結(jié)果時(shí),只是給出了相關(guān)文章內(nèi)容的首行文字作為簡(jiǎn)介。不如給出文章中相關(guān)關(guān)鍵詞附近的文本內(nèi)容作為簡(jiǎn)介的方式更加形象。
【關(guān)鍵詞】:Lucene 多線程 正則表達(dá)式 Heritrix 搜索引擎
【學(xué)位授予單位】:西安電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.52;TP391.3
【目錄】:
- 摘要5-6
- ABSTRACT6-11
- 符號(hào)對(duì)照表11-12
- 縮略語對(duì)照表12-15
- 第一章 緒論15-21
- 1.1 論文研究目的和意義15-16
- 1.2 搜索引擎和網(wǎng)絡(luò)爬蟲的發(fā)展與概述16-18
- 1.2.1 搜索引擎的概念和發(fā)展歷史16-18
- 1.2.2 網(wǎng)絡(luò)爬蟲的概念18
- 1.3 本文的工作內(nèi)容18-19
- 1.4 本章小結(jié)19-21
- 第二章 專項(xiàng)主題搜索引擎的相關(guān)技術(shù)21-29
- 2.1 常見索引形式的介紹21-22
- 2.2 正則表達(dá)式的介紹22-23
- 2.3 網(wǎng)絡(luò)爬蟲的常用技術(shù)分析23-27
- 2.4 本章小結(jié)27-29
- 第三章 搜索引擎信息準(zhǔn)備過程的研究與實(shí)現(xiàn)29-47
- 3.1 開源網(wǎng)絡(luò)爬蟲Heritrix的結(jié)構(gòu)分析與研究29-37
- 3.2 Heritrix爬蟲功能擴(kuò)展與定制的實(shí)現(xiàn)37-44
- 3.2.1 Heritrix爬蟲需要改進(jìn)的地方37-39
- 3.2.2 Heritrix爬蟲功能擴(kuò)展與定制的實(shí)現(xiàn)39-44
- 3.3 從網(wǎng)頁中提取索引內(nèi)容的實(shí)現(xiàn)44-46
- 3.4 本章小結(jié)46-47
- 第四章 Lucene全文搜索工具的分析研究與擴(kuò)展定制47-65
- 4.1 對(duì)Lucene的原理分析與研究47-57
- 4.1.1 Lucene建立索引的過程分析47-52
- 4.1.2 Lucene對(duì)建立好的索引進(jìn)行搜索的方法52-54
- 4.1.3 Lucene對(duì)搜索結(jié)果的處理方法54-57
- 4.2 針對(duì)主題搜索引擎而對(duì)Lucene進(jìn)行的定制57-63
- 4.2.1 對(duì)返回搜索結(jié)果的排序和過濾規(guī)則的定制57-59
- 4.2.2 在關(guān)鍵詞劃分時(shí)進(jìn)行篩選和過濾方法的定制59-61
- 4.2.3 對(duì)查詢語句的一些中文優(yōu)化61-63
- 4.3 本章小結(jié)63-65
- 第五章 主題搜索引擎的實(shí)現(xiàn)與測(cè)試65-75
- 5.1 信息搜集的實(shí)現(xiàn)過程65-68
- 5.2 信息搜索查詢的實(shí)現(xiàn)68-70
- 5.3 針對(duì)散文主題的搜索過濾方法70-71
- 5.4 主題搜索引擎的功能測(cè)試71-74
- 5.5 本章小結(jié)74-75
- 第六章 結(jié)束語75-77
- 6.1 完成的工作75
- 6.2 需要改進(jìn)和繼續(xù)研究的地方75-77
- 參考文獻(xiàn)77-79
- 致謝79-81
- 作者簡(jiǎn)介81
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 余川江;;基于Lucene的垂直搜索引擎的研究與實(shí)現(xiàn)[J];經(jīng)營管理者;2014年11期
2 孔維亭;閆宏印;;基于Lucene的自動(dòng)答疑系統(tǒng)的設(shè)計(jì)[J];電腦開發(fā)與應(yīng)用;2012年04期
3 喻金平;譚鳴;夏小云;;基于Lucene技術(shù)的垂直搜索引擎的研究[J];軟件導(dǎo)刊;2008年03期
4 陳忱;;Lucene排序算法的個(gè)性化改進(jìn)[J];科技與企業(yè);2012年02期
5 阮曙芬;;基于Lucene的全文搜索排序算法的研究與改進(jìn)[J];武漢紡織大學(xué)學(xué)報(bào);2013年06期
6 葛振國;李建;何林糠;吳軍;;基于Lucene的Oracle數(shù)據(jù)庫全文檢索[J];信息技術(shù);2010年03期
7 馮宇;;基于模糊層次分析法的Lucene網(wǎng)頁排序算法研究[J];計(jì)算機(jī)與現(xiàn)代化;2011年01期
8 楊元峰;趙敏涯;廖黎莉;;基于Lucene的客服知識(shí)庫系統(tǒng)結(jié)構(gòu)設(shè)計(jì)[J];福建電腦;2012年01期
9 陳艷春;李雙平;;基于Lucene的企業(yè)級(jí)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2007年08期
10 匡振國;倪宏;嵇智輝;劉磊;;一種基于Lucene的影片搜索引擎的研究和應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2008年29期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前2條
1 朱高平;樂嘉錦;;基于刻面分類和Lucene架構(gòu)的Web服務(wù)發(fā)現(xiàn)技術(shù)的研究[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
2 劉壽強(qiáng);;基于Lucene的分級(jí)鑒權(quán)企業(yè)搜索引擎研究與設(shè)計(jì)[A];第二十一次全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集[C];2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 于雪麗;LUCENE中文分詞在科研文檔全文檢索系統(tǒng)的應(yīng)用研究[D];青島大學(xué);2011年
2 孫靜;基于Lucene的手機(jī)查詢軟件的研究與實(shí)現(xiàn)[D];重慶大學(xué);2014年
3 文義;基于LUCENE的群體個(gè)性化搜索引擎研究[D];武漢理工大學(xué);2010年
4 張彬;基于lucene的搜索引擎[D];上海師范大學(xué);2010年
5 張正龍;基于LUCENE的主題搜索引擎研究與實(shí)現(xiàn)[D];重慶大學(xué);2008年
6 楊光偉;基于Lucene的個(gè)性化搜索引擎的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2009年
7 花潔;基于Lucene的搜索引擎應(yīng)用與研究[D];湖北工業(yè)大學(xué);2009年
8 姜華;基于Lucene面向主題搜索引擎的研究與設(shè)計(jì)[D];華東師范大學(xué);2007年
9 高磊;基于LUCENE的搜索引擎研究與實(shí)現(xiàn)[D];武漢理工大學(xué);2007年
10 李沛環(huán);基于Lucene的搜索引擎的設(shè)計(jì)和優(yōu)化[D];吉林大學(xué);2008年
本文關(guān)鍵詞:基于Lucene和Heritrix的小型主題搜索引擎的研究及實(shí)現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號(hào):390212
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/390212.html