基于Heritrix和Lucene垂直搜索引擎的應(yīng)用研究
發(fā)布時間:2020-07-21 22:12
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)上的網(wǎng)頁數(shù)量呈指數(shù)級增長,包含的信息數(shù)據(jù)越來越多、越來越廣,人們想要在互聯(lián)網(wǎng)中找到自己需要的信息也變得越來越困難,于是就出現(xiàn)了搜索引擎。但是人們常用的通用搜索引擎像百度、Google等雖然能幫助人們搜索到一點相關(guān)信息,但在特定需求下,卻無法滿足人們的需求。因此,垂直搜索引擎如雨后春筍大量涌現(xiàn)。 本文通過改進網(wǎng)絡(luò)爬蟲Heritrix的抓取邏輯,并改進和擴展其功能,使它能夠抓取指定網(wǎng)站上的特定網(wǎng)頁內(nèi)容,然后通過研究Lucene的基礎(chǔ)排序算法,并借鑒PageRank算法思想,對其做了改進。 首先,介紹了垂直搜索引擎使用的相關(guān)技術(shù),包括網(wǎng)絡(luò)爬蟲技術(shù)、結(jié)構(gòu)化抽取技術(shù)、中文分詞技術(shù)、索引與搜索技術(shù)等。 其次,詳細描述了網(wǎng)絡(luò)爬蟲Heritrix改進后的抓取配置步驟,從四個方面對它的功能做了擴展。 再次,引入PageRank算法思想,將Lucene的基礎(chǔ)排序算法改進為適合網(wǎng)頁排序的算法,并給出了算法實現(xiàn)。 最后,從實際生活問題出發(fā),以數(shù)碼相機為例,應(yīng)用文中所講的技術(shù)設(shè)計并實現(xiàn)了一個垂直搜索引擎,并將本人在文中所做的改進和實現(xiàn)部分都在該引擎中做了對比測試。
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
本文編號:2764886
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3
【參考文獻】
相關(guān)期刊論文 前4條
1 張雷;;基于Heritrix與Lucene的垂直搜索引擎研究[J];黑龍江科技信息;2011年29期
2 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機應(yīng)用與軟件;2009年01期
3 張智雄;信息抽取技術(shù)及其在數(shù)字圖書館中的應(yīng)用前景分析[J];現(xiàn)代圖書情報技術(shù);2004年06期
4 郭鴻;;一種基于文本內(nèi)容的HITS改進算法[J];計算機系統(tǒng)應(yīng)用;2009年09期
本文編號:2764886
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2764886.html
最近更新
教材專著