天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Heritrix和Lucene垂直搜索引擎的應(yīng)用研究

發(fā)布時間:2020-07-21 22:12
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)上的網(wǎng)頁數(shù)量呈指數(shù)級增長,包含的信息數(shù)據(jù)越來越多、越來越廣,人們想要在互聯(lián)網(wǎng)中找到自己需要的信息也變得越來越困難,于是就出現(xiàn)了搜索引擎。但是人們常用的通用搜索引擎像百度、Google等雖然能幫助人們搜索到一點相關(guān)信息,但在特定需求下,卻無法滿足人們的需求。因此,垂直搜索引擎如雨后春筍大量涌現(xiàn)。 本文通過改進網(wǎng)絡(luò)爬蟲Heritrix的抓取邏輯,并改進和擴展其功能,使它能夠抓取指定網(wǎng)站上的特定網(wǎng)頁內(nèi)容,然后通過研究Lucene的基礎(chǔ)排序算法,并借鑒PageRank算法思想,對其做了改進。 首先,介紹了垂直搜索引擎使用的相關(guān)技術(shù),包括網(wǎng)絡(luò)爬蟲技術(shù)、結(jié)構(gòu)化抽取技術(shù)、中文分詞技術(shù)、索引與搜索技術(shù)等。 其次,詳細描述了網(wǎng)絡(luò)爬蟲Heritrix改進后的抓取配置步驟,從四個方面對它的功能做了擴展。 再次,引入PageRank算法思想,將Lucene的基礎(chǔ)排序算法改進為適合網(wǎng)頁排序的算法,并給出了算法實現(xiàn)。 最后,從實際生活問題出發(fā),以數(shù)碼相機為例,應(yīng)用文中所講的技術(shù)設(shè)計并實現(xiàn)了一個垂直搜索引擎,并將本人在文中所做的改進和實現(xiàn)部分都在該引擎中做了對比測試。
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前4條

1 張雷;;基于Heritrix與Lucene的垂直搜索引擎研究[J];黑龍江科技信息;2011年29期

2 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機應(yīng)用與軟件;2009年01期

3 張智雄;信息抽取技術(shù)及其在數(shù)字圖書館中的應(yīng)用前景分析[J];現(xiàn)代圖書情報技術(shù);2004年06期

4 郭鴻;;一種基于文本內(nèi)容的HITS改進算法[J];計算機系統(tǒng)應(yīng)用;2009年09期



本文編號:2764886

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2764886.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶172fa***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日韩精品一区二区毛片| 欧美一区二区三区十区| 正在播放玩弄漂亮少妇高潮| 欧美成人免费夜夜黄啪啪| 成人你懂的在线免费视频| 91欧美日韩精品在线| 人人妻人人澡人人夜夜| 午夜午夜精品一区二区| 91欧美日韩国产在线观看| 国产免费黄片一区二区| 日韩精品综合福利在线观看| 欧美一级黄片欧美精品| 夫妻性生活一级黄色录像| 伊人久久青草地婷婷综合| 精品少妇一区二区三区四区| 国产亚洲欧美一区二区| 欧美大胆美女a级视频| 亚洲中文在线男人的天堂| 国产欧洲亚洲日产一区二区| 日本东京热加勒比一区二区| 久久99这里只精品热在线| 好吊妞视频这里有精品| 亚洲综合激情另类专区老铁性| 成人午夜在线视频观看| 欧洲日本亚洲一区二区| 欧美成人免费夜夜黄啪啪| 日韩中文字幕欧美亚洲| 美国欧洲日本韩国二本道| 激情中文字幕在线观看| 亚洲午夜精品视频在线| 好骚国产99在线中文| 欧美黑人黄色一区二区| 成人亚洲国产精品一区不卡| 六月丁香六月综合缴情| 青青操视频在线播放免费| 欧美日韩在线视频一区| 亚洲一区二区三区三州| 亚洲中文字幕视频在线播放| 国产精品福利一级久久| 亚洲中文在线观看小视频| 日本 一区二区 在线|