天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于Nutch的面向IT科技博客的垂直搜索引擎的研究與實現(xiàn)

發(fā)布時間:2019-07-25 13:47
【摘要】:互聯(lián)網(wǎng)日新月異的發(fā)展使得網(wǎng)絡(luò)上存儲的資源越來越多,網(wǎng)頁文本、音樂、圖片、視頻等形式各異的資源充斥其中,難以快速精準的從中找到自己想要的信息資源。這種需求催生了垂直搜索引擎的快速發(fā)展。本文首先研究了垂直搜索引擎發(fā)展的歷史和趨勢,之后詳細的研究了垂直搜索引擎中涉及到的各種技術(shù),設(shè)計并實現(xiàn)了一個面向博客領(lǐng)域的個性化垂直搜索引擎。本文的主要工作主要包括以下幾個方面:(1)分析并對比了通用網(wǎng)絡(luò)爬蟲和垂直網(wǎng)絡(luò)爬蟲的系統(tǒng)架構(gòu)和基本原理,對主題判定算法進行了研究,歸納了用戶的搜索行為對垂直搜索引擎產(chǎn)生的反饋作用,研究并歸納了常見加密算法的性能和特征;(2)設(shè)計并實現(xiàn)了一個基于Nutch的分布式主題爬蟲模塊。首先詳細分析了 Nutch的架構(gòu)和工作原理,提出了一種能夠?qū)⑼ㄓ门老xNutch改造成垂直網(wǎng)絡(luò)爬蟲的方案。然后基于樸素貝葉斯文本分類算法實現(xiàn)了貝葉斯文本分類插件,在貝葉斯文本分類插件工作過程中加入了 URL主題判定模塊,加深了 Nutch的爬行深度,并利用Nutch的插件機制將其引入到Nutch的工作流中,將通用爬蟲Nutch改造成為垂直網(wǎng)絡(luò)爬蟲;(3)設(shè)計并實現(xiàn)了一個基于Solr的個性化用戶查詢模塊。首先研究了用戶搜索行為信息對用戶搜索可能造成的影響,設(shè)計了一個基于Solr的個性化用戶查詢模塊,該模塊能夠?qū)⒂脩舻乃阉餍袨槭占霂?利用向量空間模型算法從中分析出用戶的興趣模型,并根據(jù)興趣模型對用戶的當(dāng)前查詢做出查詢擴展,將Solr改造成為個性化查詢模塊;(4)在設(shè)計個性化用戶查詢模塊時,考慮到對用戶隱私的保護,采用安全套接層協(xié)議SSL對用戶行為信息進行傳輸,然后利用數(shù)據(jù)庫加解密模塊對用戶的行為信息進行AES加密,并將加密后的數(shù)據(jù)存儲到數(shù)據(jù)庫中,保護了用戶的隱私安全;(5)設(shè)計并實現(xiàn)了基于Nutch的面向IT科技博客領(lǐng)域的垂直搜索引擎,并對搜索引擎進行了相關(guān)實驗。實驗表明,本文提出的設(shè)計方案是有效的,雖然為了實現(xiàn)主題過濾功能,爬蟲的爬取效率有所降低,但是相較于原有的Nutch系統(tǒng)和通用搜索引擎百度,查準率得到了較大的提升。
【圖文】:

基于Nutch的面向IT科技博客的垂直搜索引擎的研究與實現(xiàn)


圖1-1通用搜索引擎的發(fā)展歷史逡逑整個搜索引擎的發(fā)展趨勢如圖1-1所示

基于Nutch的面向IT科技博客的垂直搜索引擎的研究與實現(xiàn)


圖1-2在一淘網(wǎng)搜索“男鞋”結(jié)果逡逑
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前5條

1 田文波;徐洪珍;盧群樂;;基于索引屬性改進的OPIC算法[J];計算機系統(tǒng)應(yīng)用;2015年07期

2 盧萬媈;賈云得;;基于眼動數(shù)據(jù)的網(wǎng)絡(luò)搜索行為預(yù)測方法[J];北京航空航天大學(xué)學(xué)報;2015年05期

3 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計算機應(yīng)用;2008年S2期

4 黃旭;朱艷琴;羅喜召;;基于內(nèi)容評價的爬蟲搜索策略研究[J];微電子學(xué)與計算機;2008年11期

5 龔建華;;深度優(yōu)先搜索算法及其改進[J];現(xiàn)代電子技術(shù);2007年22期

相關(guān)博士學(xué)位論文 前1條

1 何嘉;基于遺傳算法優(yōu)化的中文分詞研究[D];電子科技大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 陳銘權(quán);基于主題模型的用戶興趣建模及在新聞推薦中的應(yīng)用[D];華南理工大學(xué);2015年

2 譚靜;基于向量空間模型的文本相似度算法研究[D];西南石油大學(xué);2015年

3 卜曉寧;基于大數(shù)據(jù)中查詢?nèi)罩镜挠脩粜袨榉治鱿到y(tǒng)的設(shè)計與實現(xiàn)[D];北京交通大學(xué);2015年

4 張環(huán);垂直搜索引擎中主題網(wǎng)絡(luò)爬蟲算法研究[D];山東師范大學(xué);2015年

5 王媛冬;基于SolrCloud平臺的分布式全文檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];山東師范大學(xué);2015年

6 徐有健;基于Lucene的云平臺搜索技術(shù)研究與實現(xiàn)[D];華南理工大學(xué);2015年

7 陳僑川;一種基于DES和RSA算法的混合加密算法[D];云南大學(xué);2015年

8 杜雷;垂直搜索引擎網(wǎng)絡(luò)爬蟲的研究與設(shè)計[D];北京郵電大學(xué);2015年

9 白永超;企業(yè)搜索引擎關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2015年

10 毛福林;倒排索引壓縮算法研究[D];北京交通大學(xué);2015年

,

本文編號:2519128

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2519128.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2ee13***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com