天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Heritrix的主題爬蟲在互聯(lián)網(wǎng)輿情系統(tǒng)中應(yīng)用

發(fā)布時間:2018-07-20 11:28
【摘要】:在信息化爆炸的時代,一般搜索引擎的搜索結(jié)果已經(jīng)滿足不了人們的需要,能獲得更準(zhǔn)確全面信息的垂直搜索引擎越來越受到關(guān)注。其中,主題爬蟲作為垂直搜索引擎的核心部分一直是搜索方向的研究熱點(diǎn)。本文以開源的網(wǎng)絡(luò)爬蟲Heritrix為基礎(chǔ),分析其結(jié)構(gòu)特征與工作原理并引入了多線程處理的改進(jìn)辦法,設(shè)計出一個主題爬蟲,在單機(jī)環(huán)境下進(jìn)行該爬蟲性能的測試。實(shí)驗結(jié)果表明該主題爬蟲的查全率達(dá)到較高水準(zhǔn),為進(jìn)一步研究開發(fā)搜索效率高的垂直搜索引擎打下堅實(shí)的基礎(chǔ)。
[Abstract]:In the era of information explosion, the search results of general search engines can not meet the needs of people, and more attention has been paid to vertical search engines that can obtain more accurate and comprehensive information. As the core part of vertical search engine, topic crawler has always been the research hotspot in search direction. Based on Heritrix, an open source web crawler, this paper analyzes its structure and working principle, introduces an improved method of multithread processing, and designs a theme crawler to test the performance of the crawler in a single machine environment. The experimental results show that the recall rate of the subject crawler reaches a high level, which lays a solid foundation for further research and development of vertical search engine with high search efficiency.
【作者單位】: 江蘇科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院;
【基金】:鎮(zhèn)江市社會發(fā)展項目(SH2013015)
【分類號】:TP391.3

【共引文獻(xiàn)】

相關(guān)期刊論文 前6條

1 杜娟娟;鄭麗英;;基于模擬退火遺傳算法的主題爬蟲搜索策略研究[J];科技風(fēng);2012年16期

2 賀晟;程家興;蔡欣寶;;基于模擬退火算法的主題爬蟲[J];計算機(jī)技術(shù)與發(fā)展;2009年12期

3 樊多妮;李禹生;;基于Heritrix的網(wǎng)絡(luò)主題爬蟲算法研究與應(yīng)用——以糧食網(wǎng)站交易信息為例[J];現(xiàn)代物業(yè)(上旬刊);2012年09期

4 方帥;李林;張曉東;;面向地震宏觀異常的主題爬蟲研究[J];震災(zāi)防御技術(shù);2013年04期

5 林子皓;;主題爬蟲的設(shè)計與實(shí)現(xiàn)[J];計算機(jī)技術(shù)與發(fā)展;2014年08期

6 李慧;胡輝;莊冬梅;;農(nóng)產(chǎn)品供需對接系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的設(shè)計與實(shí)現(xiàn)[J];現(xiàn)代計算機(jī)(專業(yè)版);2015年04期

相關(guān)碩士學(xué)位論文 前10條

1 石京;基于語義本體的垂直搜索引擎模型研究[D];大連海事大學(xué);2011年

2 薛萍;基于教育領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];天津師范大學(xué);2011年

3 蘇希樂;面向手機(jī)信息的垂直搜索引擎[D];西安工業(yè)大學(xué);2012年

4 張明遠(yuǎn);基于粒計算的智能搜索引擎技術(shù)研究[D];武漢理工大學(xué);2010年

5 李偉;面向遠(yuǎn)程教育主題搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年

6 張麗莎;林業(yè)動態(tài)信息快速搜索與集成[D];中南林業(yè)科技大學(xué);2013年

7 杜娟娟;主題爬蟲算法的研究與實(shí)現(xiàn)[D];蘭州交通大學(xué);2013年

8 陳英;基于語義的美食垂直搜索研究[D];武漢科技大學(xué);2013年

9 曹宇;面向開源軟件的聚類搜索系統(tǒng)設(shè)計與實(shí)現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2012年

10 許超;面向信息安全的垂直搜索引擎的研究與實(shí)現(xiàn)[D];華東理工大學(xué);2014年

【二級參考文獻(xiàn)】

相關(guān)期刊論文 前6條

1 夏詔杰;梁春燕;郭力;;化學(xué)主題網(wǎng)絡(luò)爬蟲的設(shè)計和實(shí)現(xiàn)[J];計算機(jī)工程與應(yīng)用;2006年10期

2 曹紅,袁津生;林業(yè)主題搜索引擎研究[J];計算機(jī)應(yīng)用;2004年S2期

3 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計算機(jī)應(yīng)用研究;2007年10期

4 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機(jī)應(yīng)用與軟件;2009年01期

5 陳竹敏;馬軍;韓曉暉;雷景生;;面向主題爬取的多粒度URLs優(yōu)先級計算方法[J];中文信息學(xué)報;2009年03期

6 薛建春;段紅梅;蔡松;;定題搜索引擎的設(shè)計與實(shí)現(xiàn)[J];微計算機(jī)信息;2007年21期

相關(guān)博士學(xué)位論文 前1條

1 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年

相關(guān)碩士學(xué)位論文 前1條

1 李副銘;垂直搜索引擎的研究與設(shè)計[D];電子科技大學(xué);2009年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價值[J];信息技術(shù);2008年04期

2 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報技術(shù);2009年02期

3 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期

4 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期

5 張美芳;張迎春;;淺議垂直搜索引擎服務(wù)市場的商業(yè)模式[J];現(xiàn)代商業(yè);2010年06期

6 焦龍;;垂直搜索引擎在旅游企業(yè)中應(yīng)用的探索[J];商場現(xiàn)代化;2010年08期

7 趙宏中;李亞;;垂直搜索引擎應(yīng)用研究[J];現(xiàn)代商貿(mào)工業(yè);2010年04期

8 陳高維;鄧天權(quán);曾云磊;王維國;張龍;;基于垂直搜索引擎的旅游線路評價模型的設(shè)計[J];科技創(chuàng)新導(dǎo)報;2010年18期

9 劉小強(qiáng);;二手轉(zhuǎn)讓及房產(chǎn)租售垂直搜索引擎的設(shè)計與實(shí)現(xiàn)[J];三門峽職業(yè)技術(shù)學(xué)院學(xué)報;2010年03期

10 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(自然科學(xué)版);2011年02期

相關(guān)會議論文 前4條

1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會、河北省計算機(jī)學(xué)會、河北省自動化學(xué)會、河北省人工智能學(xué)會、河北省計算機(jī)輔助設(shè)計研究會、河北省軟件行業(yè)協(xié)會聯(lián)合學(xué)術(shù)年會論文集[C];2007年

2 林歡歡;王文杰;史忠植;;移動環(huán)境下垂直搜索引擎[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計與實(shí)現(xiàn)[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

4 毛華揚(yáng);劉衛(wèi);;會計信息搜索方法研究[A];第十屆全國會計信息化年會論文集[C];2011年

相關(guān)重要報紙文章 前10條

1 北大縱橫管理顧問公司高級顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠(yuǎn)嗎?[N];中國經(jīng)營報;2006年

2 王艷;垂直搜索引擎市場看好[N];中國旅游報;2000年

3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日報海外版;2000年

4 楊國民;國內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟(jì)日報;2007年

5 本報記者 王曉雁;垂直搜索引擎著作權(quán)之爭未破題[N];法制日報;2009年

6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報研究所 周峻松;用開源軟件建垂直搜索引擎[N];計算機(jī)世界;2010年

7 中新;生意寶推“生意搜”攪局電子商務(wù)搜索市場[N];經(jīng)理日報;2008年

8 源訊 編譯;搜索巨頭的下一步[N];計算機(jī)世界;2006年

9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國計算機(jī)報;2000年

10 ;沱沱網(wǎng)“亮劍”國際消費(fèi)電子博覽會 專業(yè)服務(wù)帶來B2B差異化變革[N];中國貿(mào)易報;2007年

相關(guān)博士學(xué)位論文 前5條

1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年

2 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語義化若干問題的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2012年

4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

5 王桂紅;農(nóng)產(chǎn)品市場價格web信息分析方法研究[D];沈陽農(nóng)業(yè)大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 海濤;垂直搜索引擎數(shù)據(jù)采集技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2008年

2 崔詩遠(yuǎn);基于垂直搜索引擎的旅行社網(wǎng)絡(luò)營銷[D];青島大學(xué);2009年

3 翟曉玲;面向?qū)W科的基礎(chǔ)教育資源垂直搜索引擎的研究與實(shí)現(xiàn)[D];東北師范大學(xué);2009年

4 王嘉杰;面向博客領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年

5 劉明君;垂直搜索引擎?zhèn)鞑W(xué)特征及應(yīng)用研究[D];華中科技大學(xué);2008年

6 黎斌;可擴(kuò)展分布式垂直搜索引擎設(shè)計與實(shí)現(xiàn)研究[D];國防科學(xué)技術(shù)大學(xué);2008年

7 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2010年

8 石占偉;垃圾頁面檢測及其在垂直搜索引擎中的應(yīng)用[D];燕山大學(xué);2010年

9 張楠;面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年

10 陳向東;寵物用品垂直搜索引擎研究與設(shè)計[D];西北農(nóng)林科技大學(xué);2010年

,

本文編號:2133367

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2133367.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7622a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com