基于Heritrix的主題爬蟲在互聯(lián)網(wǎng)輿情系統(tǒng)中應(yīng)用
[Abstract]:In the era of information explosion, the search results of general search engines can not meet the needs of people, and more attention has been paid to vertical search engines that can obtain more accurate and comprehensive information. As the core part of vertical search engine, topic crawler has always been the research hotspot in search direction. Based on Heritrix, an open source web crawler, this paper analyzes its structure and working principle, introduces an improved method of multithread processing, and designs a theme crawler to test the performance of the crawler in a single machine environment. The experimental results show that the recall rate of the subject crawler reaches a high level, which lays a solid foundation for further research and development of vertical search engine with high search efficiency.
【作者單位】: 江蘇科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院;
【基金】:鎮(zhèn)江市社會(huì)發(fā)展項(xiàng)目(SH2013015)
【分類號(hào)】:TP391.3
【共引文獻(xiàn)】
相關(guān)期刊論文 前6條
1 杜娟娟;鄭麗英;;基于模擬退火遺傳算法的主題爬蟲搜索策略研究[J];科技風(fēng);2012年16期
2 賀晟;程家興;蔡欣寶;;基于模擬退火算法的主題爬蟲[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年12期
3 樊多妮;李禹生;;基于Heritrix的網(wǎng)絡(luò)主題爬蟲算法研究與應(yīng)用——以糧食網(wǎng)站交易信息為例[J];現(xiàn)代物業(yè)(上旬刊);2012年09期
4 方帥;李林;張曉東;;面向地震宏觀異常的主題爬蟲研究[J];震災(zāi)防御技術(shù);2013年04期
5 林子皓;;主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2014年08期
6 李慧;胡輝;莊冬梅;;農(nóng)產(chǎn)品供需對(duì)接系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2015年04期
相關(guān)碩士學(xué)位論文 前10條
1 石京;基于語(yǔ)義本體的垂直搜索引擎模型研究[D];大連海事大學(xué);2011年
2 薛萍;基于教育領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];天津師范大學(xué);2011年
3 蘇希樂;面向手機(jī)信息的垂直搜索引擎[D];西安工業(yè)大學(xué);2012年
4 張明遠(yuǎn);基于粒計(jì)算的智能搜索引擎技術(shù)研究[D];武漢理工大學(xué);2010年
5 李偉;面向遠(yuǎn)程教育主題搜索引擎的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2012年
6 張麗莎;林業(yè)動(dòng)態(tài)信息快速搜索與集成[D];中南林業(yè)科技大學(xué);2013年
7 杜娟娟;主題爬蟲算法的研究與實(shí)現(xiàn)[D];蘭州交通大學(xué);2013年
8 陳英;基于語(yǔ)義的美食垂直搜索研究[D];武漢科技大學(xué);2013年
9 曹宇;面向開源軟件的聚類搜索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2012年
10 許超;面向信息安全的垂直搜索引擎的研究與實(shí)現(xiàn)[D];華東理工大學(xué);2014年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 夏詔杰;梁春燕;郭力;;化學(xué)主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年10期
2 曹紅,袁津生;林業(yè)主題搜索引擎研究[J];計(jì)算機(jī)應(yīng)用;2004年S2期
3 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
4 白坤;耿國(guó)華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2009年01期
5 陳竹敏;馬軍;韓曉暉;雷景生;;面向主題爬取的多粒度URLs優(yōu)先級(jí)計(jì)算方法[J];中文信息學(xué)報(bào);2009年03期
6 薛建春;段紅梅;蔡松;;定題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2007年21期
相關(guān)博士學(xué)位論文 前1條
1 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
相關(guān)碩士學(xué)位論文 前1條
1 李副銘;垂直搜索引擎的研究與設(shè)計(jì)[D];電子科技大學(xué);2009年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期
2 許鑫;黃仲清;;垂直搜索引擎應(yīng)用中的若干策略探討——以12580餐飲垂直搜索為例[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期
3 肖婷;;垂直搜索引擎與旅游行業(yè)探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2009年11期
4 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期
5 張美芳;張迎春;;淺議垂直搜索引擎服務(wù)市場(chǎng)的商業(yè)模式[J];現(xiàn)代商業(yè);2010年06期
6 焦龍;;垂直搜索引擎在旅游企業(yè)中應(yīng)用的探索[J];商場(chǎng)現(xiàn)代化;2010年08期
7 趙宏中;李亞;;垂直搜索引擎應(yīng)用研究[J];現(xiàn)代商貿(mào)工業(yè);2010年04期
8 陳高維;鄧天權(quán);曾云磊;王維國(guó);張龍;;基于垂直搜索引擎的旅游線路評(píng)價(jià)模型的設(shè)計(jì)[J];科技創(chuàng)新導(dǎo)報(bào);2010年18期
9 劉小強(qiáng);;二手轉(zhuǎn)讓及房產(chǎn)租售垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];三門峽職業(yè)技術(shù)學(xué)院學(xué)報(bào);2010年03期
10 鄭凱明;;垂直搜索引擎應(yīng)用研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期
相關(guān)會(huì)議論文 前4條
1 褚蓓蓓;劉丹;;垂直搜索引擎:搜索引擎發(fā)展方向[A];2007年河北省電子學(xué)會(huì)、河北省計(jì)算機(jī)學(xué)會(huì)、河北省自動(dòng)化學(xué)會(huì)、河北省人工智能學(xué)會(huì)、河北省計(jì)算機(jī)輔助設(shè)計(jì)研究會(huì)、河北省軟件行業(yè)協(xié)會(huì)聯(lián)合學(xué)術(shù)年會(huì)論文集[C];2007年
2 林歡歡;王文杰;史忠植;;移動(dòng)環(huán)境下垂直搜索引擎[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
3 王上;于海;王鉦旋;;Deep Web垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
4 毛華揚(yáng);劉衛(wèi);;會(huì)計(jì)信息搜索方法研究[A];第十屆全國(guó)會(huì)計(jì)信息化年會(huì)論文集[C];2011年
相關(guān)重要報(bào)紙文章 前10條
1 北大縱橫管理顧問公司高級(jí)顧問戴曉東;“商搜”變法 垂直搜索引擎的春天還遠(yuǎn)嗎?[N];中國(guó)經(jīng)營(yíng)報(bào);2006年
2 王艷;垂直搜索引擎市場(chǎng)看好[N];中國(guó)旅游報(bào);2000年
3 王靖;賽迪網(wǎng)推出垂直搜索引擎[N];人民日?qǐng)?bào)海外版;2000年
4 楊國(guó)民;國(guó)內(nèi)生物醫(yī)藥行業(yè) 垂直搜索引擎誕生[N];經(jīng)濟(jì)日?qǐng)?bào);2007年
5 本報(bào)記者 王曉雁;垂直搜索引擎著作權(quán)之爭(zhēng)未破題[N];法制日?qǐng)?bào);2009年
6 電子工業(yè)出版社 董婭 工業(yè)和信息化部電子科學(xué)技術(shù)情報(bào)研究所 周峻松;用開源軟件建垂直搜索引擎[N];計(jì)算機(jī)世界;2010年
7 中新;生意寶推“生意搜”攪局電子商務(wù)搜索市場(chǎng)[N];經(jīng)理日?qǐng)?bào);2008年
8 源訊 編譯;搜索巨頭的下一步[N];計(jì)算機(jī)世界;2006年
9 賽迪網(wǎng) 方剛;不只是網(wǎng)站才垂直[N];中國(guó)計(jì)算機(jī)報(bào);2000年
10 ;沱沱網(wǎng)“亮劍”國(guó)際消費(fèi)電子博覽會(huì) 專業(yè)服務(wù)帶來(lái)B2B差異化變革[N];中國(guó)貿(mào)易報(bào);2007年
相關(guān)博士學(xué)位論文 前5條
1 王曄;垂直搜索引擎若干問題研究[D];復(fù)旦大學(xué);2011年
2 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
3 胡宜敏;農(nóng)業(yè)垂直搜索引擎語(yǔ)義化若干問題的研究與實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
4 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
5 王桂紅;農(nóng)產(chǎn)品市場(chǎng)價(jià)格web信息分析方法研究[D];沈陽(yáng)農(nóng)業(yè)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 海濤;垂直搜索引擎數(shù)據(jù)采集技術(shù)的研究與實(shí)現(xiàn)[D];華北電力大學(xué)(北京);2008年
2 崔詩(shī)遠(yuǎn);基于垂直搜索引擎的旅行社網(wǎng)絡(luò)營(yíng)銷[D];青島大學(xué);2009年
3 翟曉玲;面向?qū)W科的基礎(chǔ)教育資源垂直搜索引擎的研究與實(shí)現(xiàn)[D];東北師范大學(xué);2009年
4 王嘉杰;面向博客領(lǐng)域的垂直搜索引擎的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年
5 劉明君;垂直搜索引擎?zhèn)鞑W(xué)特征及應(yīng)用研究[D];華中科技大學(xué);2008年
6 黎斌;可擴(kuò)展分布式垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
7 李春燕;企業(yè)信息垂直搜索引擎的研究與實(shí)現(xiàn)[D];中國(guó)地質(zhì)大學(xué)(北京);2010年
8 石占偉;垃圾頁(yè)面檢測(cè)及其在垂直搜索引擎中的應(yīng)用[D];燕山大學(xué);2010年
9 張楠;面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年
10 陳向東;寵物用品垂直搜索引擎研究與設(shè)計(jì)[D];西北農(nóng)林科技大學(xué);2010年
,本文編號(hào):2133367
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2133367.html