基于Heritrix的網(wǎng)絡(luò)爬蟲研究與應(yīng)用
[Abstract]:This paper mainly introduces the topic search engine, the basic concept of web crawler and the architecture of Heritrix system, analyzes the workflow of Heritrix, and extends and optimizes it on the basis of Heritrix framework. Through an example, the grasping of book information in Jingdong Network is realized, which provides web information resources for the establishment of vertical search engine for book information.
【作者單位】: 北方工業(yè)大學(xué);
【基金】:北京市教委科技發(fā)展計劃項目(KM201310009001) 國家科技支撐項目(2012BAH04F03)
【分類號】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 秦海峰;許南山;山嵐;;基于P2P架構(gòu)的搜索引擎技術(shù)探究[J];福建電腦;2008年07期
2 李勇;韓亮;;主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J];計算機(jī)工程與科學(xué);2008年03期
3 白萬民;蘇希樂;;Heritrix在垂直搜索引擎中的應(yīng)用[J];計算機(jī)時代;2011年09期
4 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機(jī)應(yīng)用;2005年09期
5 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機(jī)應(yīng)用與軟件;2009年01期
6 祝奕;;垂直搜索引擎的構(gòu)建與應(yīng)用[J];信息與電腦(理論版);2010年01期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2007年22期
2 汪斌;張云偉;劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲的設(shè)計[J];安徽農(nóng)業(yè)科學(xué);2009年20期
3 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動摘要算法[J];北京交通大學(xué)學(xué)報;2010年05期
4 任斌;毛應(yīng)爽;;基于本體的主動學(xué)習(xí)主題爬行的研究與實現(xiàn)[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2011年01期
5 武昊;廖安平;何超英;侯東陽;;基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J];地理與地理信息科學(xué);2012年02期
6 張超;閆宏印;;多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2012年06期
7 劉向君;;面向P2P的個性化搜索引擎的探討[J];電腦知識與技術(shù);2009年29期
8 吳聰聰;趙建立;;基于本體的主題爬蟲的研究[J];電腦知識與技術(shù);2011年03期
9 李園偉;;面向高校主題搜索引擎的的爬行器設(shè)計[J];電腦知識與技術(shù);2011年16期
10 宋永生;;基于Android的商品比價系統(tǒng)的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2011年18期
相關(guān)會議論文 前7條
1 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機(jī)學(xué)會服務(wù)計算學(xué)術(shù)會議論文集[C];2011年
2 王棟;陳勇;徐建良;;基于預(yù)測的BitTorrent種子評估方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
3 劉兵;胡學(xué)鋼;;基于多鏈接分析的主題爬蟲設(shè)計實現(xiàn)[A];全國第20屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年
4 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
5 孟紅;鐘華;;基于htmlparser的搜索引擎信息抽取系統(tǒng)設(shè)計與實現(xiàn)[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
6 毛華揚(yáng);劉衛(wèi);;會計信息搜索方法研究[A];第十屆全國會計信息化年會論文集[C];2011年
7 單鐵城;張安妮;馬德輝;;基于爬蟲改進(jìn)算法的個性化搜索引擎應(yīng)用研究[A];戰(zhàn)略性新興產(chǎn)業(yè)與科技支撐——2012年山東省科協(xié)學(xué)術(shù)年會論文集[C];2012年
相關(guān)博士學(xué)位論文 前10條
1 吳羽;面向時間敏感對象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
2 鄧斌;B2C在線評論中的客戶知識管理研究[D];電子科技大學(xué);2010年
3 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
4 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年
5 田俊華;基于本體知識庫的教學(xué)資源自動采集技術(shù)研究[D];南京師范大學(xué);2011年
6 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
7 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學(xué);2010年
8 米楊;基于頂級本體整合的醫(yī)學(xué)領(lǐng)域語義標(biāo)注研究[D];吉林大學(xué);2012年
9 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年
10 楊志;基于本體的語義互操作研究[D];北京郵電大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年
2 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年
3 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
4 李永春;主題搜索引擎的研究與實現(xiàn)[D];哈爾濱理工大學(xué);2010年
5 王曉地;Web信息采集技術(shù)研究與實現(xiàn)[D];華南理工大學(xué);2010年
6 樊春雷;基于語義分析的糖尿病健康教育系統(tǒng)研究與實現(xiàn)[D];華東理工大學(xué);2011年
7 周月紅;基于Lucene的站內(nèi)搜索引擎的設(shè)計與開發(fā)[D];華東理工大學(xué);2011年
8 史煒;個性化搜索引擎的研究與設(shè)計[D];電子科技大學(xué);2010年
9 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實現(xiàn)[D];解放軍信息工程大學(xué);2009年
10 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測系統(tǒng)研究[D];安徽大學(xué);2010年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 彭建榮;羅永會;;搜索引擎的基本原理及發(fā)展趨勢[J];電腦知識與技術(shù);2006年02期
2 楊堅爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
3 秦海峰;許南山;山嵐;;基于P2P架構(gòu)的搜索引擎技術(shù)探究[J];福建電腦;2008年07期
4 黃建蓮;中國搜索引擎服務(wù)市場的現(xiàn)狀及發(fā)展[J];華北科技學(xué)院學(xué)報;2005年03期
5 林彤,江志軍;Internet的搜索引擎[J];計算機(jī)工程與應(yīng)用;2000年05期
6 李蕾,王楠,張劍,鐘義信,郭祥昊,賈自燕;中文搜索引擎概念檢索初探[J];計算機(jī)工程與應(yīng)用;2000年06期
7 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機(jī)應(yīng)用與軟件;2009年01期
8 吳友政,趙軍,段湘煜,徐波;問答式檢索技術(shù)及評測研究綜述[J];中文信息學(xué)報;2005年03期
9 曹二堂,劉玉林;基于語義理解的智能搜索引擎的研究[J];情報雜志;2005年06期
10 王敏,楊炳儒;基于主題的個性化元搜索引擎的設(shè)計與實現(xiàn)[J];情報雜志;2005年07期
相關(guān)碩士學(xué)位論文 前1條
1 楊溥;搜索引擎中爬蟲的若干問題研究[D];北京郵電大學(xué);2009年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉潔清;吳京慧;;面向主題的個人實時搜索引擎的設(shè)計與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2006年05期
2 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲設(shè)計[J];現(xiàn)代圖書情報技術(shù);2008年06期
3 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
4 陳哲;;垂直搜索中網(wǎng)頁抓取技術(shù)的研究[J];科技信息;2009年22期
5 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計算機(jī)科學(xué)與探索;2011年01期
6 王芳;陳海建;;深入解析Web主題爬蟲的關(guān)鍵性原理[J];微型電腦應(yīng)用;2011年07期
7 楊娜;周長勝;馬志強(qiáng);丁維;;基于校園網(wǎng)的搜索器技術(shù)研究與改進(jìn)[J];計算機(jī)與數(shù)字工程;2007年03期
8 徐遠(yuǎn)超;劉江華;劉麗珍;關(guān)永;;基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];微計算機(jī)信息;2007年21期
9 薛建春;段紅梅;蔡松;;定題搜索引擎的設(shè)計與實現(xiàn)[J];微計算機(jī)信息;2007年21期
10 王星;劉李敦;;基于移動代理(Agent)的智能爬蟲系統(tǒng)的設(shè)計和實現(xiàn)[J];科技資訊;2007年28期
相關(guān)會議論文 前10條
1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
2 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
3 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設(shè)計與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
4 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機(jī)學(xué)術(shù)會議論文集[C];2010年
5 汪沛;;Isolex股市預(yù)測系統(tǒng)的設(shè)計與實現(xiàn)[A];促進(jìn)企業(yè)信息化進(jìn)程——第十屆中國Java技術(shù)及應(yīng)用大會文集[C];2007年
6 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
7 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡(luò)爬行器設(shè)計與實現(xiàn)[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
8 安倫;周斌;賈焰;;在線Web挖掘中的計算資源動態(tài)平衡[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
9 單大甫;周斌;黃九鳴;;基于CAAR算法的文本傾向性分析技術(shù)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
10 栗振江;楊洋;李麗;;智能問答系統(tǒng)[A];2011年全國通信安全學(xué)術(shù)會議論文集[C];2011年
相關(guān)博士學(xué)位論文 前1條
1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 王攀;主題搜索引擎的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2007年
2 劉運(yùn)佳;基于Lucene和Heririx構(gòu)建搜索引擎的研究和示例實現(xiàn)[D];電子科技大學(xué);2008年
3 范先爽;基于個性化服務(wù)的汽車信息搜索引擎的研究[D];武漢理工大學(xué);2011年
4 葉繼平;基于Lucene的全文信息檢索技術(shù)的研究與應(yīng)用[D];江南大學(xué);2012年
5 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年
6 華大年;手機(jī)產(chǎn)品信息垂直搜索引擎系統(tǒng)設(shè)計與開發(fā)[D];武漢理工大學(xué);2011年
7 王小森;基于Solr的搜索引擎的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2011年
8 呂曉昶;面向交易信息的垂直搜索引擎搜索機(jī)制研究與實現(xiàn)[D];東北石油大學(xué);2011年
9 汪明強(qiáng);基于JAVA+LUCENE+HERITRIX的WEB垂直搜索引擎技術(shù)研究與實現(xiàn)[D];河北工業(yè)大學(xué);2011年
10 蘇希樂;面向手機(jī)信息的垂直搜索引擎[D];西安工業(yè)大學(xué);2012年
,本文編號:2474651
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2474651.html