聚焦爬蟲技術(shù)研究綜述
本文選題:聚焦爬蟲 + 信息檢索 ; 參考:《計(jì)算機(jī)應(yīng)用》2005年09期
【摘要】:因特網(wǎng)的迅速發(fā)展對(duì)萬維網(wǎng)信息的查找與發(fā)現(xiàn)提出了巨大的挑戰(zhàn)。對(duì)于大多用戶提出的與主題或領(lǐng)域相關(guān)的查詢需求,傳統(tǒng)的通用搜索引擎往往不能提供令人滿意的結(jié)果網(wǎng)頁。為了克服通用搜索引擎的以上不足,提出了面向主題的聚焦爬蟲的研究。至今,聚焦爬蟲已成為有關(guān)萬維網(wǎng)的研究熱點(diǎn)之一。文中對(duì)這一熱點(diǎn)研究進(jìn)行綜述,給出聚焦爬蟲(Focused Crawler)的基本概念,概述其工作原理;并根據(jù)研究的發(fā)展現(xiàn)狀,對(duì)聚焦爬蟲的關(guān)鍵技術(shù)(抓取目標(biāo)描述,網(wǎng)頁分析算法和網(wǎng)頁搜索策略等)作系統(tǒng)介紹和深入分析。在此基礎(chǔ)上,提出聚焦爬蟲今后的一些研究方向,包括面向數(shù)據(jù)分析和挖掘的爬蟲技術(shù)研究,主題的描述與定義,相關(guān)資源的發(fā)現(xiàn),W eb數(shù)據(jù)清洗,以及搜索空間的擴(kuò)展等。
[Abstract]:In order to overcome the shortcomings of general search engines , the traditional general search engine can not provide satisfactory results pages . In order to overcome the shortcomings of general search engines , this paper presents the basic concept of focus crawler , outlines its working principles , and puts forward some research directions for focusing reptiles , including the research of data analysis and mining crawler technology , the description and definition of the subject , the discovery of related resources , the cleaning of the data and the extension of search space .
【作者單位】: 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系
【基金】:國家自然科學(xué)基金資助項(xiàng)目(60173008)
【分類號(hào)】:TP393.02
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 胡宏濤;常佳;;基于網(wǎng)絡(luò)的信息獲取技術(shù)淺析[J];福建電腦;2006年04期
2 何瑩;;基于KPS的HTML數(shù)據(jù)抽取[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
3 丁黃望;丁要軍;;模糊聚類分析及其在信息檢索中的應(yīng)用[J];福建電腦;2006年04期
4 何擁軍;龔發(fā)根;;基于用戶輔助估計(jì)的相關(guān)網(wǎng)頁搜索聚類[J];計(jì)算機(jī)技術(shù)與發(fā)展;2011年07期
5 張曉衛(wèi);朱巧明;;一種基于Lucene的Web全文信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)與現(xiàn)代化;2006年12期
6 曹冬林;林達(dá)真;;文本檢索模型綜述[J];心智與計(jì)算;2007年04期
7 杜光芹;張化祥;趙瑞東;;主題Web挖掘研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2008年02期
8 范會(huì)聯(lián);李獻(xiàn)禮;曾廣樸;;基于改進(jìn)遺傳算法的聚焦爬蟲設(shè)計(jì)[J];計(jì)算機(jī)工程與科學(xué);2010年05期
9 劉永泰;全文文本檢索技術(shù)及其發(fā)展[J];中國信息導(dǎo)報(bào);1998年04期
10 黃嘉滿;張冬茉;;基于本體的商務(wù)領(lǐng)域文本檢索的研究[J];微型電腦應(yīng)用;2007年02期
相關(guān)會(huì)議論文 前10條
1 廖光忠;黃澤鑫;;基于HowNet語義算法的研究[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
2 孫金立;李路路;王棟;;生物信息檢索教學(xué)網(wǎng)的建設(shè)[A];向數(shù)字化轉(zhuǎn)型的圖書館工作[C];2004年
3 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年
4 孫金立;李路路;董明強(qiáng);;建立生物信息檢索教學(xué)網(wǎng)的研究[A];中華醫(yī)學(xué)會(huì)第十次全國醫(yī)學(xué)信息學(xué)術(shù)會(huì)議論文匯編[C];2004年
5 ;編者的話[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
6 米曉紅;;一種基于LSI的用戶興趣模型構(gòu)建方法[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
7 田田;馬軍;李躍軍;;應(yīng)用多本體進(jìn)行信息檢索的研究[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2005年
8 吳立德;黃萱菁;;前言[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
9 王敬成;;HNC農(nóng)村智能信息檢索系統(tǒng)[A];2006年首屆ICT大會(huì)信息、知識(shí)、智能及其轉(zhuǎn)換理論第一次高峰論壇會(huì)議論文集[C];2006年
10 李應(yīng)興;付婷;李勇;;基于LUCENE的藏文信息檢索的研究與應(yīng)用[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
相關(guān)重要報(bào)紙文章 前10條
1 希安;微軟試水信息檢索[N];經(jīng)濟(jì)日?qǐng)?bào);2004年
2 廣東省電信公司科學(xué)技術(shù)研究院 汪虹;數(shù)據(jù)抽取: 復(fù)雜電信數(shù)據(jù)的統(tǒng)一路[N];計(jì)算機(jī)世界;2002年
3 涂凱;數(shù)據(jù)淘金 妙在分分合合[N];中國計(jì)算機(jī)報(bào);2003年
4 何清 史忠植 王偉;搜索引擎的前沿技術(shù)[N];計(jì)算機(jī)世界;2006年
5 葉靜;開辟信息檢索的新天地[N];人民郵電;2001年
6 本報(bào)記者 潘永花;組件化平臺(tái)提升信息檢索效率[N];網(wǎng)絡(luò)世界;2003年
7 劉靜一;個(gè)人檔案信息檢索[N];建筑報(bào);2000年
8 劉光強(qiáng);搜索個(gè)人、企業(yè)、垂直三大搜索新進(jìn)展[N];中國計(jì)算機(jī)報(bào);2007年
9 柏榮;國家973項(xiàng)目在因特網(wǎng)大規(guī)模信息檢索領(lǐng)域取得突破[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2003年
10 劉立新;信息社會(huì)技術(shù)前瞻[N];學(xué)習(xí)時(shí)報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 王鑫印;無結(jié)構(gòu)和半結(jié)構(gòu)信息檢索相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2007年
2 翟海軍;面向Web信息檢索的知識(shí)挖掘[D];中國科學(xué)技術(shù)大學(xué);2010年
3 張乃洲;實(shí)體搜索爬蟲和信息抽取研究[D];武漢大學(xué);2011年
4 陳珂銳;基于本體演化的Deep Web數(shù)據(jù)抽取與注釋[D];吉林大學(xué);2011年
5 胡熠;面向信息檢索的文本內(nèi)容分析[D];上海交通大學(xué);2007年
6 張俊林;基于語言模型的信息檢索系統(tǒng)研究[D];中國科學(xué)院研究生院(軟件研究所);2004年
7 丁艷輝;面向Web數(shù)據(jù)集成的數(shù)據(jù)抽取問題研究[D];山東大學(xué);2010年
8 吳定峰;基于本體的語義搜索模型研究[D];中國農(nóng)業(yè)科學(xué)院;2012年
9 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年
10 楊志峰;穩(wěn)定的信息檢索方法及其在分布式環(huán)境下的應(yīng)用[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2003年
相關(guān)碩士學(xué)位論文 前10條
1 郭坤銀;基于頁面分塊和鏈接分析的Web圖片檢索研究[D];重慶大學(xué);2009年
2 倪賢貴;聚焦爬蟲技術(shù)研究[D];江南大學(xué);2008年
3 高文梁;改進(jìn)的基于歷史信息分析的網(wǎng)頁排序算法[D];大連理工大學(xué);2009年
4 邱春艷;基于粗糙集理論的智能信息檢索方法的研究[D];東北師范大學(xué);2005年
5 董晨曦;基于網(wǎng)站內(nèi)容框架的聚焦爬蟲算法的優(yōu)化和實(shí)現(xiàn)[D];北京交通大學(xué);2012年
6 喬智勇;Web數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)及關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2002年
7 楊才峰;基于自動(dòng)分類的元搜索引擎的研究與應(yīng)用[D];華北電力大學(xué)(河北);2005年
8 郭磊;P2P系統(tǒng)中的信息檢索理論及應(yīng)用研究[D];山東師范大學(xué);2011年
9 宋海林;基于語言模型的信息檢索中負(fù)反饋技術(shù)的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2011年
10 管玉娟;基于智能Agent的個(gè)性化信息檢索技術(shù)研究[D];西安建筑科技大學(xué);2005年
,本文編號(hào):1908960
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1908960.html