一種網(wǎng)絡(luò)爬蟲系統(tǒng)中URL去重方法的研究
本文關(guān)鍵詞:一種網(wǎng)絡(luò)爬蟲系統(tǒng)中URL去重方法的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)中包含的信息量承爆炸式增長(zhǎng),如何在數(shù)量繁多的信息中找到自己需要的,是一項(xiàng)不小的工程,因此,網(wǎng)絡(luò)搜索引擎應(yīng)運(yùn)而生,隨著搜索引擎的發(fā)展,越來越多的用戶選擇使用搜索引擎,但是搜索引擎并不完善,還需要種類繁多的網(wǎng)絡(luò)爬蟲進(jìn)行輔助。盡管使用了網(wǎng)絡(luò)爬蟲進(jìn)行輔助,但是為了提高搜索效率,我們需要對(duì)采取一些方式來使網(wǎng)絡(luò)爬蟲優(yōu)先選取那些符合搜索要求的網(wǎng)頁(yè),在這種情況下,如何對(duì)網(wǎng)絡(luò)爬蟲系統(tǒng)中進(jìn)行設(shè)置來提高URL去重的能力將會(huì)對(duì)網(wǎng)絡(luò)爬蟲的運(yùn)行效率產(chǎn)生不小的影響。下文將就如何簡(jiǎn)單的對(duì)URL去重進(jìn)行闡述。
【作者單位】: 北京網(wǎng)博視界科技有限公司;
【關(guān)鍵詞】: 爬蟲系統(tǒng) URL去重
【基金】:國(guó)家科技支撐計(jì)劃項(xiàng)目資助(項(xiàng)目編號(hào):2012BAH04F04)
【分類號(hào)】:TP393.092;TP391.3
【正文快照】: 近些年來,伴隨著科學(xué)技術(shù)的不斷進(jìn)步,互聯(lián)網(wǎng)技術(shù)也不斷發(fā)展,通過互聯(lián)網(wǎng)這個(gè)平臺(tái)傳遞的信息越來越多,但是想要在這浩渺煙海的信息中找到對(duì)自己有用到的信息,只有借助于搜索引擎這一網(wǎng)絡(luò)利器,通過搜索引擎可以很容易的搜索出需要的信息,但是現(xiàn)今的搜索引擎還存在著一些缺陷,們需
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 孫素芬;羅長(zhǎng)壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2007年22期
2 汪斌;張?jiān)苽?劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)[J];安徽農(nóng)業(yè)科學(xué);2009年20期
3 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動(dòng)摘要算法[J];北京交通大學(xué)學(xué)報(bào);2010年05期
4 任斌;毛應(yīng)爽;;基于本體的主動(dòng)學(xué)習(xí)主題爬行的研究與實(shí)現(xiàn)[J];長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年01期
5 武昊;廖安平;何超英;侯東陽(yáng);;基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J];地理與地理信息科學(xué);2012年02期
6 張超;閆宏印;;多線程網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2012年06期
7 吳聰聰;趙建立;;基于本體的主題爬蟲的研究[J];電腦知識(shí)與技術(shù);2011年03期
8 王遷;王麗娜;;對(duì)收費(fèi)網(wǎng)站中作品提供鏈接的法律性質(zhì)——評(píng)“娛樂基地”訴百度案[J];電子知識(shí)產(chǎn)權(quán);2007年08期
9 胡宏濤;常佳;;基于網(wǎng)絡(luò)的信息獲取技術(shù)淺析[J];福建電腦;2006年04期
10 張軍洲;連云凱;;基于旅游博客和論壇提高旅游產(chǎn)品質(zhì)量的模型研究[J];旅游論壇;2012年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 王棟;陳勇;徐建良;;基于預(yù)測(cè)的BitTorrent種子評(píng)估方法[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
2 劉兵;胡學(xué)鋼;;基于多鏈接分析的主題爬蟲設(shè)計(jì)實(shí)現(xiàn)[A];全國(guó)第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國(guó)第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
3 戴玉剛;;藏文網(wǎng)頁(yè)采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國(guó)民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年
2 鄧斌;B2C在線評(píng)論中的客戶知識(shí)管理研究[D];電子科技大學(xué);2010年
3 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險(xiǎn)信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
4 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測(cè)系統(tǒng)研究[D];北京郵電大學(xué);2011年
5 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
6 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學(xué);2010年
7 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年
8 楊志;基于本體的語義互操作研究[D];北京郵電大學(xué);2012年
9 王永剛;以數(shù)據(jù)為中心的在線社會(huì)網(wǎng)絡(luò)若干安全問題研究[D];北京大學(xué);2013年
10 王明軍;基于Web的空間數(shù)據(jù)爬取與度量研究[D];武漢大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年
2 翁巖青;網(wǎng)頁(yè)抓取策略研究[D];哈爾濱工程大學(xué);2010年
3 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
4 史煒;個(gè)性化搜索引擎的研究與設(shè)計(jì)[D];電子科技大學(xué);2010年
5 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2009年
6 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測(cè)系統(tǒng)研究[D];安徽大學(xué);2010年
7 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年
8 張朝威;面向企業(yè)競(jìng)爭(zhēng)情報(bào)的主題搜索研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
9 劉永信;主題搜索與Web挖掘的研究及系統(tǒng)實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
10 姜博;基于聚焦爬蟲的web信息采集技術(shù)研究[D];北方工業(yè)大學(xué);2011年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 陳哲;;垂直搜索中網(wǎng)頁(yè)抓取技術(shù)的研究[J];科技信息;2009年22期
2 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J];現(xiàn)代圖書情報(bào)技術(shù);2008年06期
3 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計(jì)算機(jī)科學(xué)與探索;2011年01期
4 王芳;陳海建;;深入解析Web主題爬蟲的關(guān)鍵性原理[J];微型電腦應(yīng)用;2011年07期
5 劉潔清;吳京慧;;面向主題的個(gè)人實(shí)時(shí)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2006年05期
6 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
7 王星;劉李敦;;基于移動(dòng)代理(Agent)的智能爬蟲系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J];科技資訊;2007年28期
8 趙靖華;;網(wǎng)絡(luò)性能指標(biāo)預(yù)測(cè)法指導(dǎo)任務(wù)分配的分布式網(wǎng)頁(yè)信息獲取技術(shù)[J];通化師范學(xué)院學(xué)報(bào);2008年10期
9 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲[J];電子科技;2009年01期
10 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實(shí)現(xiàn)[J];大眾科技;2010年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前9條
1 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[A];2010年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2010年
2 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國(guó)第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國(guó)第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
3 鄒永斌;陳興蜀;王文賢;;一個(gè)高性能Web資源收集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
4 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評(píng)論信息的挖掘[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
5 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實(shí)現(xiàn)[A];2010年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集[C];2010年
6 樸星海;趙鐵軍;鄭德權(quán);張迪;;面向Blog的網(wǎng)絡(luò)爬行器設(shè)計(jì)與實(shí)現(xiàn)[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
7 栗振江;楊洋;李麗;;智能問答系統(tǒng)[A];2011年全國(guó)通信安全學(xué)術(shù)會(huì)議論文集[C];2011年
8 安倫;周斌;賈焰;;在線Web挖掘中的計(jì)算資源動(dòng)態(tài)平衡[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年
9 單大甫;周斌;黃九鳴;;基于CAAR算法的文本傾向性分析技術(shù)[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 趙茉莉;網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
2 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實(shí)現(xiàn)[D];吉林大學(xué);2012年
3 芮虎;比價(jià)購(gòu)物平臺(tái)中網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[D];華東理工大學(xué);2013年
4 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];華東師范大學(xué);2010年
5 趙鵬程;分布式書籍網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2014年
6 張大偉;基于動(dòng)態(tài)概念圖的主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與分析[D];遼寧科技大學(xué);2013年
7 王毅桐;分布式網(wǎng)絡(luò)爬蟲技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
8 黃曉鵬;基于網(wǎng)絡(luò)爬蟲技術(shù)的內(nèi)容探測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年
9 么士宇;基于分布式計(jì)算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
10 王洪威;主題網(wǎng)絡(luò)爬蟲的分析與設(shè)計(jì)[D];北京郵電大學(xué);2013年
本文關(guān)鍵詞:一種網(wǎng)絡(luò)爬蟲系統(tǒng)中URL去重方法的研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):476526
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/476526.html