改進(jìn)型實(shí)時(shí)爬蟲的建模研究及其實(shí)現(xiàn)
本文選題:搜索引擎 切入點(diǎn):網(wǎng)絡(luò)爬蟲 出處:《吉林大學(xué)》2012年碩士論文
【摘要】:本文首先簡單介紹搜索引擎以及實(shí)時(shí)搜索引擎產(chǎn)生的背景,然后詳細(xì)描述了搜索引擎的模塊之一——網(wǎng)絡(luò)爬蟲的原理、結(jié)構(gòu)、分類等,并簡要介紹近年來實(shí)時(shí)爬蟲領(lǐng)域的一些研究成果。在現(xiàn)有的一些網(wǎng)絡(luò)爬蟲技術(shù)的基礎(chǔ)上,針對目前它們存在的問題和不足之處,,本文提出了一個(gè)實(shí)時(shí)爬蟲的模型,詳盡闡述了該模型的推導(dǎo)過程、模型工作流程以及模型的各個(gè)組成模塊等。在理論描述后,本文設(shè)計(jì)了實(shí)驗(yàn)用于驗(yàn)證和分析該爬蟲的效果和性能。最后對本文的工作總結(jié)并展望。
[Abstract]:This paper first introduces the background of search engine and real-time search engine, then describes in detail the principle, structure, classification of web crawler, one of the modules of search engine. Some research achievements in the field of real-time crawler in recent years are briefly introduced. On the basis of some existing web crawler technologies, a real-time crawler model is proposed in this paper, aiming at their existing problems and shortcomings. The derivation process of the model, the workflow of the model and the components of the model are described in detail. In this paper, experiments are designed to verify and analyze the effect and performance of the reptile. Finally, the work of this paper is summarized and prospected.
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 斌子;織網(wǎng)酷軟 網(wǎng)頁文件壓縮助理——HTML Shrinker[J];網(wǎng)絡(luò)與信息;2003年02期
2 劉磊安;符志強(qiáng);;基于Lucene.net網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識與技術(shù);2010年08期
3 馬向玲,馬向陽,李偉;用Dreamweaver制作博士招生網(wǎng)站[J];教育信息化;2001年08期
4 小貝殼;保存網(wǎng)頁的利器——網(wǎng)文快捕信息管理速戰(zhàn)[J];電腦應(yīng)用文萃;2004年03期
5 劉潔清;吳京慧;;面向主題的個(gè)人實(shí)時(shí)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2006年05期
6 王軍;彭建;;網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)設(shè)計(jì)研究[J];科技信息(學(xué)術(shù)研究);2007年27期
7 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲[J];電子科技;2009年01期
8 何志文;郭利剛;;搜索引擎技術(shù)在互聯(lián)網(wǎng)音視頻節(jié)目監(jiān)測系統(tǒng)中的應(yīng)用[J];廣播與電視技術(shù);2009年03期
9 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實(shí)現(xiàn)[J];大眾科技;2010年02期
10 ;剖析惡意網(wǎng)頁修改注冊表[J];電腦數(shù)碼采購周刊;2005年02期
相關(guān)會(huì)議論文 前10條
1 張星星;穗志方;;基于網(wǎng)頁中深度并列結(jié)構(gòu)的實(shí)例提取算法[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年
3 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實(shí)現(xiàn)[A];2010年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集[C];2010年
4 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年
5 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年
6 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
7 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
8 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
9 王凱;劉代志;李東旭;齊瑋;;地球物理環(huán)境情報(bào)搜集系統(tǒng)研究[A];國家安全地球物理叢書(四)——地球物理環(huán)境探測和目標(biāo)信息獲取與處理[C];2008年
10 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年
相關(guān)重要報(bào)紙文章 前10條
1 陶秋豐;萬事俱備,只欠東風(fēng)[N];電腦報(bào);2007年
2 李一鑫;搜索排名的紅與黑[N];財(cái)經(jīng)時(shí)報(bào);2007年
3 周文林;搜狗3.0能否撼動(dòng)搜索市場[N];經(jīng)濟(jì)參考報(bào);2007年
4 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財(cái)經(jīng)日報(bào);2005年
5 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,還是門戶[N];中國計(jì)算機(jī)報(bào);2005年
6 陳珊;浙江移動(dòng)推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年
7 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國經(jīng)營報(bào);2005年
8 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報(bào);2006年
9 本報(bào)記者 趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國證券報(bào);2006年
10 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財(cái)經(jīng)日報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
4 岑榮偉;基于用戶行為分析的搜索引擎評價(jià)研究[D];清華大學(xué);2010年
5 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年
6 陳德品;基于遷移學(xué)習(xí)的跨領(lǐng)域排序?qū)W習(xí)算法研究[D];中國科學(xué)技術(shù)大學(xué);2010年
7 王昤璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評估研究[D];吉林大學(xué);2010年
8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
9 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學(xué);2007年
10 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年
相關(guān)碩士學(xué)位論文 前10條
1 屠輝;中文重復(fù)網(wǎng)頁的檢測算法研究[D];北京郵電大學(xué);2010年
2 黃偉光;網(wǎng)頁木馬的防御與檢測技術(shù)研究[D];北京交通大學(xué);2011年
3 易方昶;基于網(wǎng)頁后門木馬監(jiān)測系統(tǒng)的研究和設(shè)計(jì)[D];北京化工大學(xué);2010年
4 王征;基于布隆過濾器算法的網(wǎng)頁消重技術(shù)的實(shí)現(xiàn)與應(yīng)用[D];北京交通大學(xué);2010年
5 史晶晶;基于CRF的Web機(jī)構(gòu)實(shí)體信息抽取系統(tǒng)[D];吉林大學(xué);2011年
6 陳瑜芳;主題爬蟲系統(tǒng)的研究[D];武漢理工大學(xué);2010年
7 尹力;網(wǎng)頁防篡改系統(tǒng)在校園網(wǎng)中的應(yīng)用研究[D];河北科技大學(xué);2011年
8 孔輝;一種網(wǎng)頁防篡改系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
9 孫鵬;網(wǎng)頁水印技術(shù)研究[D];上海交通大學(xué);2010年
10 盧承山;基于領(lǐng)域的主題信息采集技術(shù)研究[D];武漢理工大學(xué);2011年
本文編號:1683601
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1683601.html