改進型實時爬蟲的建模研究及其實現(xiàn)
本文選題:搜索引擎 切入點:網絡爬蟲 出處:《吉林大學》2012年碩士論文
【摘要】:本文首先簡單介紹搜索引擎以及實時搜索引擎產生的背景,然后詳細描述了搜索引擎的模塊之一——網絡爬蟲的原理、結構、分類等,并簡要介紹近年來實時爬蟲領域的一些研究成果。在現(xiàn)有的一些網絡爬蟲技術的基礎上,針對目前它們存在的問題和不足之處,,本文提出了一個實時爬蟲的模型,詳盡闡述了該模型的推導過程、模型工作流程以及模型的各個組成模塊等。在理論描述后,本文設計了實驗用于驗證和分析該爬蟲的效果和性能。最后對本文的工作總結并展望。
[Abstract]:This paper first introduces the background of search engine and real-time search engine, then describes in detail the principle, structure, classification of web crawler, one of the modules of search engine. Some research achievements in the field of real-time crawler in recent years are briefly introduced. On the basis of some existing web crawler technologies, a real-time crawler model is proposed in this paper, aiming at their existing problems and shortcomings. The derivation process of the model, the workflow of the model and the components of the model are described in detail. In this paper, experiments are designed to verify and analyze the effect and performance of the reptile. Finally, the work of this paper is summarized and prospected.
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.3
【相似文獻】
相關期刊論文 前10條
1 斌子;織網酷軟 網頁文件壓縮助理——HTML Shrinker[J];網絡與信息;2003年02期
2 劉磊安;符志強;;基于Lucene.net網絡爬蟲的設計與實現(xiàn)[J];電腦知識與技術;2010年08期
3 馬向玲,馬向陽,李偉;用Dreamweaver制作博士招生網站[J];教育信息化;2001年08期
4 小貝殼;保存網頁的利器——網文快捕信息管理速戰(zhàn)[J];電腦應用文萃;2004年03期
5 劉潔清;吳京慧;;面向主題的個人實時搜索引擎的設計與實現(xiàn)[J];現(xiàn)代圖書情報技術;2006年05期
6 王軍;彭建;;網絡爬蟲的結構設計研究[J];科技信息(學術研究);2007年27期
7 鄒海亮;孫莉;;可定制的聚焦網絡爬蟲[J];電子科技;2009年01期
8 何志文;郭利剛;;搜索引擎技術在互聯(lián)網音視頻節(jié)目監(jiān)測系統(tǒng)中的應用[J];廣播與電視技術;2009年03期
9 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實現(xiàn)[J];大眾科技;2010年02期
10 ;剖析惡意網頁修改注冊表[J];電腦數碼采購周刊;2005年02期
相關會議論文 前10條
1 張星星;穗志方;;基于網頁中深度并列結構的實例提取算法[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年
2 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務搜索引擎設計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學會服務計算學術會議論文集[C];2011年
3 劉凡平;高艷華;于炯;張偉;;基于關鍵決策方法的站內搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學術會議論文集[C];2010年
4 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術年會論文集[C];2008年
5 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術交流會議論文匯編[C];2003年
6 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數據庫學術會議論文集(研究報告篇)[C];2001年
7 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網頁爬行器的設計與實現(xiàn)[A];少數民族青年自然語言處理技術研究與進展——第三屆全國少數民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
8 徐劍;柯貴明;;網絡爬蟲技術在搜索引擎中的應用[A];全國第21屆計算機技術與應用學術會議(CACIS·2010)暨全國第2屆安全關鍵技術與應用學術會議論文集[C];2010年
9 王凱;劉代志;李東旭;齊瑋;;地球物理環(huán)境情報搜集系統(tǒng)研究[A];國家安全地球物理叢書(四)——地球物理環(huán)境探測和目標信息獲取與處理[C];2008年
10 湯薇;曾艷;;構建校園網搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年
相關重要報紙文章 前10條
1 陶秋豐;萬事俱備,只欠東風[N];電腦報;2007年
2 李一鑫;搜索排名的紅與黑[N];財經時報;2007年
3 周文林;搜狗3.0能否撼動搜索市場[N];經濟參考報;2007年
4 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經日報;2005年
5 賽迪顧問股份有限公司互聯(lián)網與電子商務咨詢中心 常燕杰;搜索,還是門戶[N];中國計算機報;2005年
6 陳珊;浙江移動推出手機搜索引擎服務[N];人民郵電;2005年
7 趙法忠;搜索引擎還需悠著點[N];中國經營報;2005年
8 金朝力;搜索引擎火拼搜索質量[N];北京商報;2006年
9 本報記者 趙曉輝 孟昭麗;搜索引擎駛入“避風港”[N];中國證券報;2006年
10 孫t;搜索引擎驚喜侵權官司止于“避風港”?[N];第一財經日報;2006年
相關博士學位論文 前10條
1 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年
2 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
3 吳永輝;面向專業(yè)領域的網絡信息采集及主題檢測技術研究與應用[D];哈爾濱工業(yè)大學;2010年
4 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年
5 蘇君華;面向搜索引擎的技術接受模型研究[D];南京大學;2011年
6 陳德品;基于遷移學習的跨領域排序學習算法研究[D];中國科學技術大學;2010年
7 王昤璞;基于用戶體驗的互聯(lián)網搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
8 李莎莎;面向搜索引擎的自然語言處理關鍵技術研究[D];國防科學技術大學;2011年
9 黃華軍;網頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年
10 白玉琪;空間信息搜索引擎研究[D];中國科學院研究生院(遙感應用研究所);2003年
相關碩士學位論文 前10條
1 屠輝;中文重復網頁的檢測算法研究[D];北京郵電大學;2010年
2 黃偉光;網頁木馬的防御與檢測技術研究[D];北京交通大學;2011年
3 易方昶;基于網頁后門木馬監(jiān)測系統(tǒng)的研究和設計[D];北京化工大學;2010年
4 王征;基于布隆過濾器算法的網頁消重技術的實現(xiàn)與應用[D];北京交通大學;2010年
5 史晶晶;基于CRF的Web機構實體信息抽取系統(tǒng)[D];吉林大學;2011年
6 陳瑜芳;主題爬蟲系統(tǒng)的研究[D];武漢理工大學;2010年
7 尹力;網頁防篡改系統(tǒng)在校園網中的應用研究[D];河北科技大學;2011年
8 孔輝;一種網頁防篡改系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2011年
9 孫鵬;網頁水印技術研究[D];上海交通大學;2010年
10 盧承山;基于領域的主題信息采集技術研究[D];武漢理工大學;2011年
本文編號:1683601
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1683601.html