基于網(wǎng)絡(luò)爬蟲技術(shù)的多源下載系統(tǒng)的設(shè)計與實現(xiàn)
本文選題:網(wǎng)絡(luò)爬蟲 + HTTP; 參考:《北京郵電大學(xué)》2011年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)的普及應(yīng)用以及人們生活水平的提高,越來越多的人們喜歡從互聯(lián)網(wǎng)上下載資源。現(xiàn)在人們下載資源都需要經(jīng)過復(fù)雜的步驟,不僅效率低下,而且現(xiàn)在的下載工具充斥著大量的廣告,如果操作不當(dāng),則有可能使用戶的電腦陷入死機或者中毒的狀態(tài)。 本文針對上述問題,設(shè)計并實現(xiàn)了一款輕巧易用的小型軟件。該軟件集搜索,存儲展示和下載于一體,不僅能夠提供大量可下載的URL,而且能夠提高下載速率。 本文首先介紹了網(wǎng)絡(luò)爬蟲技術(shù)和超文本傳輸協(xié)議HTTP,并在傳統(tǒng)網(wǎng)絡(luò)爬蟲的基礎(chǔ)上進行了擴展。傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)只能抓取靜態(tài)的URL,而對大量深藏在深網(wǎng)絡(luò)中的動態(tài)的URL沒有抓取,從而損失了很多更有價值的URL。這樣導(dǎo)致了下載效率較低,而且不能夠提供足夠的URL以供多源下載。 本文通過執(zhí)行JavaScript腳本來解析出深層網(wǎng)絡(luò)中的動態(tài)的URL。執(zhí)行JavaScript腳本采用的Rhino解析引擎,但是Rhino解析引擎存在兩個弊端:一是Rhino無法模擬瀏覽器內(nèi)置對象;二是無法解析這些內(nèi)置對象動態(tài)添加的屬性和方法。本文對這兩個弊端進行了改進,通過添加對DOM操作的支持,使Rhino可以模擬瀏覽器內(nèi)置對象。通過修改在瀏覽器內(nèi)置對象中的查找方式,使Rhino可以解析瀏覽器內(nèi)置對象動態(tài)添加的屬性和方法。改進之后的Rhino能夠解析出更多的URL。 本文的存儲和展示模塊,主要對可下載的URL進行了分組存儲和展示,分組有一定的規(guī)則,只有相同的文件類型和文件大小的URL才在一組展示,在展示模塊采用定時刷新機制。 本文的下載模塊采用的是多源下載的技術(shù)。首先從存儲和展示模塊中得到經(jīng)過分組的URL,用戶點擊下載區(qū)域之后,對用戶選擇的URL分組進行精確的判斷,只有真正指向同一個文件下載源的URL才作為多源下載的源地址。判斷方式是使用從這些URL中下載相同位置的片段,計算這些片段的MD5值,MD5值相同的URL地址才作為源地址
[Abstract]:With the popularity of the Internet and the improvement of people's living standards, more and more people like to download resources from the Internet. Now people download resources through complex steps, not only inefficient, but also the download tools are filled with a lot of ads, if not used properly, This paper designs and implements a small software which is light and easy to use in view of the above problems. The software integrates search, storage, display and download. It can not only provide a large number of downloadable URLs, but also improve the download rate. Firstly, this paper introduces the web crawler technology and the hypertext transfer protocol HTTP, and extends on the basis of the traditional web crawler. Traditional network crawler technology can only capture static URLs, but not a large number of dynamic URLs hidden deep in the deep network, thus losing a lot of more valuable URLLs. This leads to low download efficiency and the inability to provide sufficient URLs for multiple downloads. This article parses the dynamic URLLs in the deep network by executing JavaScript scripts. The Rhino parsing engine used to execute JavaScript scripts has two disadvantages: one is that Rhino cannot simulate browser built-in objects; the other is that Rhino cannot parse the properties and methods dynamically added by these built-in objects. By adding support for Dom manipulation, Rhino can simulate browser built-in objects. By modifying the lookup method in the browser's built-in objects, Rhino can parse the properties and methods dynamically added by the browser's built-in objects. The improved Rhino can parse more URL.The storage and display modules of this article mainly store and display the downloadable URLs in groups, the grouping has certain rules, only the same file types and file size URLs can be displayed in a group. In the display module the timing refresh mechanism is adopted. The download module of this paper adopts the technology of multi-source download. After the user clicks on the download area, the URL group selected by the user is accurately judged. Only the URL that really points to the same file download source can be used as the source address of the multi-source download. It is judged by downloading fragments in the same location from these URLs and calculating the MD5 values of these fragments and the URL addresses with the same MD5 values as the source addresses
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2011
【分類號】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲[J];電子科技;2009年01期
2 程菲;汪建海;羅鍵;;增量更新Crawler進行Web收集方法研究[J];計算機工程與科學(xué);2006年12期
3 朱學(xué)芳;韓占校;;一種圖像主題網(wǎng)絡(luò)爬蟲的實現(xiàn)方法研究[J];南京師范大學(xué)學(xué)報(工程技術(shù)版);2008年04期
4 鄭力明;易平;;基于HTMLParser信息提取的網(wǎng)絡(luò)爬蟲設(shè)計[J];微計算機信息;2009年15期
5 陳麗君;;深層網(wǎng)網(wǎng)絡(luò)爬蟲設(shè)計[J];計算機與信息技術(shù);2009年Z2期
6 陳哲;;垂直搜索中網(wǎng)頁抓取技術(shù)的研究[J];科技信息;2009年22期
7 賀財平;覃事剛;劉建勛;;Web服務(wù)搜索引擎的設(shè)計與實現(xiàn)[J];計算機應(yīng)用與軟件;2011年01期
8 劉明輝;張志平;張新民;;網(wǎng)絡(luò)資源聚合方法探析[J];機械管理開發(fā);2008年05期
9 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲設(shè)計[J];現(xiàn)代圖書情報技術(shù);2008年06期
10 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計算機科學(xué)與探索;2011年01期
相關(guān)會議論文 前10條
1 張倫;祝建華;;Maze網(wǎng)絡(luò)中個體知識分享行為的演變[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文(摘要)匯集[C];2009年
2 朱磊;;迅雷流量的主動識別[A];江蘇省電子學(xué)會2010年學(xué)術(shù)年會論文集[C];2010年
3 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
4 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計與實現(xiàn)[A];第十三屆中國科協(xié)年會第11分會場-中國智慧城市論壇論文集[C];2011年
5 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
6 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設(shè)計與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
7 侯丹青;李舟軍;鄒蘊珂;;一種跨站腳本漏洞檢測系統(tǒng)的設(shè)計與實現(xiàn)[A];全國計算機安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年
8 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
9 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學(xué)術(shù)會議論文集[C];2010年
10 宋輝;方宗達(dá);;一款智能機器人控制板的軟件設(shè)計[A];全國第十五屆計算機科學(xué)與技術(shù)應(yīng)用學(xué)術(shù)會議論文集[C];2003年
相關(guān)重要報紙文章 前10條
1 本報記者 賀潔;192萬美元罰單震懾非法下載[N];中國計算機報;2009年
2 ;美研究生非法下載30首歌 遭天價罰款67.5萬美元[N];網(wǎng)絡(luò)世界;2009年
3 ;樂迷愿為下載付費[N];新華每日電訊;2010年
4 本報記者 王哲瑋;飛流九天:做最精準(zhǔn)的移動下載[N];計算機世界;2011年
5 苗子墨;迅雷離線下載的誘惑[N];電腦報;2010年
6 本報記者 王雨檬 編譯;英國今年非法下載歌曲超12億首[N];中國文化報;2010年
7 專欄 陳佼 資深互聯(lián)網(wǎng)分析人士;今天你“被下載”了嗎[N];電腦報;2010年
8 本報記者 胡靜;電紙書下載費用高[N];消費日報;2011年
9 李敬;整治BT 治標(biāo)更要治本[N];計算機世界;2009年
10 南方日報記者 周志坤 楊春 實習(xí)生 程陟;上傳的是民意 下載的是民主 撬動的是民智[N];南方日報;2011年
相關(guān)博士學(xué)位論文 前10條
1 黃昆;高性能內(nèi)容過濾與分發(fā)技術(shù)研究[D];湖南大學(xué);2009年
2 鐘海峰;層次p2p存儲系統(tǒng)關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2011年
3 呂曉鵬;P2P技術(shù)在IPv4/IPv6混合網(wǎng)中應(yīng)用的關(guān)鍵問題研究[D];北京郵電大學(xué);2011年
4 王文藝;一種具有服務(wù)質(zhì)量保證的個性化P2P IPTV系統(tǒng)研究[D];浙江大學(xué);2010年
5 王馳;對等網(wǎng)絡(luò)傳輸控制及激勵機制研究[D];北京郵電大學(xué);2010年
6 李軍;大規(guī)模數(shù)字內(nèi)容網(wǎng)絡(luò)分發(fā)關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2009年
7 郭東;P2P網(wǎng)絡(luò)的動力學(xué)建模與算法研究[D];中國科學(xué)技術(shù)大學(xué);2011年
8 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
9 李致遠(yuǎn);移動對等網(wǎng)絡(luò)安全若干關(guān)鍵技術(shù)研究[D];南京郵電大學(xué);2011年
10 孟和;無線內(nèi)容下載平臺中事件流處理應(yīng)用研究[D];天津大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 李蕊;基于網(wǎng)絡(luò)爬蟲技術(shù)的多源下載系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2011年
2 祝建軍;視頻下載方法及分布式視頻抓取系統(tǒng)的設(shè)計與實現(xiàn)[D];華南理工大學(xué);2012年
3 費帆;下載及其行為研究[D];上海師范大學(xué);2011年
4 曾智勇;基于邊緣緩存的下載加速方案設(shè)計與實現(xiàn)[D];中南大學(xué);2010年
5 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年
6 黃曉鵬;基于網(wǎng)絡(luò)爬蟲技術(shù)的內(nèi)容探測系統(tǒng)設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2010年
7 么士宇;基于分布式計算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
8 裘杰;下載客戶端安全性評價研究[D];哈爾濱工業(yè)大學(xué);2011年
9 賈艷艷;基于被動測量的迅雷體系結(jié)構(gòu)及下載策略研究[D];云南大學(xué);2012年
10 周磊;基于多核環(huán)境的并行下載系統(tǒng)研究開發(fā)[D];西安理工大學(xué);2010年
,本文編號:1998164
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1998164.html