天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

一種基于Hadoop的分布式網絡爬蟲的研究與設計

發(fā)布時間:2017-04-27 17:00

  本文關鍵詞:一種基于Hadoop的分布式網絡爬蟲的研究與設計,,由筆耕文化傳播整理發(fā)布。


【摘要】:信息技術的飛速發(fā)展,尤其是近些年來互聯(lián)網和移動互聯(lián)網的發(fā)展,深刻的改變著我們生活的世界。信息技術產業(yè)以及信息技術與傳統(tǒng)產業(yè)的結合已經成為世界經濟的重要組成部分。而當前隨著網絡將越來越多事物連接起來,人們需要面對的信息量也激增了,因此一個新的課題也就產生了——如何找到有價值的信息。對于個體用戶面對互聯(lián)網的情況,這一問題的答案就是搜索引擎。而對于想獲得海量數(shù)據(jù)當中隱藏的價值的企業(yè),這一問題的答案就是數(shù)據(jù)分析與數(shù)據(jù)挖掘。對于這些解決辦法而言,信息處理的第一步就是獲取互聯(lián)網上的海量的信息。本論文的研究課題就是從互聯(lián)網上獲取海量信息的網絡爬蟲技術,由于當前單機平臺已經難以應對互聯(lián)網大數(shù)據(jù)量的挑戰(zhàn),本課題借助分布式平臺來作為應用的底層平臺。 本論文的主要研究工作包括以下幾個方面: 網絡爬蟲研究的背景技術與相關理論;ヂ(lián)網信息的爆發(fā)式增長,衍生出了搜索引擎技術,而網絡爬蟲是搜索引擎的重要組成部分。本論文研究分析了搜索引擎的基本工作原理與關鍵模塊的技術細節(jié),主要是建立搜索索引和搜索結果排序的技術原理。在這些研究的基礎上,本論文對網絡爬蟲的原理進行了分析。對于網絡爬蟲涉及的一些關鍵的技術給出了詳細的介紹與分析。 本論文研究了云計算發(fā)展狀況與Hadoop分布式平臺的主要構成和關鍵技術,并介紹了云計算的產生與發(fā)展現(xiàn)狀,詳細研究了云計算的關鍵技術特征。Hadoop分布式平臺的主要構成包括HDFS、 MapReduce編程模型和HBase分布式數(shù)據(jù)庫。本論文對于他們的技術細節(jié)進行了分析,并著重分析了Hadoop平臺作為分布式開發(fā)框架的主要特征和優(yōu)勢。 本課題完成了分布式網絡爬蟲的設計實現(xiàn)、部署與測試。在前述技術研究的基礎上,本課題研究并設計了基于Hadoop分布式平臺的網絡爬蟲,詳細分析了各關鍵模塊的主要功能,以及在MapReduce編程框架下的實現(xiàn)。完成了該網絡爬蟲在20臺服務器組成的小型服務器集群上的部署與測試。最后,本論文通過實驗證明這套設計方案切實可行,該設計是使用開源分布式系統(tǒng)的很好地嘗試。本課題對網絡爬蟲技術和分布式系統(tǒng)的研究很有參考價值。
【關鍵詞】:網絡爬蟲 云計算 分布式系統(tǒng) Hadoop
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要4-6
  • ABSTRACT6-11
  • 第一章 緒論11-15
  • 1.1 課題的研究背景11-12
  • 1.2 課題的研究內容與現(xiàn)狀12-14
  • 1.3 本文的內容和結構14
  • 1.4 本章小結14-15
  • 第二章 相關研究工作綜述15-34
  • 2.1 搜索引擎技術綜述15-19
  • 2.1.1 搜索引擎中索引的建立16-18
  • 2.1.2 搜索引擎中搜索結果排序18-19
  • 2.2 網絡爬蟲概述19-22
  • 2.2.1 網絡爬蟲的基本構成19-20
  • 2.2.2 網絡爬蟲的研究現(xiàn)狀20-22
  • 2.3 云計算發(fā)展綜述22-27
  • 2.3.1 云計算的發(fā)展現(xiàn)狀23-24
  • 2.3.2 云計算的特點24-25
  • 2.3.3 云計算的體系結構與服務層次25-27
  • 2.4 Hadoop分布式系統(tǒng)綜述27-33
  • 2.4.1 Hadoop的分布式文件系統(tǒng)27-28
  • 2.4.2 HBase數(shù)據(jù)庫與Zookeeper28-30
  • 2.4.3 MapReduce分布式框架編程模型30-33
  • 2.5 本章小結33-34
  • 第三章 分布式網絡爬蟲的分析與概要設計34-47
  • 3.1 分布式網絡爬蟲系統(tǒng)布局34-36
  • 3.1.1 分布式平臺的系統(tǒng)架構34-35
  • 3.1.2 分布式爬蟲的總體流程設計35-36
  • 3.2 網絡爬蟲的爬取相關技術分析36-41
  • 3.2.1 網絡爬蟲的爬取深度策略36-37
  • 3.2.2 Robots 協(xié)議簡介37-38
  • 3.2.3 DNS以及爬蟲相關解決方案分析38-39
  • 3.2.4 網絡爬蟲消重策略分析39-40
  • 3.2.5 跨語言服務開發(fā)框架Apache Thrift40-41
  • 3.3 分布式網絡爬蟲的結構設計41-46
  • 3.3.1 配置模塊設計42-44
  • 3.3.2 存儲模塊設計44-46
  • 3.3.3 任務管理模塊設計46
  • 3.3.4 爬取模塊設計46
  • 3.4 本章小結46-47
  • 第四章 分布式網絡爬蟲的詳細設計與實現(xiàn)47-57
  • 4.1 分布式網絡爬蟲的接口設計47-51
  • 4.1.1 網頁接口的設計與實現(xiàn)47-48
  • 4.1.2 Thrift程序接口的設計與實現(xiàn)48-51
  • 4.2 分布式網絡爬蟲的數(shù)據(jù)信息51-52
  • 4.2.1 URL的狀態(tài)信息51
  • 4.2.2 頁面信息51
  • 4.2.3 頁面解析信息51-52
  • 4.3 分布式爬蟲的主要模塊分析與實現(xiàn)52-56
  • 4.3.1 URL注入模塊52-53
  • 4.3.2 待爬取URL列表生成模塊53-55
  • 4.3.3 爬取與更新模塊55-56
  • 4.4 本章小結56-57
  • 第五章 分布式網絡爬蟲的實驗測試與分析57-69
  • 5.1 分布式平臺的軟硬件環(huán)境57-60
  • 5.1.1 硬件環(huán)境介紹57-58
  • 5.1.2 軟件環(huán)境介紹58-60
  • 5.2 分布式網絡爬蟲的部署60-64
  • 5.2.1 系統(tǒng)環(huán)境配置60-63
  • 5.2.2 爬蟲的部署與基本測試63-64
  • 5.3 分布式網絡爬蟲的系統(tǒng)測試與分析64-68
  • 5.3.1 基本功能測試65-66
  • 5.3.2 性能測試66-67
  • 5.3.3 測試結果分析67-68
  • 5.4 本章小結68-69
  • 第六章 總結與展望69-71
  • 6.1 總結69-70
  • 6.2 工作展望70-71
  • 參考文獻71-73
  • 致謝73

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李翔;劉文兵;馬超;劉海艷;;基于云計算的空間數(shù)據(jù)處理技術[J];測繪與空間地理信息;2012年09期

2 欒亞建;黃爛

本文編號:330997


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/330997.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶ed2aa***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
久久精品欧美一区二区三不卡| 欧美乱妇日本乱码特黄大片| 精品女同一区二区三区| 日韩成人午夜福利免费视频| 久久国产精品熟女一区二区三区| 欧美精品一区二区三区白虎| 久久综合日韩精品免费观看| 日本一级特黄大片国产| 日韩中文字幕免费在线视频| 国产免费操美女逼视频| 久久热中文字幕在线视频| 欧美精品久久男人的天堂| 人妻一区二区三区多毛女| 最近最新中文字幕免费| 少妇人妻精品一区二区三区| 欧美小黄片在线一级观看| 国产av天堂一区二区三区粉嫩| 日韩欧美一区二区久久婷婷| 最新国产欧美精品91| 成年人视频日本大香蕉久久| 亚洲国产综合久久天堂| 成人区人妻精品一区二区三区| 中文字幕亚洲精品人妻| 免费人妻精品一区二区三区久久久| 国产精品成人一区二区在线 | 国产精品视频一级香蕉| 激情综合网俺也狠狠地| 国产精品欧美激情在线播放| 日韩成人动画在线观看| 青青免费操手机在线视频| 久久精品免费视看国产成人 | 激情三级在线观看视频| 粉嫩国产一区二区三区在线| av国产熟妇露脸在线观看| 99精品人妻少妇一区二区人人妻| 国产欧美日韩在线精品一二区| 久草视频在线视频在线观看| 好东西一起分享老鸭窝| 亚洲a码一区二区三区| 国产午夜福利片在线观看| 欧美日韩综合在线精品|