天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究

發(fā)布時(shí)間:2017-03-28 11:19

  本文關(guān)鍵詞:分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)上站點(diǎn)與信息等越來龐雜;無論是個(gè)人還是企業(yè)對(duì)互聯(lián)網(wǎng)上的信息需求越來越多,俞漸依賴于搜索引擎。網(wǎng)絡(luò)爬蟲作為搜索引擎的數(shù)據(jù)源,起著至關(guān)重要的作用。并且網(wǎng)絡(luò)爬蟲的抓取速度、覆蓋面、網(wǎng)頁排序、索引、實(shí)時(shí)性等直接影響著搜索的結(jié)果。同時(shí),深入整合信息的需求是廣泛存在的。到目前為止,很多企業(yè)、機(jī)構(gòu)和個(gè)人仍在不斷研究開發(fā)新的爬蟲,尤其是主題爬蟲。在企業(yè)中,爬蟲采集的信息既可以作為數(shù)據(jù)倉(cāng)庫多維展現(xiàn)的數(shù)據(jù)源,也可以作為數(shù)據(jù)挖掘的來源。例如,做輿情監(jiān)測(cè)需要從互聯(lián)網(wǎng)上采集新聞、輿論等相關(guān)信息;房地產(chǎn)商會(huì)利用爬蟲去抓取有關(guān)的房產(chǎn)信息以便于做決策分析等。甚至有些人專門利用爬蟲從互聯(lián)網(wǎng)上挖掘信息、搜集情報(bào)。但傳統(tǒng)的單機(jī)爬蟲難以應(yīng)對(duì)高速增長(zhǎng)的信息帶來的挑戰(zhàn),難以快速、有效抓取海量數(shù)據(jù)。分布式技術(shù)支持龐大的集群、海量的共享存儲(chǔ)空間;綜合利用各節(jié)點(diǎn)CPU,提高總運(yùn)算能力;擁有更大的總帶寬;從根本上克服了爬蟲效率的問題,并可以解決IT運(yùn)營(yíng)成本(分布式技術(shù)依賴的是廉價(jià)的PC機(jī),而不是昂貴的服務(wù)器)問題。本文基于互聯(lián)網(wǎng)網(wǎng)頁結(jié)構(gòu)與網(wǎng)站原理分析了爬蟲的實(shí)現(xiàn)原理、工作流程、抓取策略及網(wǎng)頁解析方法等相關(guān)理論。利用Hadoop分布式集群特性優(yōu)化網(wǎng)絡(luò)爬蟲,提高抓取效率;贖adoop設(shè)計(jì)實(shí)現(xiàn)了一個(gè)可配置、高效、負(fù)載均衡且可擴(kuò)展的分布式網(wǎng)絡(luò)爬蟲原型系統(tǒng)。闡述分析了該系統(tǒng)的系統(tǒng)架構(gòu)、實(shí)現(xiàn)方案及各關(guān)鍵模塊的設(shè)計(jì)實(shí)現(xiàn),并對(duì)大規(guī)模URL隊(duì)列設(shè)計(jì)與去重、多線程并行抓取、動(dòng)態(tài)網(wǎng)頁解析及網(wǎng)頁增量更新等幾個(gè)關(guān)鍵技術(shù)問題給出了解決方案,最后對(duì)該系統(tǒng)性能進(jìn)行了測(cè)試分析。
【關(guān)鍵詞】:分布式集群 URL隊(duì)列 并行抓取 動(dòng)態(tài)網(wǎng)頁解析 分布式爬蟲
【學(xué)位授予單位】:中央民族大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092;TP391.3
【目錄】:
  • 摘要3-5
  • ABSTRACT5-13
  • 第一章 緒論13-17
  • 1.1 背景13-14
  • 1.2 研究的意義14
  • 1.3 研究動(dòng)態(tài)14-15
  • 1.4 主要工作與論文結(jié)構(gòu)15-17
  • 第二章 爬蟲相關(guān)理論17-28
  • 2.1 通用爬蟲與主題爬蟲18-20
  • 2.1.1 通用爬蟲18-19
  • 2.1.2 主題爬蟲19-20
  • 2.2 網(wǎng)頁的抓取策略20-22
  • 2.2.1 深度優(yōu)先策略20
  • 2.2.2 廣度優(yōu)先策略20-21
  • 2.2.3 最佳優(yōu)先策略21
  • 2.2.4 增量搜索策略21-22
  • 2.2.5 禮貌策略22
  • 2.3 網(wǎng)頁分析算法22-24
  • 2.3.1 PageRank算法22-23
  • 2.3.2 HITS算法23-24
  • 2.4 網(wǎng)絡(luò)爬蟲結(jié)構(gòu)分析24-28
  • 第三章 分布式爬蟲系統(tǒng)分析設(shè)計(jì)28-39
  • 3.1 分布式技術(shù)28-31
  • 3.1.1 Hadoop分布式文件系統(tǒng)29-30
  • 3.1.2 MapReduce工作原理30-31
  • 3.2 分布式爬蟲分析設(shè)計(jì)31-39
  • 3.2.1 分布式爬蟲分析32-33
  • 3.2.2 分布式爬蟲架構(gòu)及工作流程33-35
  • 3.2.3 分布式爬蟲模塊設(shè)計(jì)35-39
  • 第四章 關(guān)鍵技術(shù)39-47
  • 4.1 URL隊(duì)列設(shè)計(jì)與去重39-42
  • 4.2 并行抓取42-43
  • 4.3 動(dòng)態(tài)網(wǎng)頁解析與內(nèi)嵌文檔內(nèi)容抽取43-45
  • 4.4 爬蟲陷進(jìn)與網(wǎng)頁更新45-47
  • 第五章 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)實(shí)現(xiàn)47-54
  • 5.1 平臺(tái)環(huán)境47
  • 5.2 系統(tǒng)實(shí)現(xiàn)47-54
  • 5.2.1 爬蟲總體結(jié)構(gòu)48-49
  • 5.2.2 核心類的實(shí)現(xiàn)49-54
  • 第六章 測(cè)試分析54-60
  • 6.1 節(jié)點(diǎn)擴(kuò)展測(cè)試54-58
  • 6.2 抓取效率對(duì)比58-60
  • 第七章 總結(jié)與展望60-61
  • 參考文獻(xiàn)61-64
  • 致謝64-65
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄65

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫 前2條

1 崔杰;李陶深;蘭紅星;;基于Hadoop的海量數(shù)據(jù)存儲(chǔ)平臺(tái)設(shè)計(jì)與開發(fā)[J];計(jì)算機(jī)研究與發(fā)展;2012年S1期

2 黃仁;王良偉;;基于主題相關(guān)概念和網(wǎng)頁分塊的主題爬蟲研究[J];計(jì)算機(jī)應(yīng)用研究;2013年08期


  本文關(guān)鍵詞:分布式并行環(huán)境下的網(wǎng)絡(luò)爬蟲研究,由筆耕文化傳播整理發(fā)布。

,

本文編號(hào):272172

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/272172.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8d298***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
亚洲高清一区二区高清| 超薄肉色丝袜脚一区二区| 国产一区二区三区成人精品| 久久机热频这里只精品| 国产高清在线不卡一区| 国产丝袜美女诱惑一区二区| 亚洲精品一区二区三区免| 亚洲一区精品二人人爽久久| 欧美精品激情视频一区| 99久久精品午夜一区| 日韩国产中文在线视频| 国产韩国日本精品视频| 欧美国产日产在线观看| 欧美日韩欧美国产另类| 中文人妻精品一区二区三区四区 | 高清一区二区三区不卡免费| 亚洲av秘片一区二区三区| 91欧美日韩一区人妻少妇| 亚洲专区一区中文字幕| 麻豆91成人国产在线观看| 黄色国产一区二区三区| 亚洲国产精品国自产拍社区| 欧美一区日韩二区亚洲三区| 日本午夜免费啪视频在线| 九九热这里只有精品视频| 亚洲伦片免费偷拍一区| 久久精品一区二区少妇| 国产成人精品一区二区三区| 91香蕉视频精品在线看| 亚洲欧美日韩色图七区| 五月婷婷综合激情啪啪| 国产精品成人一区二区在线| 无套内射美女视频免费在线观看| 国产传媒高清视频在线| 国内尹人香蕉综合在线| 亚洲清纯一区二区三区| 亚洲熟女精品一区二区成人| 精品人妻少妇二区三区| 91精品蜜臀一区二区三区| 午夜激情视频一区二区| 亚洲中文字幕免费人妻|