天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

分布式爬蟲任務調(diào)度與AJAX頁面抓取研究

發(fā)布時間:2017-04-20 10:16

  本文關(guān)鍵詞:分布式爬蟲任務調(diào)度與AJAX頁面抓取研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)呈現(xiàn)爆炸性增長,同時人們對數(shù)據(jù)的采集需求也與日俱增。網(wǎng)絡爬蟲作為數(shù)據(jù)獲取的有效手段被廣泛應用于各類系統(tǒng)中,諸如搜索引擎、輿情監(jiān)控系統(tǒng)等。然而,面向中小規(guī)模系統(tǒng)的網(wǎng)絡爬蟲面臨著兩大難題:其一,單機爬蟲程序抓取速度慢,已有的開源分布式爬蟲框架實現(xiàn)復雜,靈活性不強;其二,雖然Ajax技術(shù)以異步加載的方式與服務器交換必要的數(shù)據(jù)能夠提高用戶界面響應速度,帶來良好的用戶體驗,但是傳統(tǒng)的網(wǎng)頁抓取方式無法完整的獲取應用了這項技術(shù)的頁面所包含的信息。這些缺失的信息通常具有重要的研究價值。在面向中小規(guī)模系統(tǒng)的分布式爬蟲中,任務調(diào)度算法的優(yōu)劣將直接影響系統(tǒng)的抓取效率。因此,本文重點對分布式爬蟲的任務調(diào)度策略和Ajax頁面抓取算法進行了研究。在分布式爬蟲的任務調(diào)度方面,本文重點研究了主從式架構(gòu)下的任務調(diào)度算法。為了保證各個爬行節(jié)點的負載均衡以及系統(tǒng)的可擴展性,本文提出了一種基于一致性哈希的均分負載空間算法。該算法采用了不同于機器節(jié)點復制的虛擬節(jié)點添加方法,以解決在機器數(shù)量較少的情況下系統(tǒng)負載不均衡問題。中心節(jié)點在把握系統(tǒng)整體運行狀態(tài)的基礎(chǔ)上采用該算法進行任務調(diào)度,并在爬行節(jié)點發(fā)生變化后進行相應的任務調(diào)整。通過實驗比較,驗證了該算法在負載均衡效率方面獲得了提高。在Ajax頁面抓取方面,由于單個Ajax頁面中包含了許多狀態(tài),本文首先采用了經(jīng)典的狀態(tài)流圖對Ajax頁面進行建模,然后提出了基于網(wǎng)頁主體內(nèi)容變化的重復狀態(tài)檢測算法,并利用該算法進行有效元素的XPath特征訓練,最后將訓練后的結(jié)果應用到Ajax頁面抓取中。通過實驗比較,驗證了該方法在保證獲取所有數(shù)據(jù)的情況下能夠進一步地減少事件觸發(fā)總數(shù),縮短頁面抓取所消耗的時間,提高了Ajax頁面抓取效率。最后,本文提出了支持Ajax頁面抓取的分布式爬蟲系統(tǒng)總體設計方案,并詳細介紹了中心節(jié)點和爬行節(jié)點各模塊的實現(xiàn)細節(jié)。通過將分布式爬蟲系統(tǒng)成功的應用到網(wǎng)絡輿情監(jiān)控項目中,驗證了本文所提出技術(shù)的有效性。
【關(guān)鍵詞】:分布式爬蟲 任務調(diào)度 一致性哈希 Ajax爬蟲 狀態(tài)流圖模型
【學位授予單位】:電子科技大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要5-6
  • ABSTRACT6-11
  • 第一章 緒論11-17
  • 1.1 研究背景及意義11-12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-15
  • 1.2.1 分布式爬蟲任務調(diào)度研究現(xiàn)狀12-14
  • 1.2.2 Ajax頁面抓取研究現(xiàn)狀14-15
  • 1.3 主要研究內(nèi)容15-16
  • 1.4 章節(jié)安排16-17
  • 第二章 相關(guān)技術(shù)介紹17-30
  • 2.1 分布式爬蟲關(guān)鍵技術(shù)17-23
  • 2.1.1 分布式爬蟲系統(tǒng)架構(gòu)18-20
  • 2.1.2 任務調(diào)度策略20-23
  • 2.1.3 更新調(diào)度策略23
  • 2.2 Ajax爬蟲關(guān)鍵技術(shù)23-29
  • 2.2.1 Ajax動態(tài)加載技術(shù)23-24
  • 2.2.2 Ajax網(wǎng)站建模與抓取策略24-27
  • 2.2.3 動態(tài)腳本解析27-29
  • 2.2.3.1 JavaScript引擎27-28
  • 2.2.3.2 嵌入式瀏覽器28-29
  • 2.3 本章小結(jié)29-30
  • 第三章 基于主從式架構(gòu)的任務調(diào)度策略30-45
  • 3.1 一致性哈希算法30-35
  • 3.1.1 一致性哈希的基本概念30-31
  • 3.1.2 分布式緩存Memcached的一致性哈希算法實現(xiàn)31-33
  • 3.1.3 一致性哈希算法存在的不足33-35
  • 3.2 基于一致性哈希的均分負載空間算法35-38
  • 3.3 基于均分負載空間算法的任務調(diào)度策略38-41
  • 3.3.1 任務劃分策略38-39
  • 3.3.2 任務調(diào)度策略39-41
  • 3.4 分布式爬蟲負載均衡性能實驗41-44
  • 3.4.1 實驗設置41
  • 3.4.2 實驗結(jié)果與分析41-44
  • 3.5 本章小結(jié)44-45
  • 第四章 基于狀態(tài)流圖的Ajax頁面抓取45-62
  • 4.1 狀態(tài)流圖模型45-51
  • 4.1.1 狀態(tài)流圖定義45-46
  • 4.1.2 基于狀態(tài)流圖的深度優(yōu)先抓取算法46-49
  • 4.1.3 算法存在的主要不足49-51
  • 4.2 算法改進51-55
  • 4.2.1 基于網(wǎng)頁主體內(nèi)容的重復狀態(tài)檢測51-53
  • 4.2.1.1 網(wǎng)頁主體內(nèi)容提取51-53
  • 4.2.1.2 重復狀態(tài)檢測53
  • 4.2.2 有效元素的XPath特征訓練53-55
  • 4.2.2.1 頁面元素的XPath特征53-54
  • 4.2.2.2 基于主體內(nèi)容變化的有效元素XPath特征訓練54-55
  • 4.3 優(yōu)化后的算法55-57
  • 4.4 實驗比較57-61
  • 4.4.1 實驗設置57
  • 4.4.2 實驗結(jié)果與分析57-61
  • 4.5 本章小結(jié)61-62
  • 第五章 分布式爬蟲系統(tǒng)設計與實現(xiàn)62-74
  • 5.1 總體設計62
  • 5.2 中心節(jié)點的設計方案62-66
  • 5.2.1 種子URLs管理模塊63
  • 5.2.2 心跳監(jiān)測模塊63-64
  • 5.2.3 任務調(diào)度模塊64-66
  • 5.3 爬行節(jié)點的設計方案66-70
  • 5.3.1 數(shù)據(jù)抓取模塊66-69
  • 5.3.1.1 靜態(tài)頁面抓取模塊67-68
  • 5.3.1.2 動態(tài)頁面抓取模塊68
  • 5.3.1.3 非爬取范圍內(nèi)的頁面處理模塊68-69
  • 5.3.2 任務調(diào)整模塊69-70
  • 5.3.2.1 任務轉(zhuǎn)移模塊69-70
  • 5.3.2.2 任務添加模塊70
  • 5.3.3 更新調(diào)度模塊70
  • 5.4 系統(tǒng)運行展示70-71
  • 5.5 系統(tǒng)應用71-73
  • 5.6 本章小結(jié)73-74
  • 第六章 總結(jié)與展望74-76
  • 6.1 總結(jié)74
  • 6.2 展望74-76
  • 致謝76-77
  • 參考文獻77-81
  • 攻讀碩士學位期間取得的成果81-82

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前2條

1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學報;2002年S1期

2 袁威;薛安榮;周小梅;;基于Nutch的分布式爬蟲的優(yōu)化研究[J];無線通信技術(shù);2014年03期


  本文關(guān)鍵詞:分布式爬蟲任務調(diào)度與AJAX頁面抓取研究,由筆耕文化傳播整理發(fā)布。



本文編號:318458

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/318458.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7fb27***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com