天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

分布式JS解析系統的設計與構建

發(fā)布時間:2017-03-30 20:05

  本文關鍵詞:分布式JS解析系統的設計與構建,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯網技術的飛速發(fā)展,網頁的頁面視圖效果越來越美觀,使用的頁面編程技術也不僅僅局限于HTML、CSS等靜態(tài)語言。以JavaScript為代表的動態(tài)腳本由于其功能強大,使界面觀賞程度高等優(yōu)勢越來越受到開發(fā)者和用戶的青睞。但是由于其編寫復雜程度比傳統的靜態(tài)網頁技術高,所以在搜索引擎、輿論分析等領域進行網頁內容抓取和分析的時候,很難對JavaScript中包含的信息進行解析。所以本論文在設計并構建能夠高效解析網頁中JavaScript的分布式系統時,能夠完成對存在于HTML文檔中的JavaScript片段進行高效的提取和分布式解析的功能,并且在分布式計算機集群中合理的進行任務調度。 該論文主要包括兩個研究方向:首先是對網頁中存在的JavaScript進行有效的提取和解析;然后結合Hadoop分布式計算技術,在深入分析現有任務調度算法、結合本系統實際情況的基礎之上,設計本系統在分布式計算環(huán)境中的任務調度算法,合理的進行JavaScript解析任務調度,實現對頁面中包含的JavaScript片段的高效解析。通過對JavaScript語法規(guī)則和其在網頁中的存在形式的研究,設計了JavaScript的提取流程和算法,然后借鑒瀏覽器解析JavaScript的方法,使用JavaScript解析引擎,構造JavaScript解析環(huán)境來實現第一模塊。通過對現有Map/Reduce任務調度算法的研究、分析和對比,并結合JavaScript解析任務的具體特點和分布式集群的環(huán)境,探究最適合本系統的Map/Reduce任務調度算法。對JavaScript解析任務進行合理調度,然后搭建計算機集群,對設計的分布式JavaScript解析系統進行構建。最后對分布式JS解析系統進行測試,對其應用性能和解析準確性進行驗證,并且總結系統的不足,提出后續(xù)改進意見。 本文實現的分布式系統能夠對網頁中存在的大量JavaScript進行高效、快速的解析。實驗結果表明,本系統能夠對網頁中JavaScript片段內包含的文本文字和超鏈接內容進行高效、準確的提取和解析。從而,本文的研究和實現工作能夠為搜索引擎、輿論分析、數據采集等領域提供更高效可靠的技術支持。
【關鍵詞】:JavaScript解析 Hadoop Map/Reduce任務調度 JavaScript解析引擎
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP312.1
【目錄】:
  • 致謝5-6
  • 中文摘要6-7
  • ABSTRACT7-8
  • 目錄8-10
  • 1 緒論10-15
  • 1.1 研究背景10-11
  • 1.2 研究現狀11-12
  • 1.3 工作內容12-13
  • 1.4 論文組織結構13-15
  • 2 JS解析與分布式計算15-29
  • 2.1 JavaScript解析15-20
  • 2.1.1 JavaScript腳本語言15-16
  • 2.1.2 JavaScript解析引擎16-20
  • 2.2 Hadoop分布式計算20-28
  • 2.2.1 分布式計算20-21
  • 2.2.2 Hadoop框架21-22
  • 2.2.3 Map/Reduce研究22-24
  • 2.2.4 HDFS文件存取24-28
  • 2.3 本章小結28-29
  • 3 JS解析與任務調度算法研究29-43
  • 3.1 系統整體結構29-30
  • 3.2 JavaScript提取和運行環(huán)境30-34
  • 3.2.1 JavaScript提取和解析流程30-31
  • 3.2.2 JavaScript提取算法31-33
  • 3.2.3 JavaScript解析對象33-34
  • 3.3 JavaScript解析任務調度34-42
  • 3.3.1 Map/Reduce原有調度算法35-36
  • 3.3.2 容量調度算法36-37
  • 3.3.3 公平調度算法37-39
  • 3.3.4 自適應調度算法39-40
  • 3.3.5 Map/Reduce調度算法總結40-42
  • 3.4 本章小結42-43
  • 4 分布式JS解析系統的構建43-52
  • 4.1 系統工作流程43-44
  • 4.2 網頁爬取44-45
  • 4.3 JavaScript提取45-46
  • 4.4 JavaScript解析任務調度46-48
  • 4.4.1 Datanode狀態(tài)采集46-47
  • 4.4.2 Namenode任務調度47-48
  • 4.5 JavaScript解析任務調度48-51
  • 4.5.1 JavaScript解析環(huán)境管理48-49
  • 4.5.2 Map/Reduce實現49-51
  • 4.6 本章小結51-52
  • 5 分布式JS解析系統的測試與分析52-59
  • 5.1 測試環(huán)境52-53
  • 5.2 軟件環(huán)境搭建53
  • 5.3 系統測試與分析53-57
  • 5.3.1 系統測試53-55
  • 5.3.2 結果分析55-57
  • 5.4 測試結果總結57-58
  • 5.5 本章小結58-59
  • 6 總結與展望59-62
  • 6.1 論文總結59-60
  • 6.2 展望60-62
  • 參考文獻62-64
  • 作者簡歷64-66
  • 學位論文數據集66

【參考文獻】

中國期刊全文數據庫 前10條

1 楊俊;李艷梅;;JavaScript面向對象編程探析[J];辦公自動化;2010年08期

2 李鑫;張鵬;;Hadoop集群公平調度算法的改進與實現[J];電腦知識與技術;2012年01期

3 李彥剛;魏海平;侯興華;;基于HTMLParser的Web信息抽取系統的設計與實現[J];遼寧石油化工大學學報;2006年02期

4 蒲東兵;楊立明;周彥軍;車文隆;馬志強;;基于嵌入式瀏覽器的JavaScript解析器設計[J];信息技術;2010年04期

5 邵X;劉宗田;;腳本語言發(fā)展研究[J];計算機科學;2000年01期

6 李麗英;唐卓;李仁發(fā);;基于LATE的Hadoop數據局部性改進調度算法[J];計算機科學;2011年11期

7 李勇軍,冀汶莉,馬光思;用DOM解析XML文檔[J];計算機應用;2001年S1期

8 李明;胥光輝;戢瑤;;MapReduce編程模型在網絡I/O密集型程序中的應用研究[J];計算機應用研究;2011年09期

9 ;探知Chrome快速的秘密 體驗極速快感[J];計算機與網絡;2012年15期

10 張春英;欒曉明;;改進的正比公平調度算法[J];信息技術;2011年08期


  本文關鍵詞:分布式JS解析系統的設計與構建,由筆耕文化傳播整理發(fā)布。



本文編號:277946

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/277946.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶32eb3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com