分布式JS解析系統(tǒng)的設計與構建
本文關鍵詞:分布式JS解析系統(tǒng)的設計與構建,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,網(wǎng)頁的頁面視圖效果越來越美觀,使用的頁面編程技術也不僅僅局限于HTML、CSS等靜態(tài)語言。以JavaScript為代表的動態(tài)腳本由于其功能強大,使界面觀賞程度高等優(yōu)勢越來越受到開發(fā)者和用戶的青睞。但是由于其編寫復雜程度比傳統(tǒng)的靜態(tài)網(wǎng)頁技術高,所以在搜索引擎、輿論分析等領域進行網(wǎng)頁內(nèi)容抓取和分析的時候,很難對JavaScript中包含的信息進行解析。所以本論文在設計并構建能夠高效解析網(wǎng)頁中JavaScript的分布式系統(tǒng)時,能夠完成對存在于HTML文檔中的JavaScript片段進行高效的提取和分布式解析的功能,并且在分布式計算機集群中合理的進行任務調(diào)度。 該論文主要包括兩個研究方向:首先是對網(wǎng)頁中存在的JavaScript進行有效的提取和解析;然后結合Hadoop分布式計算技術,在深入分析現(xiàn)有任務調(diào)度算法、結合本系統(tǒng)實際情況的基礎之上,設計本系統(tǒng)在分布式計算環(huán)境中的任務調(diào)度算法,合理的進行JavaScript解析任務調(diào)度,實現(xiàn)對頁面中包含的JavaScript片段的高效解析。通過對JavaScript語法規(guī)則和其在網(wǎng)頁中的存在形式的研究,設計了JavaScript的提取流程和算法,然后借鑒瀏覽器解析JavaScript的方法,使用JavaScript解析引擎,構造JavaScript解析環(huán)境來實現(xiàn)第一模塊。通過對現(xiàn)有Map/Reduce任務調(diào)度算法的研究、分析和對比,并結合JavaScript解析任務的具體特點和分布式集群的環(huán)境,探究最適合本系統(tǒng)的Map/Reduce任務調(diào)度算法。對JavaScript解析任務進行合理調(diào)度,然后搭建計算機集群,對設計的分布式JavaScript解析系統(tǒng)進行構建。最后對分布式JS解析系統(tǒng)進行測試,對其應用性能和解析準確性進行驗證,并且總結系統(tǒng)的不足,提出后續(xù)改進意見。 本文實現(xiàn)的分布式系統(tǒng)能夠對網(wǎng)頁中存在的大量JavaScript進行高效、快速的解析。實驗結果表明,本系統(tǒng)能夠對網(wǎng)頁中JavaScript片段內(nèi)包含的文本文字和超鏈接內(nèi)容進行高效、準確的提取和解析。從而,本文的研究和實現(xiàn)工作能夠為搜索引擎、輿論分析、數(shù)據(jù)采集等領域提供更高效可靠的技術支持。
【關鍵詞】:JavaScript解析 Hadoop Map/Reduce任務調(diào)度 JavaScript解析引擎
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP312.1
【目錄】:
- 致謝5-6
- 中文摘要6-7
- ABSTRACT7-8
- 目錄8-10
- 1 緒論10-15
- 1.1 研究背景10-11
- 1.2 研究現(xiàn)狀11-12
- 1.3 工作內(nèi)容12-13
- 1.4 論文組織結構13-15
- 2 JS解析與分布式計算15-29
- 2.1 JavaScript解析15-20
- 2.1.1 JavaScript腳本語言15-16
- 2.1.2 JavaScript解析引擎16-20
- 2.2 Hadoop分布式計算20-28
- 2.2.1 分布式計算20-21
- 2.2.2 Hadoop框架21-22
- 2.2.3 Map/Reduce研究22-24
- 2.2.4 HDFS文件存取24-28
- 2.3 本章小結28-29
- 3 JS解析與任務調(diào)度算法研究29-43
- 3.1 系統(tǒng)整體結構29-30
- 3.2 JavaScript提取和運行環(huán)境30-34
- 3.2.1 JavaScript提取和解析流程30-31
- 3.2.2 JavaScript提取算法31-33
- 3.2.3 JavaScript解析對象33-34
- 3.3 JavaScript解析任務調(diào)度34-42
- 3.3.1 Map/Reduce原有調(diào)度算法35-36
- 3.3.2 容量調(diào)度算法36-37
- 3.3.3 公平調(diào)度算法37-39
- 3.3.4 自適應調(diào)度算法39-40
- 3.3.5 Map/Reduce調(diào)度算法總結40-42
- 3.4 本章小結42-43
- 4 分布式JS解析系統(tǒng)的構建43-52
- 4.1 系統(tǒng)工作流程43-44
- 4.2 網(wǎng)頁爬取44-45
- 4.3 JavaScript提取45-46
- 4.4 JavaScript解析任務調(diào)度46-48
- 4.4.1 Datanode狀態(tài)采集46-47
- 4.4.2 Namenode任務調(diào)度47-48
- 4.5 JavaScript解析任務調(diào)度48-51
- 4.5.1 JavaScript解析環(huán)境管理48-49
- 4.5.2 Map/Reduce實現(xiàn)49-51
- 4.6 本章小結51-52
- 5 分布式JS解析系統(tǒng)的測試與分析52-59
- 5.1 測試環(huán)境52-53
- 5.2 軟件環(huán)境搭建53
- 5.3 系統(tǒng)測試與分析53-57
- 5.3.1 系統(tǒng)測試53-55
- 5.3.2 結果分析55-57
- 5.4 測試結果總結57-58
- 5.5 本章小結58-59
- 6 總結與展望59-62
- 6.1 論文總結59-60
- 6.2 展望60-62
- 參考文獻62-64
- 作者簡歷64-66
- 學位論文數(shù)據(jù)集66
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊俊;李艷梅;;JavaScript面向對象編程探析[J];辦公自動化;2010年08期
2 李鑫;張鵬;;Hadoop集群公平調(diào)度算法的改進與實現(xiàn)[J];電腦知識與技術;2012年01期
3 李彥剛;魏海平;侯興華;;基于HTMLParser的Web信息抽取系統(tǒng)的設計與實現(xiàn)[J];遼寧石油化工大學學報;2006年02期
4 蒲東兵;楊立明;周彥軍;車文隆;馬志強;;基于嵌入式瀏覽器的JavaScript解析器設計[J];信息技術;2010年04期
5 邵X;劉宗田;;腳本語言發(fā)展研究[J];計算機科學;2000年01期
6 李麗英;唐卓;李仁發(fā);;基于LATE的Hadoop數(shù)據(jù)局部性改進調(diào)度算法[J];計算機科學;2011年11期
7 李勇軍,冀汶莉,馬光思;用DOM解析XML文檔[J];計算機應用;2001年S1期
8 李明;胥光輝;戢瑤;;MapReduce編程模型在網(wǎng)絡I/O密集型程序中的應用研究[J];計算機應用研究;2011年09期
9 ;探知Chrome快速的秘密 體驗極速快感[J];計算機與網(wǎng)絡;2012年15期
10 張春英;欒曉明;;改進的正比公平調(diào)度算法[J];信息技術;2011年08期
本文關鍵詞:分布式JS解析系統(tǒng)的設計與構建,由筆耕文化傳播整理發(fā)布。
本文編號:277946
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/277946.html