天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

分布式JS解析在web信息采集系統(tǒng)中的研究與應(yīng)用

發(fā)布時(shí)間:2017-12-23 19:30

  本文關(guān)鍵詞:分布式JS解析在web信息采集系統(tǒng)中的研究與應(yīng)用 出處:《河北工業(yè)大學(xué)》2015年碩士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: 信息采集 JavaScript 腳本解析 Hadoop 調(diào)度算法 和聲搜索算法


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)在人們生活當(dāng)中的應(yīng)用范圍越來越廣泛。一方面,由互聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)中包含了許多有利用價(jià)值的信息,這就對(duì)web信息的采集提出了需求;另一方面,越來越多的新技術(shù)被運(yùn)用于互聯(lián)網(wǎng)領(lǐng)域,其中動(dòng)態(tài)網(wǎng)頁技術(shù),尤其是動(dòng)態(tài)腳本技術(shù)的運(yùn)用,很大程度地提升了網(wǎng)頁的功能性、美觀性以及用戶使用時(shí)的體驗(yàn),但由于原有的網(wǎng)頁信息采集系統(tǒng)不能夠?qū)δ_本進(jìn)行解析,所以無法實(shí)現(xiàn)對(duì)動(dòng)態(tài)網(wǎng)頁信息的采集。針對(duì)此問題,本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于分布式計(jì)算的網(wǎng)頁腳本提取解析系統(tǒng),并將其與原有信息采集系統(tǒng)相結(jié)合,從而實(shí)現(xiàn)了信息采集系統(tǒng)對(duì)動(dòng)態(tài)網(wǎng)頁信息準(zhǔn)確、高效的采集。首先,通過對(duì)JavaScript腳本語言和常用解析引擎的研究分析,設(shè)計(jì)了腳本提取解析的流程,主要包括腳本程序的提取和解析環(huán)境的構(gòu)建。其次,將JavaScript腳本提取解析與Hadoop分布式計(jì)算相結(jié)合,通過對(duì)現(xiàn)有Hadoop調(diào)度算法的研究分析,結(jié)合腳本提取解析系統(tǒng)實(shí)際運(yùn)行所處的異構(gòu)集群環(huán)境,設(shè)計(jì)了異構(gòu)集群環(huán)境下基于和聲搜索的調(diào)度算法。再次,為了將腳本提取解析系統(tǒng)與原有信息采集系統(tǒng)相結(jié)合,以原有的Nutch系統(tǒng)的文件存儲(chǔ)結(jié)構(gòu)為基礎(chǔ),設(shè)計(jì)了系統(tǒng)整體文件結(jié)構(gòu)和數(shù)據(jù)存儲(chǔ)格式。最后,完成了系統(tǒng)的MapReduce編程實(shí)現(xiàn),并在實(shí)際的Hadoop平臺(tái)上進(jìn)行了測(cè)試。通過對(duì)測(cè)試結(jié)果的分析,驗(yàn)證了整合腳本提取解析系統(tǒng)之后的信息采集系統(tǒng)能夠?qū)?dòng)態(tài)網(wǎng)頁進(jìn)行信息采集,并且采用基于和聲搜索的調(diào)度算法在異構(gòu)集群環(huán)境中提高了腳本提取解析任務(wù)的執(zhí)行效率?梢姳疚奶岢龅姆桨笇(shí)現(xiàn)了信息采集系統(tǒng)對(duì)動(dòng)態(tài)網(wǎng)頁信息準(zhǔn)確、高效的采集,為信息采集相關(guān)領(lǐng)域提供了一種技術(shù)改進(jìn)思路。
【學(xué)位授予單位】:河北工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.09;TP301.6

【參考文獻(xiàn)】

相關(guān)碩士學(xué)位論文 前1條

1 黃維;分布式JS解析系統(tǒng)的設(shè)計(jì)與構(gòu)建[D];北京交通大學(xué);2014年

,

本文編號(hào):1325196

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1325196.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶380c1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com