分布式JS解析在web信息采集系統(tǒng)中的研究與應(yīng)用
發(fā)布時間:2017-12-23 19:30
本文關(guān)鍵詞:分布式JS解析在web信息采集系統(tǒng)中的研究與應(yīng)用 出處:《河北工業(yè)大學(xué)》2015年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 信息采集 JavaScript 腳本解析 Hadoop 調(diào)度算法 和聲搜索算法
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)在人們生活當(dāng)中的應(yīng)用范圍越來越廣泛。一方面,由互聯(lián)網(wǎng)產(chǎn)生的海量數(shù)據(jù)中包含了許多有利用價值的信息,這就對web信息的采集提出了需求;另一方面,越來越多的新技術(shù)被運用于互聯(lián)網(wǎng)領(lǐng)域,其中動態(tài)網(wǎng)頁技術(shù),尤其是動態(tài)腳本技術(shù)的運用,很大程度地提升了網(wǎng)頁的功能性、美觀性以及用戶使用時的體驗,但由于原有的網(wǎng)頁信息采集系統(tǒng)不能夠?qū)δ_本進(jìn)行解析,所以無法實現(xiàn)對動態(tài)網(wǎng)頁信息的采集。針對此問題,本文設(shè)計實現(xiàn)了一個基于分布式計算的網(wǎng)頁腳本提取解析系統(tǒng),并將其與原有信息采集系統(tǒng)相結(jié)合,從而實現(xiàn)了信息采集系統(tǒng)對動態(tài)網(wǎng)頁信息準(zhǔn)確、高效的采集。首先,通過對JavaScript腳本語言和常用解析引擎的研究分析,設(shè)計了腳本提取解析的流程,主要包括腳本程序的提取和解析環(huán)境的構(gòu)建。其次,將JavaScript腳本提取解析與Hadoop分布式計算相結(jié)合,通過對現(xiàn)有Hadoop調(diào)度算法的研究分析,結(jié)合腳本提取解析系統(tǒng)實際運行所處的異構(gòu)集群環(huán)境,設(shè)計了異構(gòu)集群環(huán)境下基于和聲搜索的調(diào)度算法。再次,為了將腳本提取解析系統(tǒng)與原有信息采集系統(tǒng)相結(jié)合,以原有的Nutch系統(tǒng)的文件存儲結(jié)構(gòu)為基礎(chǔ),設(shè)計了系統(tǒng)整體文件結(jié)構(gòu)和數(shù)據(jù)存儲格式。最后,完成了系統(tǒng)的MapReduce編程實現(xiàn),并在實際的Hadoop平臺上進(jìn)行了測試。通過對測試結(jié)果的分析,驗證了整合腳本提取解析系統(tǒng)之后的信息采集系統(tǒng)能夠?qū)討B(tài)網(wǎng)頁進(jìn)行信息采集,并且采用基于和聲搜索的調(diào)度算法在異構(gòu)集群環(huán)境中提高了腳本提取解析任務(wù)的執(zhí)行效率?梢姳疚奶岢龅姆桨笇崿F(xiàn)了信息采集系統(tǒng)對動態(tài)網(wǎng)頁信息準(zhǔn)確、高效的采集,為信息采集相關(guān)領(lǐng)域提供了一種技術(shù)改進(jìn)思路。
【學(xué)位授予單位】:河北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.09;TP301.6
【參考文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 黃維;分布式JS解析系統(tǒng)的設(shè)計與構(gòu)建[D];北京交通大學(xué);2014年
,本文編號:1325196
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1325196.html
最近更新
教材專著