天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop分布式環(huán)境下垂直爬蟲(chóng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2018-06-10 12:32

  本文選題:Hadoop + ChainMapper/ChainReducer; 參考:《北京郵電大學(xué)》2017年碩士論文


【摘要】:隨著人們對(duì)信息搜索個(gè)性化服務(wù)的需求日益增長(zhǎng),垂直爬蟲(chóng)技術(shù)克服了通用爬蟲(chóng)全網(wǎng)爬取的缺點(diǎn),主要訪問(wèn)用戶指定的站點(diǎn)和頁(yè)面,提高了信息獲取的效率和準(zhǔn)確率。然而隨著網(wǎng)絡(luò)上數(shù)據(jù)爆炸式的增長(zhǎng),傳統(tǒng)的垂直領(lǐng)域單機(jī)爬蟲(chóng)對(duì)于海量數(shù)據(jù)爬取效率已遠(yuǎn)不能滿足需求,且海量存儲(chǔ)也是一個(gè)很大的挑戰(zhàn)。同時(shí),動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)已經(jīng)廣泛應(yīng)用,給爬蟲(chóng)爬取頁(yè)面帶來(lái)了很大的困難。針對(duì)爬蟲(chóng)領(lǐng)域面臨的這兩個(gè)問(wèn)題,本文提出了一個(gè)分布式垂直爬蟲(chóng)框架,并對(duì)基于狀態(tài)轉(zhuǎn)換圖的動(dòng)態(tài)網(wǎng)頁(yè)處理算法進(jìn)行了改進(jìn),最后實(shí)現(xiàn)了爬取手機(jī)App信息的分布式垂直爬蟲(chóng)系統(tǒng)。分布式垂直爬蟲(chóng)框架基于MapReduce的ChainMapper/ChainReducer來(lái)設(shè)計(jì)爬蟲(chóng)各模塊,引入Redis內(nèi)存數(shù)據(jù)庫(kù)來(lái)對(duì)URL等進(jìn)行管理存儲(chǔ),采用分布式數(shù)據(jù)庫(kù)HBase來(lái)存儲(chǔ)網(wǎng)頁(yè)提取的特征內(nèi)容信息。動(dòng)態(tài)網(wǎng)頁(yè)處理算法針對(duì)頁(yè)面主體模塊進(jìn)行頁(yè)面相似性判定和有選擇性地觸發(fā)有效元素對(duì)原來(lái)算法進(jìn)行了改進(jìn),并運(yùn)用Selenium WebDriver來(lái)驅(qū)動(dòng)無(wú)界面瀏覽器Phamtomjs對(duì)網(wǎng)頁(yè)元素上綁定的事件進(jìn)行觸發(fā),下載動(dòng)態(tài)網(wǎng)頁(yè)的內(nèi)容。最后基于ChainMR Crawler框架和動(dòng)態(tài)網(wǎng)頁(yè)處理算法實(shí)現(xiàn)了爬取手機(jī)App信息的分布式垂直爬蟲(chóng)系統(tǒng)。實(shí)驗(yàn)結(jié)果表明分布式垂直爬蟲(chóng)框架ChainMR Crawler比Nutch爬取效率高6%,說(shuō)明ChainMR Crawler有較好的性能。改進(jìn)后的動(dòng)態(tài)網(wǎng)頁(yè)處理算法有效減少了無(wú)效元素上事件的觸發(fā),提高了頁(yè)面相關(guān)性,驗(yàn)證了改進(jìn)算法的高效性。手機(jī)App信息爬蟲(chóng)系統(tǒng)實(shí)現(xiàn)了預(yù)期功能,具有比較高的爬取效率和擴(kuò)展性,有較好的實(shí)用性。
[Abstract]:With the increasing demand for personalized information search services, vertical crawler technology overcomes the shortcomings of universal crawler crawling, mainly visits user-specified sites and pages, and improves the efficiency and accuracy of information acquisition. However, with the explosive growth of data on the network, the traditional vertical single-machine crawler is far from meeting the demand for mass data crawling efficiency, and mass storage is also a great challenge. At the same time, dynamic web technology has been widely used, which brings great difficulties to crawlers. Aiming at these two problems, this paper proposes a distributed vertical crawler framework, and improves the dynamic web page processing algorithm based on state transition graph. Finally, a distributed vertical crawler system for crawling mobile phone App information is implemented. The distributed vertical crawler framework designs crawler modules based on ChainMapper / ChainReducer of MapReduce, introduces Redis memory database to manage and store URLs, and uses distributed database HBase to store feature content information extracted from web pages. The dynamic web page processing algorithm is used to judge the page similarity of the main module of the page and selectively trigger the effective elements to improve the original algorithm. Selenium WebDriver is used to drive Phamtomjs, a non-interface browser, to trigger events bound on web page elements and download the contents of dynamic web pages. Finally, a distributed vertical crawler system based on ChainMR Crawler framework and dynamic web page processing algorithm is implemented for crawling mobile phone App information. The experimental results show that the efficiency of ChainMR Crawler is 6% higher than that of Nutch, which shows that ChainMR Crawler has better performance. The improved dynamic web page processing algorithm effectively reduces the trigger of events on invalid elements, improves the page correlation, and verifies the efficiency of the improved algorithm. The mobile phone App information crawler system realizes the expected function, has higher crawling efficiency and expansibility, and has good practicability.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP393.092;TP311.56

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 李宏光,李建磊;動(dòng)態(tài)網(wǎng)頁(yè)客戶端輸入項(xiàng)的驗(yàn)證與多按鈕的使用[J];濱州師專(zhuān)學(xué)報(bào);2001年02期

2 張玉孔;;變量傳遞在ASP動(dòng)態(tài)網(wǎng)頁(yè)中的應(yīng)用分析[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2007年08期

3 盧新建;;試談ASP動(dòng)態(tài)網(wǎng)頁(yè)課程的教學(xué)探索[J];電腦編程技巧與維護(hù);2010年24期

4 楊振宇;建立動(dòng)態(tài)網(wǎng)頁(yè)──ASP應(yīng)用舉例[J];電腦技術(shù);1998年06期

5 李嘉;開(kāi)發(fā)動(dòng)態(tài)網(wǎng)頁(yè)的利器——ASP[J];計(jì)算機(jī)與通信;1998年Z1期

6 花飄飄;動(dòng)態(tài)網(wǎng)頁(yè)之絕招大全[J];多媒體世界;1999年06期

7 趙小林,陳英,劉然;動(dòng)態(tài)網(wǎng)頁(yè)規(guī)劃與實(shí)現(xiàn)機(jī)制[J];北京理工大學(xué)學(xué)報(bào);2001年01期

8 丁振凡,鄒芝蘭;ASP動(dòng)態(tài)網(wǎng)頁(yè)中基于日期的條件查詢(xún)?cè)O(shè)計(jì)技術(shù)[J];計(jì)算機(jī)時(shí)代;2001年03期

9 羅媛;利用HTML設(shè)計(jì)動(dòng)態(tài)網(wǎng)頁(yè)[J];蕪湖職業(yè)技術(shù)學(xué)院學(xué)報(bào);2001年03期

10 楊毅;淺談動(dòng)態(tài)網(wǎng)頁(yè)[J];成都師專(zhuān)學(xué)報(bào);2002年04期

相關(guān)會(huì)議論文 前4條

1 冉熙璐;段磊;呂廣奕;陳珂;李鐘麒;黃東蘭;唐常杰;;基于對(duì)比學(xué)習(xí)的動(dòng)態(tài)網(wǎng)頁(yè)用戶評(píng)論獲取方法[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年

2 于平福;劉凱龍;;基于ASP的農(nóng)業(yè)網(wǎng)站動(dòng)態(tài)網(wǎng)頁(yè)的設(shè)計(jì)研究[A];山西省科學(xué)技術(shù)情報(bào)學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2004年

3 邵輝;李芳;;基于樹(shù)模型算法的動(dòng)態(tài)網(wǎng)頁(yè)信息抽取研究[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

4 牟琦;;創(chuàng)建電子商務(wù)平臺(tái)的技術(shù)解決方案[A];第十一屆全國(guó)煤礦自動(dòng)化學(xué)術(shù)年會(huì)論文專(zhuān)輯[C];2001年

相關(guān)重要報(bào)紙文章 前5條

1 丁一;“活的老鼠”不好抓[N];計(jì)算機(jī)世界;2001年

2 北京 董智勇;動(dòng)態(tài)網(wǎng)頁(yè)新技術(shù)[N];中國(guó)電腦教育報(bào);2001年

3 鄒肇輝 何艷陽(yáng);動(dòng)態(tài)網(wǎng)頁(yè)打造利器——JSP[N];電腦報(bào);2005年

4 Besky;輕松打造動(dòng)態(tài)網(wǎng)頁(yè)菜單[N];電腦報(bào);2003年

5 慰鵬飛;走進(jìn)編程之網(wǎng)絡(luò)篇(四)[N];江蘇經(jīng)濟(jì)報(bào);2001年

相關(guān)碩士學(xué)位論文 前10條

1 劉希霞;基于Hadoop分布式環(huán)境下垂直爬蟲(chóng)的研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2017年

2 盛潔;面向動(dòng)態(tài)網(wǎng)頁(yè)的定向信息提取模型的設(shè)計(jì)與實(shí)現(xiàn)[D];燕山大學(xué);2016年

3 王婷;面向授權(quán)管理的動(dòng)態(tài)網(wǎng)頁(yè)資源描述與搜集技術(shù)研究[D];解放軍信息工程大學(xué);2007年

4 段國(guó)云;基于環(huán)結(jié)構(gòu)的動(dòng)態(tài)網(wǎng)頁(yè)防篡改系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];湖南大學(xué);2012年

5 潘敏;動(dòng)態(tài)網(wǎng)頁(yè)防篡改方法與技術(shù)研究[D];南昌航空大學(xué);2012年

6 郭常宏;借助動(dòng)態(tài)網(wǎng)頁(yè)及局域網(wǎng)內(nèi)數(shù)據(jù)庫(kù)數(shù)據(jù)調(diào)用實(shí)現(xiàn)電視臺(tái)工作單管理及成本核算的開(kāi)發(fā)調(diào)試和研究[D];山東大學(xué);2006年

7 童罕;面向LXR的動(dòng)態(tài)網(wǎng)頁(yè)加速技術(shù)研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年

8 楊柳;基于用戶界面狀態(tài)改變的Ajax動(dòng)態(tài)網(wǎng)頁(yè)爬取算法研究[D];北京交通大學(xué);2016年

9 李魁;大規(guī)模Web論壇采集技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年

10 沈祥;基于FPGA的嵌入式動(dòng)態(tài)網(wǎng)頁(yè)Java Web服務(wù)器的研究與實(shí)現(xiàn)[D];上海交通大學(xué);2011年



本文編號(hào):2003236

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2003236.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dea91***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com