基于Hadoop的視頻爬蟲系統(tǒng)的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:面向web視頻的網(wǎng)絡(luò)爬蟲的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
《華中科技大學(xué)》 2013年
基于Hadoop的視頻爬蟲系統(tǒng)的設(shè)計與實現(xiàn)
邱荷花
【摘要】:隨著網(wǎng)絡(luò)的迅猛發(fā)展,網(wǎng)絡(luò)使用人群日益擴(kuò)大,數(shù)字媒體作品數(shù)量快速增長。面對網(wǎng)絡(luò)上如此海量的媒體作品,版權(quán)保護(hù)成為了一個亟待解決的問題。運用拷貝檢測技術(shù)實現(xiàn)內(nèi)容拷貝追蹤,是一種行之有效的數(shù)字內(nèi)容版權(quán)保護(hù)方案。而如何獲取海量媒體資源是拷貝追蹤技術(shù)中的一個難點。尤其是視頻媒體,數(shù)量大,更新快,內(nèi)容多,下載難。如今快速發(fā)展的云計算在海量數(shù)據(jù)處理方面呈現(xiàn)了極大的優(yōu)勢,鑒于此,本文利用Hadoop框架實現(xiàn)分布式視頻爬蟲系統(tǒng),為拷貝檢測系統(tǒng)收集待檢視頻數(shù)據(jù)集。 本文重點研究了Hadoop框架的計算模型MapReduce,以及分布式文件系統(tǒng)HDFS,并分析了分布式爬蟲的關(guān)鍵技術(shù),討論了將Hadoop框架用于分布式爬蟲系統(tǒng)的優(yōu)勢。由此設(shè)計并實現(xiàn)了基于Hadoop的視頻爬蟲系統(tǒng)。利用Hadoop框架,實現(xiàn)了一個結(jié)點集中管理,多個子結(jié)點并行工作的系統(tǒng)架構(gòu),同時總結(jié)點與子結(jié)點的心跳檢測機(jī)制,有效解決了子結(jié)點動態(tài)退出的問題。運用MapReduce計算模型實現(xiàn)具體的網(wǎng)頁抓取、分析、去重,下載等計算任務(wù),,并利用廣度優(yōu)先搜索策略,以及基于磁盤的去重機(jī)制,保證了爬蟲系統(tǒng)的高效爬行。同時分析如何對URL集進(jìn)行分區(qū),以保證各爬行結(jié)點負(fù)載均衡。HDFS分布式文件系統(tǒng)存儲各階段計算任務(wù)的結(jié)果,以備下個計算任務(wù)使用,并運用多處備份機(jī)制,使得在某個結(jié)點退出時轉(zhuǎn)移任務(wù)集,不影響整個系統(tǒng)的穩(wěn)定性和有效性。針對目前主流視頻網(wǎng)站的視頻下載難題,以騰訊等視頻網(wǎng)站為例進(jìn)行詳細(xì)說明,給出了視頻下載的解決方案。 最后,通過配置多個爬行結(jié)點,對基于Hadoop的視頻爬蟲系統(tǒng)進(jìn)行功能和性能測試,測試結(jié)果驗證了利用Hadoop架構(gòu)實現(xiàn)分布式爬蟲系統(tǒng)的可行性、高效性。同時對系統(tǒng)中需要繼續(xù)研究的問題提出了展望。
【關(guān)鍵詞】:
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP309;TP391.3
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭如濱;撒力;謝婷;;基于Heritrix與Lucene的垂直搜索引擎研究[J];電腦知識與技術(shù);2008年29期
2 李新;數(shù)字版權(quán)管理[J];電信技術(shù);2004年10期
3 肖明忠,代亞非,李曉明;拆分型Bloom Filter[J];電子學(xué)報;2004年02期
4 劉世濤;;簡析搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略[J];阜陽師范學(xué)院學(xué)報(自然科學(xué)版);2006年03期
5 許笑;張偉哲;張宏莉;方濱興;;廣域網(wǎng)分布式爬蟲中的Agent協(xié)同與Web劃分研究[J];高技術(shù)通訊;2010年03期
6 戴明星;杜彥輝;;基于WebLech的內(nèi)容搜索引擎設(shè)計[J];計算機(jī)工程;2008年09期
7 白萬民;蘇希樂;;Heritrix在垂直搜索引擎中的應(yīng)用[J];計算機(jī)時代;2011年09期
8 王凡毓;;網(wǎng)絡(luò)蜘蛛Larbin的設(shè)計和優(yōu)化[J];科技創(chuàng)業(yè)月刊;2008年02期
9 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計算機(jī)科學(xué)與探索;2011年01期
10 李曉明,鳳旺森;兩種對URL的散列效果很好的函數(shù)[J];軟件學(xué)報;2004年02期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 盧民;;基于云計算的數(shù)字博物館信息化建設(shè)研究[J];博物館研究;2012年01期
2 赫楓齡,左萬利;利用超鏈接信息改進(jìn)網(wǎng)頁爬行器的搜索策略[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2005年01期
3 陳悅;陳運;楊義先;胡迪;;基于遺傳算法的聚焦爬蟲搜索策略設(shè)計與研究[J];成都信息工程學(xué)院學(xué)報;2011年05期
4 王中;;云存儲在網(wǎng)絡(luò)視頻監(jiān)控中的價值[J];太原城市職業(yè)技術(shù)學(xué)院學(xué)報;2012年01期
5 敖東陽;劉好杰;;Larbin分析與Windows平臺下移植[J];電腦學(xué)習(xí);2009年04期
6 張目;;基于Bloom Filter的路由循環(huán)實時被動檢測方法[J];東南大學(xué)學(xué)報(自然科學(xué)版);2008年S1期
7 張超;閆宏印;;多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2012年06期
8 田大軍;李舒;趙林亮;;網(wǎng)站孤立文件及其形成機(jī)制分析[J];電腦與信息技術(shù);2011年02期
9 文小燕;馬光思;;基于Flex與J2EE垂直搜索引擎的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2011年10期
10 趙華;王海闊;;移動云計算綜述[J];電腦知識與技術(shù);2012年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 彭亮;卓新建;黃瑋;范文慶;;基于網(wǎng)絡(luò)爬蟲的XSS漏洞掃描系統(tǒng)的設(shè)計與實現(xiàn)[A];第十三屆中國科協(xié)年會第11分會場-中國智慧城市論壇論文集[C];2011年
2 黃高平;蘇金樹;陳曙輝;;一種基于高速鏈路的Hash算法[A];2006年全國理論計算機(jī)科學(xué)學(xué)術(shù)年會論文集[C];2006年
3 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設(shè)計與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
4 白建東;陳一驕;孫志剛;;入侵防護(hù)系統(tǒng)中Bloom Filter應(yīng)用研究[A];計算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國第18屆計算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集[C];2007年
5 王春厚;許都;孫健;;一種降低誤判率的BF快速匹配算法結(jié)構(gòu)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
6 張智江;王志軍;張尼;;一種可應(yīng)用于大流量環(huán)境下的雙層散列算法研究[A];中國通信學(xué)會信息通信網(wǎng)絡(luò)技術(shù)委員會2011年年會論文集(下冊)[C];2011年
7 吳麗輝;張凱;張剛;王斌;;天羅Web信息采集系統(tǒng)中的性能優(yōu)化[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
8 張凱;李魁;張剛;王斌;;基于站點的Web信息采集器研究[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年
9 劉莉;肖詩斌;王濤;施水才;;基于RSS的分布式博客搜索引擎設(shè)計[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
10 劉寶良;李建中;;crlib:可交互異構(gòu)Crawler框架的設(shè)計與實現(xiàn)[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張長利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年
2 王修君;高效數(shù)據(jù)流和海量文本處理算法研究[D];中國科學(xué)技術(shù)大學(xué);2011年
3 吳超;信息檢索中top-k問題的并行算法及優(yōu)化研究[D];中國科學(xué)技術(shù)大學(xué);2011年
4 李常寶;基于索引的web服務(wù)發(fā)現(xiàn)研究[D];北京郵電大學(xué);2011年
5 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學(xué);2011年
6 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
7 許笑;分布式Web信息采集關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2011年
8 寇月;Deep Web實體搜索的關(guān)鍵技術(shù)研究[D];東北大學(xué);2009年
9 賈自艷;Web信息智能獲取若干關(guān)鍵問題研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2004年
10 吳麗輝;個性化的Web信息采集技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年
2 司賀華;網(wǎng)絡(luò)內(nèi)容審計系統(tǒng)關(guān)鍵技術(shù)研究與實現(xiàn)[D];哈爾濱工程大學(xué);2010年
3 余曉磊;WSN路由算法的研究[D];華東師范大學(xué);2011年
4 王思麗;藏文網(wǎng)頁自動發(fā)現(xiàn)與采集技術(shù)研究[D];西北民族大學(xué);2010年
5 王曉地;Web信息采集技術(shù)研究與實現(xiàn)[D];華南理工大學(xué);2010年
6 李海豐;基于Lucene的企業(yè)文檔搜索引擎研究與應(yīng)用[D];中南林業(yè)科技大學(xué);2009年
7 陶小波;電子就業(yè)文本挖掘系統(tǒng)關(guān)鍵技術(shù)研究與應(yīng)用[D];浙江工商大學(xué);2011年
8 周民;海量web輿情挖掘算法研究[D];電子科技大學(xué);2011年
9 郭海燕;搜索引擎中網(wǎng)絡(luò)爬蟲技術(shù)研究[D];西安電子科技大學(xué);2009年
10 戚學(xué)磊;基于Lucene的站內(nèi)搜索引擎技術(shù)的研究與應(yīng)用[D];太原理工大學(xué);2011年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 汪濤,樊孝忠,顧益軍,劉林;基于概念分析的主題爬蟲設(shè)計[J];北京理工大學(xué)學(xué)報;2004年10期
2 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結(jié)構(gòu)、算法和策略[J];電子學(xué)報;2002年S1期
3 肖明忠,代亞非,李曉明;拆分型Bloom Filter[J];電子學(xué)報;2004年02期
4 秦海峰;許南山;山嵐;;基于P2P架構(gòu)的搜索引擎技術(shù)探究[J];福建電腦;2008年07期
5 池靜;倪健;王華;邢秀娥;;Bloom Filter和Weighted Bloom Filter的比較與研究[J];河北師范大學(xué)學(xué)報;2006年04期
6 肖明忠;代亞非;;Bloom Filter及其應(yīng)用綜述[J];計算機(jī)科學(xué);2004年04期
7 謝鯤;閔應(yīng)驊;張大方;謝高崗;文吉剛;;分檔布魯姆過濾器的查詢算法[J];計算機(jī)學(xué)報;2007年04期
8 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機(jī)應(yīng)用;2005年09期
9 白坤;耿國華;;基于Lucene/Heritrix的垂直搜索引擎的研究與應(yīng)用[J];計算機(jī)應(yīng)用與軟件;2009年01期
10 李宏偉;史培中;張素智;;一種可行的Web數(shù)據(jù)抽取包裝器的設(shè)計方法[J];計算機(jī)應(yīng)用與軟件;2009年03期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前3條
1 朱玉麗;基于網(wǎng)格技術(shù)的主題爬蟲算法優(yōu)化的研究與實現(xiàn)[D];沈陽工業(yè)大學(xué);2007年
2 羅理;基于Web對象的分布式抓取及存儲的設(shè)計與研究[D];昆明理工大學(xué);2008年
3 楊溥;搜索引擎中爬蟲的若干問題研究[D];北京郵電大學(xué);2009年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 韓笑;;審時度勢古永鏘[J];互聯(lián)網(wǎng)天地;2007年12期
2 老杳;;管制視頻網(wǎng)站,國家法規(guī)不應(yīng)草率出臺[J];IT時代周刊;2008年05期
3 王冰睿;;版權(quán)官司日趨尖銳 視頻網(wǎng)站奧運年遭遇“分水嶺”[J];IT時代周刊;2008年12期
4 周志懿;黃逸秋;楊春蘭;彭波;;視頻網(wǎng)站:青春期的樂與痛[J];傳媒;2009年05期
5 謝文;曾會明;醒客;;視頻網(wǎng)站三人談[J];傳媒;2009年05期
6 周敏;;金融風(fēng)暴下視頻網(wǎng)站盈利模式變革[J];中國廣播電視學(xué)刊;2009年04期
7 陳潔;;新媒體時代視頻網(wǎng)站發(fā)展現(xiàn)狀掃描[J];新聞窗;2009年04期
8 陳希琳;;商業(yè)視頻網(wǎng)站如何突破雙重危機(jī)[J];今傳媒;2009年11期
9 王甲佳;;視頻網(wǎng)站的商業(yè)模式有沒有可能超越版權(quán)?[J];軟件工程師;2009年11期
10 劉興亮;;視頻網(wǎng)站:投胎是個技術(shù)活[J];視聽界;2010年02期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 王茹;郭曉;曹雪珊;;國內(nèi)視頻網(wǎng)站精準(zhǔn)投放技術(shù)分析[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年
2 宋巍;張宇;謝毓彬;高漢東;劉挺;李生;;利用URL類別改進(jìn)查詢主題分類[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
3 林磊;劉燕兵;譚建龍;郭莉;;一種基于MPHF和Bloom Filter的URL查找算法[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年
4 張佳寶;周斌;吳泉源;;基于Hadoop的并行化命名實體識別技術(shù)研究與實現(xiàn)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
5 金松昌;方濱興;楊樹強(qiáng);賈焰;;基于Hadoop的網(wǎng)絡(luò)安全日志分析系統(tǒng)的設(shè)計與實現(xiàn)[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
6 丁輝;張大華;羅志明;;基于Hadoop的海量數(shù)據(jù)處理平臺研究[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年
7 袁志堅;賈焰;;基于誤差反饋的高速Web文本流快速近似分類[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
8 陳明陽;;網(wǎng)絡(luò)環(huán)境下著作權(quán)與隱私權(quán)的博弈——由Viacom訴YouTube案談起[A];2009中華全國律師協(xié)會知識產(chǎn)權(quán)專業(yè)委員會年會暨中國律師知識產(chǎn)權(quán)高層論壇論文集(上)[C];2009年
9 池建宇;池建新;;創(chuàng)業(yè)者工作背景對企業(yè)商業(yè)模式影響的實證分析——以中國視頻網(wǎng)站為例[A];第六屆(2011)中國管理學(xué)年會——創(chuàng)業(yè)與中小企業(yè)管理分會場論文集[C];2011年
10 蔡麗萍;李茂青;;一種基于模糊聚類的日志挖掘方法及應(yīng)用[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 閆躍勇;[N];人民代表報;2007年
2 廖慶升;[N];通信信息報;2007年
3 李博;[N];中國文化報;2010年
4 李永剛;[N];經(jīng)濟(jì)觀察報;2010年
5 魏武揮;[N];21世紀(jì)經(jīng)濟(jì)報道;2011年
6 本報記者 齊潔;[N];中國經(jīng)營報;2010年
7 商報記者 張緒旺;[N];北京商報;2011年
8 本刊執(zhí)行主編 賀俊;[N];證券日報;2006年
9 本報記者 羅小衛(wèi);[N];財經(jīng)時報;2006年
10 李國訓(xùn);[N];財經(jīng)時報;2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張健毅;大規(guī)模反釣魚識別引擎關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2012年
2 曹海儐;海量視頻的分布式協(xié)作處理與檢索研究[D];中國科學(xué)技術(shù)大學(xué);2013年
3 李韌;基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D];重慶大學(xué);2013年
4 王光文;論我國視頻網(wǎng)站版權(quán)侵權(quán)案件頻發(fā)的原因與應(yīng)對[D];華東師范大學(xué);2012年
5 史恒亮;云計算任務(wù)調(diào)度研究[D];南京理工大學(xué);2012年
6 尹文科;基于本體的視頻服務(wù)網(wǎng)站監(jiān)管技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2013年
7 程興國;仿生算法的動態(tài)反饋機(jī)制及其并行化實現(xiàn)方法研究[D];華南理工大學(xué);2013年
8 康俊鋒;云計算環(huán)境下高分辨率遙感影像存儲與高效管理技術(shù)研究[D];浙江大學(xué);2011年
9 霍旭光;基于云計算的大規(guī)模地形數(shù)據(jù)處理方法的研究[D];中國地質(zhì)大學(xué)(北京);2013年
10 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 邱荷花;基于Hadoop的視頻爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2013年
2 鄭宇;中國視頻網(wǎng)站盈利問題研究[D];中央民族大學(xué);2012年
3 慎玥;中國視頻網(wǎng)站的發(fā)展分析[D];上海師范大學(xué);2012年
4 郭婧;中國視頻網(wǎng)站現(xiàn)狀探析[D];上海交通大學(xué);2011年
5 陳實;面向web視頻的網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[D];電子科技大學(xué);2012年
6 舒泳飛;我國視頻網(wǎng)站內(nèi)容自制研究[D];湖南大學(xué);2013年
7 原建芳;付費視頻網(wǎng)站的傳播困境與思考[D];山東師范大學(xué);2013年
8 李亞;解析新浪視頻的成功運作[D];華中科技大學(xué);2009年
9 李亞;解析新浪視頻的成功運作[D];華中科技大學(xué);2009年
10 劉念;我國視頻網(wǎng)站自制節(jié)目的發(fā)展分析[D];重慶大學(xué);2013年
本文關(guān)鍵詞:面向web視頻的網(wǎng)絡(luò)爬蟲的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:243284
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/243284.html