基于MapReduce的視頻爬蟲系統(tǒng)研究
發(fā)布時(shí)間:2017-11-15 14:32
本文關(guān)鍵詞:基于MapReduce的視頻爬蟲系統(tǒng)研究
更多相關(guān)文章: 視頻 爬蟲 分布式 Hadoop框架 MapReduce計(jì)算模型 Hadoop分布式文件系統(tǒng)
【摘要】:針對(duì)當(dāng)前網(wǎng)絡(luò)中視頻媒體數(shù)量大、更新快、內(nèi)容多、下載難,以及基于單機(jī)的視頻網(wǎng)絡(luò)爬蟲系統(tǒng)中的處理速度慢、并發(fā)度低和下載速度慢等問(wèn)題,提出了基于Hadoop框架的視頻爬蟲系統(tǒng),為視頻爬取提供了高并發(fā)度的處理和爬取速度.通過(guò)MapReduce計(jì)算模型實(shí)現(xiàn)網(wǎng)頁(yè)抓取、分析、去重及下載等計(jì)算任務(wù),Hadoop分布式文件系統(tǒng)(HDFS)存儲(chǔ)各階段計(jì)算任務(wù)的計(jì)算結(jié)果,運(yùn)用多處備份機(jī)制,使得在某個(gè)結(jié)點(diǎn)退出時(shí)轉(zhuǎn)移任務(wù)集,不影響整個(gè)系統(tǒng)的穩(wěn)定性和有效性.實(shí)驗(yàn)結(jié)果表明完全分布式基于Hadoop的視頻爬蟲系統(tǒng)無(wú)論在單位時(shí)間內(nèi)的視頻下載速率還是爬取網(wǎng)頁(yè)個(gè)數(shù)都明顯高于未基于Hadoop的和偽分布式的視頻爬蟲系統(tǒng).
【作者單位】: 中國(guó)船舶重工集團(tuán)公司第709研究所;華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61232004)
【分類號(hào)】:TP311.13;TP393.092
【正文快照】: 從互聯(lián)網(wǎng)誕生至今,發(fā)展越來(lái)越迅速.有些網(wǎng)站允許用戶生成并傳播視頻,由此互聯(lián)網(wǎng)中的視頻資源日益龐大,且形式、種類日益繁多,形成了一個(gè)紛繁復(fù)雜的視頻資源網(wǎng).因此視頻搜索引擎的地位日益重要.視頻搜索引擎搜索互聯(lián)網(wǎng)上的視頻文件是通過(guò)視頻爬蟲[1-4]實(shí)現(xiàn)的.Hadoop分布式框架
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 李s,
本文編號(hào):1190149
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1190149.html
最近更新
教材專著