天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于MapReduce的視頻爬蟲系統(tǒng)研究

發(fā)布時(shí)間:2017-11-15 14:32

  本文關(guān)鍵詞:基于MapReduce的視頻爬蟲系統(tǒng)研究


  更多相關(guān)文章: 視頻 爬蟲 分布式 Hadoop框架 MapReduce計(jì)算模型 Hadoop分布式文件系統(tǒng)


【摘要】:針對(duì)當(dāng)前網(wǎng)絡(luò)中視頻媒體數(shù)量大、更新快、內(nèi)容多、下載難,以及基于單機(jī)的視頻網(wǎng)絡(luò)爬蟲系統(tǒng)中的處理速度慢、并發(fā)度低和下載速度慢等問(wèn)題,提出了基于Hadoop框架的視頻爬蟲系統(tǒng),為視頻爬取提供了高并發(fā)度的處理和爬取速度.通過(guò)MapReduce計(jì)算模型實(shí)現(xiàn)網(wǎng)頁(yè)抓取、分析、去重及下載等計(jì)算任務(wù),Hadoop分布式文件系統(tǒng)(HDFS)存儲(chǔ)各階段計(jì)算任務(wù)的計(jì)算結(jié)果,運(yùn)用多處備份機(jī)制,使得在某個(gè)結(jié)點(diǎn)退出時(shí)轉(zhuǎn)移任務(wù)集,不影響整個(gè)系統(tǒng)的穩(wěn)定性和有效性.實(shí)驗(yàn)結(jié)果表明完全分布式基于Hadoop的視頻爬蟲系統(tǒng)無(wú)論在單位時(shí)間內(nèi)的視頻下載速率還是爬取網(wǎng)頁(yè)個(gè)數(shù)都明顯高于未基于Hadoop的和偽分布式的視頻爬蟲系統(tǒng).
【作者單位】: 中國(guó)船舶重工集團(tuán)公司第709研究所;華中科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;
【基金】:國(guó)家自然科學(xué)基金資助項(xiàng)目(61232004)
【分類號(hào)】:TP311.13;TP393.092
【正文快照】: 從互聯(lián)網(wǎng)誕生至今,發(fā)展越來(lái)越迅速.有些網(wǎng)站允許用戶生成并傳播視頻,由此互聯(lián)網(wǎng)中的視頻資源日益龐大,且形式、種類日益繁多,形成了一個(gè)紛繁復(fù)雜的視頻資源網(wǎng).因此視頻搜索引擎的地位日益重要.視頻搜索引擎搜索互聯(lián)網(wǎng)上的視頻文件是通過(guò)視頻爬蟲[1-4]實(shí)現(xiàn)的.Hadoop分布式框架

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條

1 李s,

本文編號(hào):1190149


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1190149.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶132af***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com