天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

音視頻數(shù)據(jù)獲取與同源性分析關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2020-05-08 14:17
【摘要】:我國的互聯(lián)網(wǎng)正處于蓬勃發(fā)展中,人們在獲取內(nèi)容的方式上發(fā)生了巨大的變革,越來越多的網(wǎng)民喜歡通過音視頻來獲取信息。同時(shí),各大網(wǎng)絡(luò)視頻網(wǎng)站紛紛提出泛娛樂內(nèi)容新生態(tài)的建設(shè),這對音視頻數(shù)據(jù)挖掘提出了新的需求。本文研究了音視頻數(shù)據(jù)挖掘的兩個(gè)關(guān)鍵問題:第一個(gè)問題是音視頻文本數(shù)據(jù)的獲取,數(shù)據(jù)獲取是web挖掘的基石;第二個(gè)問題是對音視頻數(shù)據(jù)的同源性分析,同源性分析是通過分析真實(shí)世界中實(shí)體之間的相似關(guān)系,從而挖掘出網(wǎng)絡(luò)視頻網(wǎng)站中潛在的用戶關(guān)系;诜植际骄W(wǎng)絡(luò)爬蟲的數(shù)據(jù)獲取技術(shù)是當(dāng)前研究的主流方向,本文對現(xiàn)有的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)進(jìn)行了深入的研究。針對現(xiàn)有的開源爬蟲框架對分布式支持的不足,本文設(shè)計(jì)了一套分布式網(wǎng)絡(luò)爬蟲系統(tǒng),并給出了分布式任務(wù)調(diào)度算法。面對海量數(shù)據(jù),為了提高系統(tǒng)的爬行效率,本文重點(diǎn)研究了URL去重和網(wǎng)頁內(nèi)容去重。對于URL去重,首先分析了傳統(tǒng)BloomFilter的優(yōu)缺點(diǎn),然后對其進(jìn)行了改進(jìn),降低了傳統(tǒng)Bloom Filter誤判率高的問題;對于網(wǎng)頁內(nèi)容去重,本文提出先對網(wǎng)頁內(nèi)容進(jìn)行分詞處理,再通過SimHash算法來判斷當(dāng)前頁面是否已經(jīng)存在的方法。論文通過實(shí)驗(yàn)證明了在海量數(shù)據(jù)下,本文提出的URL去重方法具有更低的誤判率,以及提出的網(wǎng)頁內(nèi)容去重方法相比其他的算法具有明顯的速度優(yōu)勢。本文對現(xiàn)有的社交網(wǎng)絡(luò)用戶關(guān)系挖掘進(jìn)行了深入研究,提出了一種基于Sim Rank的音視頻數(shù)據(jù)同源性分析方法,該方法可以計(jì)算出音視頻分享者之間的相似度,通過相似度我們可以來度量這些音視頻分享者之間的同源性。在海量數(shù)據(jù)面前,原始的SimRank計(jì)算時(shí)間耗費(fèi)十分巨大,本文對原始的SimRank進(jìn)行了基于MapReduce的分布式實(shí)現(xiàn)與分析,發(fā)現(xiàn)在分布式環(huán)境下,SimRank存在計(jì)算速度慢、通信量大等問題。最后本文對原有的分布式SimRank算法進(jìn)行了改進(jìn)。為了驗(yàn)證改進(jìn)結(jié)果,論文在3個(gè)真實(shí)網(wǎng)絡(luò)數(shù)據(jù)集和1個(gè)網(wǎng)絡(luò)爬蟲獲取的數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),證明了改進(jìn)的分布式Sim Rank更適合海量數(shù)據(jù)計(jì)算。最后,本文設(shè)計(jì)并實(shí)現(xiàn)了一套音視頻數(shù)據(jù)獲取與同源性分析系統(tǒng),采用真實(shí)的網(wǎng)絡(luò)視頻網(wǎng)站的數(shù)據(jù)進(jìn)行驗(yàn)證,結(jié)果分析表明本文設(shè)計(jì)的分布式網(wǎng)絡(luò)爬蟲系統(tǒng)能全面、快速地獲取到音視頻數(shù)據(jù),本文提出的同源性分析方法能夠挖掘出符合直觀感受的用戶關(guān)聯(lián)信息。整個(gè)系統(tǒng)能夠?yàn)榉簥蕵穬?nèi)容新生態(tài)的建設(shè)提供全面準(zhǔn)確的數(shù)據(jù)支持。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP393.092;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前2條

1 胡錫衡;;正向最大匹配法在中文分詞技術(shù)中的應(yīng)用[J];鞍山師范學(xué)院學(xué)報(bào);2008年02期

2 王繼民,彭波;搜索引擎用戶訪問量模型[J];計(jì)算機(jī)工程與應(yīng)用;2004年25期



本文編號:2654777

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2654777.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶29708***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com