Hadoop下改進(jìn)布隆過濾器算法的網(wǎng)頁去重
本文選題:Hadoop + 布隆過濾器; 參考:《計(jì)算機(jī)工程與科學(xué)》2017年02期
【摘要】:針對(duì)服務(wù)器中存儲(chǔ)的大量重復(fù)和相似數(shù)據(jù)造成的空間浪費(fèi)問題,改進(jìn)的布隆過濾器(Bloom Filter)算法通過增加位數(shù)組并根據(jù)位數(shù)組的重復(fù)命中次數(shù)所計(jì)算的權(quán)重來動(dòng)態(tài)優(yōu)化重復(fù)數(shù)據(jù)的副本數(shù),然后在Hadoop分布式集群下對(duì)改進(jìn)的算法進(jìn)行并行實(shí)現(xiàn),以進(jìn)一步提高作業(yè)處理效率。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)網(wǎng)頁去重算法相比,改進(jìn)的Bloom Filter算法的并行實(shí)現(xiàn)不僅提高了作業(yè)的處理效率,而且通過基于位數(shù)組下動(dòng)態(tài)重復(fù)次數(shù)對(duì)副本數(shù)的優(yōu)化,在一定程度上節(jié)省了服務(wù)器的存儲(chǔ)空間。
[Abstract]:For space waste caused by large amounts of duplicate and similar data stored in the server, The improved Bloom filter algorithm dynamically optimizes the replica number of repeated data by increasing the bit array and according to the weight calculated by the repeated hits of the bit array, and then implements the improved algorithm in parallel under the Hadoop distributed cluster. To further improve job processing efficiency. The experimental results show that the parallel implementation of the improved Bloom Filter algorithm not only improves the processing efficiency of the job, but also optimizes the number of replicas based on the bit array. To some extent, the storage space of the server is saved.
【作者單位】: 河北工程大學(xué)信息與電氣工程學(xué)院;
【基金】:河北省自然科學(xué)基金(F2015402077) 河北省重點(diǎn)基礎(chǔ)研究項(xiàng)目(14964206D)
【分類號(hào)】:TP393.092;TP301.6
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王勇;劉美林;李凱;任興田;許榮強(qiáng);;云環(huán)境下基于可靠性的均衡任務(wù)調(diào)度算法研究[J];計(jì)算機(jī)科學(xué);2015年S1期
2 于娟;劉強(qiáng);;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)工程與科學(xué);2015年02期
3 欒霞;趙曉楠;;基于維基百科和網(wǎng)頁相似度分析的主題爬行策略[J];現(xiàn)代電子技術(shù);2014年20期
4 王艷紅;周軍;;基于Hadoop的網(wǎng)絡(luò)爬蟲技術(shù)研究[J];吉林工程技術(shù)師范學(xué)院學(xué)報(bào);2014年08期
5 閆建紅;;PageRank算法的并行實(shí)現(xiàn)[J];太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2014年02期
6 黃婕;;基于Hadoop平臺(tái)的HITS算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2014年03期
7 胡丹;于炯;英昌甜;鄒偉明;;Hadoop平臺(tái)下改進(jìn)的LATE調(diào)度算法[J];計(jì)算機(jī)工程與應(yīng)用;2014年04期
8 錢孟遠(yuǎn);虞慧群;;基于副本分布策略的MapReduce性能優(yōu)化技術(shù)[J];華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年06期
9 熊忠陽;牙漫;張玉芳;;基于網(wǎng)頁正文結(jié)構(gòu)和特征串的相似網(wǎng)頁去重算法[J];計(jì)算機(jī)應(yīng)用;2013年02期
10 祝家鈺;肖丹;;云計(jì)算架構(gòu)下的動(dòng)態(tài)副本管理策略[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年09期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 岳希;安義文;;大學(xué)生創(chuàng)業(yè)環(huán)境因素分析軟件平臺(tái)的設(shè)計(jì)研究[J];科技展望;2017年19期
2 鄭正;趙飛;周昕e,
本文編號(hào):1946457
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1946457.html