Web大數(shù)據(jù)環(huán)境下的相似重復(fù)數(shù)據(jù)清理
本文選題:Web大數(shù)據(jù) + 重復(fù)數(shù)據(jù)刪除 ; 參考:《計算機(jī)工程與設(shè)計》2017年03期
【摘要】:為對Web大數(shù)據(jù)環(huán)境下的相似重復(fù)冗余數(shù)據(jù)進(jìn)行清理,降低數(shù)據(jù)存儲與管理的時間和成本,提出Web大數(shù)據(jù)相似重復(fù)數(shù)據(jù)清理方法。對Web數(shù)據(jù)進(jìn)行預(yù)處理,提出相似哈希的實(shí)現(xiàn)算法計算各數(shù)據(jù)信息的相似度,對于滿足特定閾值的相似數(shù)據(jù)信息,保留其中一個及其副本,其余數(shù)據(jù)信息保存該數(shù)據(jù)信息的地址。使用該方法在Hadoop平臺上對多個網(wǎng)站的Web數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該方法具有良好的精確性及數(shù)據(jù)縮減效果。
[Abstract]:In order to clean up the similar redundant data in Web big data environment and reduce the time and cost of data storage and management, a Web big data similar repetitive data cleaning method is proposed. The Web data is preprocessed, and a similar hash algorithm is proposed to calculate the similarity of each data information. For the similar data information satisfying a specific threshold, one of them and its replica are retained, and the other data information keeps the address of the data information. The method is used to test the Web data of many websites on Hadoop platform. The experimental results show that the method has good accuracy and data reduction effect.
【作者單位】: 四川師范大學(xué)計算機(jī)學(xué)院;中國科學(xué)院計算技術(shù)研究所;
【基金】:國家自然科學(xué)基金項目(61373162) 四川省科技支撐基金項目(2014GZ007) 可視化計算與虛擬現(xiàn)實(shí)四川省重點(diǎn)實(shí)驗(yàn)室基金項目(KJ201402)
【分類號】:TP393.09;TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊輔祥,劉云超,段智華;數(shù)據(jù)清理綜述[J];計算機(jī)應(yīng)用研究;2002年03期
2 陳海燕,周俊林;數(shù)據(jù)清理的實(shí)現(xiàn)技術(shù)[J];新疆職業(yè)大學(xué)學(xué)報;2004年03期
3 夏驕雄;徐俊;吳耿鋒;;數(shù)據(jù)清理中同體不同源數(shù)據(jù)的數(shù)化算法研究[J];計算機(jī)工程;2007年01期
4 宋崢嶸;樸春梅;;數(shù)據(jù)質(zhì)量與數(shù)據(jù)清理淺談[J];今日科苑;2009年17期
5 宋崢嶸;樸春梅;王飛;;文獻(xiàn)數(shù)據(jù)庫的數(shù)據(jù)質(zhì)量控制與數(shù)據(jù)清理[J];江蘇科技信息;2009年09期
6 郭興成;;對我國企業(yè)數(shù)據(jù)清理的研究[J];企業(yè)技術(shù)開發(fā);2011年20期
7 劇偉偉;;淺談組織機(jī)構(gòu)數(shù)據(jù)清理的可操作性問題[J];經(jīng)營管理者;2013年24期
8 吳滌單;;基于數(shù)據(jù)清理技術(shù)的稅務(wù)征收管理系統(tǒng)[J];電腦知識與技術(shù);2013年30期
9 許翔,毛婕;數(shù)據(jù)清理技術(shù)在軟件開發(fā)中的應(yīng)用研究[J];計算機(jī)時代;2004年08期
10 張志兵,李華e,
本文編號:1946268
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1946268.html