海量數(shù)據(jù)的MapReduce相似度檢測
本文選題:相似度 + MapReduce ; 參考:《實(shí)驗(yàn)室研究與探索》2014年09期
【摘要】:針對當(dāng)前海量數(shù)據(jù)的相似重復(fù)問題,提出了MapReduce下通過SimHash算法檢測相似文檔的方法:即首先將存儲在分布式文件系統(tǒng)的海量文檔集進(jìn)行分類,然后進(jìn)行特征提取,由SimHash算法生成SimHash指紋和生成Sequence File;最后,計算相似度產(chǎn)生檢測結(jié)果;通過實(shí)驗(yàn)測試可知,提出的檢測方法和設(shè)計的相似度算法能很好適應(yīng)海量數(shù)據(jù)相似檢測,并能有效地提高工作效率。
[Abstract]:In order to solve the problem of similarity repetition of current mass data, a method of detecting similar documents by SimHash algorithm under MapReduce is proposed: firstly, the massive document set stored in distributed file system is classified, and then the feature extraction is carried out. SimHash algorithm is used to generate SimHash fingerprint and Sequence File. finally, the result of similarity detection is calculated. Through experimental test, we know that the proposed detection method and the designed similarity algorithm can adapt to the similarity detection of mass data. And can effectively improve the working efficiency.
【作者單位】: 河南理工大學(xué)測繪與國土信息工程學(xué)院;
【基金】:河南省科技攻關(guān)計劃項(xiàng)目(132102210123) 河南省高等學(xué)校礦山信息化重點(diǎn)學(xué)科開放實(shí)驗(yàn)室項(xiàng)目 河南理工大學(xué)博士基金(B2009-21)
【分類號】:TP333
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 李星毅;包從劍;施化吉;;數(shù)據(jù)倉庫中的相似重復(fù)記錄檢測方法[J];電子科技大學(xué)學(xué)報;2007年06期
2 李建江;崔健;王聃;嚴(yán)林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學(xué)報;2011年11期
3 韓京宇;徐立臻;董逸生;;一種大數(shù)據(jù)量的相似記錄檢測方法[J];計算機(jī)研究與發(fā)展;2005年12期
4 付印金;肖儂;劉芳;;重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展[J];計算機(jī)研究與發(fā)展;2012年01期
5 程國達(dá),蘇杭麗;一種檢測漢語相似重復(fù)記錄的有效方法[J];計算機(jī)應(yīng)用;2005年06期
6 朱恒民;王寧生;;一種改進(jìn)的相似重復(fù)記錄檢測方法[J];控制與決策;2006年07期
7 陳康;鄭緯民;;云計算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J];軟件學(xué)報;2009年05期
8 敖莉;舒繼武;李明強(qiáng);;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報;2010年05期
9 張祖平;徐昕;龍軍;袁鑫攀;;文本相似性度量中參數(shù)相關(guān)性與優(yōu)化配置研究[J];小型微型計算機(jī)系統(tǒng);2011年05期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 魏東澤;來學(xué)嘉;;一種安全的高可靠性P2P云存儲備份模型初探參考文獻(xiàn)[J];信息安全與技術(shù);2011年09期
2 王繼鵬;;高等教育云計算服務(wù)平臺構(gòu)建策略初探[J];安陽師范學(xué)院學(xué)報;2011年05期
3 劉真;劉峰;張寶鵬;馬飛;高石玉;;云計算模型在鐵路大規(guī)模數(shù)據(jù)處理中的應(yīng)用[J];北京交通大學(xué)學(xué)報;2010年05期
4 徐小龍;程春玲;熊婧夷;王汝傳;;一種基于移動Agent的云端計算任務(wù)安全分割與分配算法[J];北京理工大學(xué)學(xué)報;2011年08期
5 李建卓;;云計算及其發(fā)展綜述[J];寶雞文理學(xué)院學(xué)報(自然科學(xué)版);2010年03期
6 董曉霞;呂廷杰;;云計算研究綜述及未來發(fā)展[J];北京郵電大學(xué)學(xué)報(社會科學(xué)版);2010年05期
7 鄧仲華;朱秀芹;;云計算環(huán)境下的隱私權(quán)保護(hù)初探[J];圖書與情報;2010年04期
8 馬曉亭;陳臣;;基于成本收益分析的云計算環(huán)境下數(shù)字圖書館建設(shè)研究[J];圖書與情報;2011年06期
9 朱德新;宋雅娟;;海量數(shù)據(jù)分析及處理算法實(shí)現(xiàn)[J];長春大學(xué)學(xué)報;2011年08期
10 李鑫;李軍;豐繼林;高方平;李忠;;面向相似重復(fù)記錄檢測的特征優(yōu)選方法[J];傳感器與微系統(tǒng);2011年02期
相關(guān)會議論文 前10條
1 萬丹丹;王宏;;云計算在編輯工作中的應(yīng)用探討[A];學(xué)術(shù)期刊編輯學(xué)理論與實(shí)踐[C];2010年
2 郭捷夫;;基于云計算模型的綠色I(xiàn)T數(shù)據(jù)中心構(gòu)建方案研究[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年
3 汪云鳳;李心科;;云服務(wù)環(huán)境下的服務(wù)聚合方法研究[A];2011中國儀器儀表與測控技術(shù)大會論文集[C];2011年
4 張白蘭;楊向紅;李家龍;劉偉;林創(chuàng)燕;邱正能;;物聯(lián)網(wǎng)綜述[A];中國電子學(xué)會第十七屆信息論學(xué)術(shù)年會論文集[C];2010年
5 任偉;葉敏;劉宇靚;;云安全的信任管理研究[A];全國計算機(jī)安全學(xué)術(shù)交流會論文集·第二十五卷[C];2010年
6 周軒;黃璞;;基于云計算的OMS平臺移動業(yè)務(wù)測試系統(tǒng)[A];中國通信學(xué)會第六屆學(xué)術(shù)年會論文集(上)[C];2009年
7 唐玲;;云計算及其安全問題的研究[A];Proceedings of 2011 National Teaching Seminar on Cryptography and Information Security(NTS-CIS 2011) Vol.1[C];2011年
8 丁輝;趙煒妹;;基于云計算應(yīng)用一級部署的研究[A];2011電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2011年
9 趙偉;陳承收;李立軍;;基于MapReduce云計算模型的碰撞檢測算法[A];'2010系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會議論文集[C];2010年
10 彭成;王樹鵬;賈志凱;;基于糾刪碼的數(shù)據(jù)消冗存儲系統(tǒng)可靠性增強(qiáng)研究[A];2010年第16屆全國信息存儲技術(shù)大會(IST2010)論文集[C];2010年
相關(guān)博士學(xué)位論文 前10條
1 吳吉義;基于DHT的開放對等云存儲服務(wù)系統(tǒng)研究[D];浙江大學(xué);2011年
2 王鐵軍;非結(jié)構(gòu)化對等網(wǎng)絡(luò)資源定位技術(shù)研究[D];電子科技大學(xué);2010年
3 江頡;面向電子服務(wù)的訪問控制關(guān)鍵技術(shù)研究[D];浙江大學(xué);2010年
4 張澤華;云計算聯(lián)盟建模及實(shí)現(xiàn)的關(guān)鍵技術(shù)研究[D];云南大學(xué);2010年
5 李錚;多媒體云計算平臺關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2011年
6 康俊鋒;云計算環(huán)境下高分辨率遙感影像存儲與高效管理技術(shù)研究[D];浙江大學(xué);2011年
7 林云;汽車物流服務(wù)供應(yīng)鏈體系構(gòu)建與應(yīng)用研究[D];重慶大學(xué);2011年
8 朱智強(qiáng);混合云服務(wù)安全若干理論與關(guān)鍵技術(shù)研究[D];武漢大學(xué);2011年
9 方雷;基于云計算的土地資源服務(wù)高效處理平臺關(guān)鍵技術(shù)探索與研究[D];浙江大學(xué);2011年
10 葛顯龍;面向云配送模式的車輛調(diào)度問題及算法研究[D];重慶大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 孔楠;基于云計算平臺的商業(yè)服務(wù)模式研究[D];上海外國語大學(xué);2010年
2 康興元;面向模具企業(yè)的注塑模設(shè)計知識網(wǎng)絡(luò)化管理系統(tǒng)研究[D];大連理工大學(xué);2010年
3 姜健;云計算在企業(yè)物資供應(yīng)系統(tǒng)的應(yīng)用研究[D];遼寧工程技術(shù)大學(xué);2009年
4 薛師;云計算與網(wǎng)格計算的比較研究[D];河南理工大學(xué);2010年
5 劉震宇;基于VMware vSphere4.0的PC服務(wù)器資源池構(gòu)建[D];大連海事大學(xué);2010年
6 梁文迪;一體化資產(chǎn)管理系統(tǒng)中財務(wù)模塊的設(shè)計與實(shí)現(xiàn)[D];華南理工大學(xué);2010年
7 胡清;基于云計算的券商網(wǎng)絡(luò)營銷服務(wù)平臺研究與設(shè)計[D];南昌大學(xué);2010年
8 李嬋;基于云計算的智能手機(jī)數(shù)據(jù)挖掘平臺的架構(gòu)和實(shí)現(xiàn)[D];武漢理工大學(xué);2010年
9 賀鵬;云計算的開發(fā)云的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2011年
10 丁躍進(jìn);網(wǎng)關(guān)型病毒防火墻的設(shè)計與實(shí)現(xiàn)[D];電子科技大學(xué);2011年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 寧煥生;張瑜;劉芳麗;劉文明;渠慎豐;;中國物聯(lián)網(wǎng)信息服務(wù)系統(tǒng)研究[J];電子學(xué)報;2006年S1期
2 廖名學(xué);范植華;;MPI程序同步通信基本模型死鎖檢測[J];電子學(xué)報;2008年02期
3 寧煥生;徐群玉;;全球物聯(lián)網(wǎng)發(fā)展及中國物聯(lián)網(wǎng)建設(shè)若干思考[J];電子學(xué)報;2010年11期
4 張永;遲忠先;;位置編碼在數(shù)據(jù)倉庫ETL中的應(yīng)用[J];計算機(jī)工程;2007年01期
5 邱越峰,田增平,季文,
本文編號:1962816
本文鏈接:http://sikaile.net/kejilunwen/jisuanjikexuelunwen/1962816.html