天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

大數(shù)據(jù)環(huán)境下高維數(shù)據(jù)的快速重復(fù)檢測方法

發(fā)布時間:2018-05-17 12:17

  本文選題:大數(shù)據(jù) + 高維數(shù)據(jù); 參考:《計算機研究與發(fā)展》2016年03期


【摘要】:大數(shù)據(jù)時代多源、異構(gòu)、海量的數(shù)據(jù)正逐漸成為各種應(yīng)用的主流.多源異構(gòu)不可避免地會使數(shù)據(jù)出現(xiàn)重復(fù),同時龐大的數(shù)據(jù)量對重復(fù)檢測的效率提出了極高的要求,傳統(tǒng)技術(shù)在大數(shù)據(jù)環(huán)境下并不能很好地對高維數(shù)據(jù)進行重復(fù)檢測,就此問題展開研究,分析了傳統(tǒng)SNM類方法的不足,將重復(fù)問題概化為一類特殊的聚類問題,利用R-樹建立了高效的索引,利用聚類簇的特性減少了在R-樹葉子中比較的次數(shù),利用重復(fù)檢測的Apriori性質(zhì)實現(xiàn)了對高維數(shù)據(jù)集并行處理.實驗結(jié)果表明,提出的算法能有效地提高高維數(shù)據(jù)的重復(fù)檢測效率.
[Abstract]:In the era of big data, multi-source, heterogeneous and massive data are gradually becoming the mainstream of various applications. Multi-source heterogeneity will inevitably lead to duplication of data. At the same time, the huge amount of data sets a high demand for the efficiency of repeat detection. The traditional technology can not detect high-dimensional data in big data environment. In this paper, the shortcomings of traditional SNM clustering methods are analyzed, the repetition problem is generalized as a special clustering problem, the efficient index is established by using R- tree, and the number of comparisons in leaves of R- tree is reduced by using the characteristics of cluster. Parallel processing of high dimensional data sets is realized by using the Apriori property of repetitive detection. Experimental results show that the proposed algorithm can effectively improve the efficiency of high dimensional data repetition detection.
【作者單位】: 暨南大學(xué)信息科學(xué)技術(shù)學(xué)院;中山大學(xué)信息科學(xué)與技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金項目(61472453,61272073,61401177,61572232,U1401256,U1501252) 廣東省自然科學(xué)基金項目(S2013020012865) 廣東省科技計劃基金項目(2013B010401017)~~
【分類號】:TP311.13

【相似文獻】

相關(guān)期刊論文 前10條

1 余元輝;鄧瑩;;一種新的高維數(shù)據(jù)聚類自適應(yīng)算法的研究[J];沈陽化工大學(xué)學(xué)報;2010年02期

2 王寅峰;劉昊;狄盛;胡昊宇;;一種支持高維數(shù)據(jù)查詢的并行索引機制[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2011年S1期

3 周勇;盧曉偉;程春田;;非規(guī)則流中高維數(shù)據(jù)流典型相關(guān)性分析并行計算方法[J];軟件學(xué)報;2012年05期

4 王素芳;;基于組件的高維數(shù)據(jù)降維方法研究[J];電腦與電信;2012年10期

5 賀玲;蔡益朝;楊征;;高維數(shù)據(jù)聚類方法綜述[J];計算機應(yīng)用研究;2010年01期

6 趙連偉,羅四維,趙艷敞,劉蘊輝;高維數(shù)據(jù)流形的低維嵌入及嵌入維數(shù)研究[J];軟件學(xué)報;2005年08期

7 楊雪梅;董逸生;徐宏炳;劉學(xué)軍;錢江波;王永利;;高維數(shù)據(jù)流的在線相關(guān)性分析[J];計算機研究與發(fā)展;2006年10期

8 黃斯達;陳啟買;;一種基于相似性度量的高維數(shù)據(jù)聚類算法的研究[J];計算機應(yīng)用與軟件;2009年09期

9 吳翌琳;林寅;陳昊;;基于色差法的高維數(shù)據(jù)展示方法初探[J];統(tǒng)計與決策;2011年07期

10 武森;馮小東;吳慶海;;基于稀疏指數(shù)排序的高維數(shù)據(jù)并行聚類算法[J];系統(tǒng)工程理論與實踐;2011年S2期

相關(guān)會議論文 前6條

1 周煜人;彭輝;桂衛(wèi)華;;基于映射的高維數(shù)據(jù)聚類方法[A];04'中國企業(yè)自動化和信息化建設(shè)論壇暨中南六省區(qū)自動化學(xué)會學(xué)術(shù)年會專輯[C];2004年

2 梁俊杰;楊澤新;馮玉才;;大規(guī)模高維數(shù)據(jù)庫索引結(jié)構(gòu)[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年

3 陳冠華;馬秀莉;楊冬青;唐世渭;帥猛;;面向高維數(shù)據(jù)的低冗余Top-k異常點發(fā)現(xiàn)方法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(A輯)[C];2009年

4 劉運濤;鮑玉斌;吳丹;冷芳玲;孫煥良;于戈;;CBFrag-Cubing:一種基于壓縮位圖的高維數(shù)據(jù)立方創(chuàng)建算法(英文)[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2005年

5 劉文慧;;PCA與PLS用于高維數(shù)據(jù)分類的比較性研究[A];2011年中國衛(wèi)生統(tǒng)計學(xué)年會會議論文集[C];2011年

6 劉喜蘭;馮德益;王公恕;朱成喜;馮雯;;臉譜分析在中進期地震跟蹤預(yù)報中的應(yīng)用[A];中國地震學(xué)會第四次學(xué)術(shù)大會論文摘要集[C];1992年

相關(guān)重要報紙文章 前1條

1 本報記者 李雙藝;引領(lǐng)高維數(shù)據(jù)分析先河[N];吉林日報;2013年



本文編號:1901333

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1901333.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶17175***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com