一種分布式計(jì)算的空間離群點(diǎn)挖掘算法
本文選題:空間離群點(diǎn) + 分布式計(jì)算; 參考:《測繪科學(xué)》2017年08期
【摘要】:針對(duì)現(xiàn)有空間離群點(diǎn)挖掘算法無法適應(yīng)大規(guī)?臻g數(shù)據(jù)挖掘的需求,該文提出了一種分布式條件下的空間離群點(diǎn)挖掘算法。首先,該文針對(duì)集群上分布式計(jì)算和存儲(chǔ)的特點(diǎn)提出使用空間填充曲線來劃分?jǐn)?shù)據(jù)集,加速尋找目標(biāo)點(diǎn)的近似空間最近鄰居。其次,使用信息熵的理論來定義空間離群系數(shù),考慮到多維數(shù)據(jù)中不同屬性對(duì)離群系數(shù)的影響具有差異性,該算法能夠自動(dòng)根據(jù)數(shù)據(jù)原有特點(diǎn),計(jì)算各屬性的權(quán)重;同時(shí)使用反距離權(quán)定義空間因素對(duì)離群系數(shù)的影響。最后,實(shí)驗(yàn)結(jié)果表明該算法在大規(guī)模的空間數(shù)據(jù)集中挖掘離群點(diǎn)的效率遠(yuǎn)高于傳統(tǒng)算法,離群點(diǎn)的挖掘精度在90%以上。
[Abstract]:As the existing spatial outlier mining algorithms can not meet the needs of large-scale spatial data mining, a distributed spatial outlier mining algorithm is proposed in this paper. Firstly, according to the characteristics of distributed computing and storage on cluster, this paper proposes to divide the data set with space filling curve to find the nearest neighbor of the target point in the approximate space. Secondly, the theory of information entropy is used to define the spatial outlier coefficients. Considering the difference of the influence of different attributes on the outlier coefficients in multidimensional data, the algorithm can automatically calculate the weights of each attribute according to the original characteristics of the data. At the same time, the influence of spatial factors on outliers is defined by inverse distance weight. Finally, the experimental results show that the algorithm is much more efficient than the traditional algorithm in mining outliers in large-scale spatial data sets, and the precision of outlier mining is more than 90%.
【作者單位】: 中國測繪科學(xué)研究院;武漢大學(xué);遼寧工程技術(shù)大學(xué);
【基金】:測繪地理信息公益性行業(yè)科研專項(xiàng)(201512032,201512027) 中國測繪科學(xué)研究院基本科研業(yè)務(wù)費(fèi)項(xiàng)目(7771414)
【分類號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 魏藜,宮學(xué)慶,錢衛(wèi)寧,周傲英;高維空間中的離群點(diǎn)發(fā)現(xiàn)[J];軟件學(xué)報(bào);2002年02期
2 薛安榮;姚林;鞠時(shí)光;陳偉鶴;馬漢達(dá);;離群點(diǎn)挖掘方法綜述[J];計(jì)算機(jī)科學(xué);2008年11期
3 李存華;;l_∞度量意義下的離群點(diǎn)檢測[J];淮海工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年02期
4 封海岳;薛安榮;;基于重疊模塊度的社區(qū)離群點(diǎn)檢測[J];計(jì)算機(jī)應(yīng)用與軟件;2013年05期
5 王柏鈞,王力勤;《穩(wěn)健回歸與離群點(diǎn)檢測》介紹[J];成都?xì)庀髮W(xué)院學(xué)報(bào);1989年04期
6 黃添強(qiáng);秦小麟;葉飛躍;;基于方形鄰域的離群點(diǎn)查找新方法[J];控制與決策;2006年05期
7 熊君麗;;高維空間下基于密度的離群點(diǎn)探測算法實(shí)現(xiàn)[J];現(xiàn)代電子技術(shù);2006年15期
8 黃添強(qiáng);秦小麟;王欽敏;;空間離群點(diǎn)的模型與跳躍取樣查找算法[J];中國圖象圖形學(xué)報(bào);2006年09期
9 陳光平;葉東毅;;一種改進(jìn)的離群點(diǎn)檢測方法[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年03期
10 薛安榮;鞠時(shí)光;;基于空間約束的離群點(diǎn)挖掘[J];計(jì)算機(jī)科學(xué);2007年06期
相關(guān)會(huì)議論文 前9條
1 張鋒;常會(huì)友;;茫然第三方支持的隱私保持離群點(diǎn)探測協(xié)議[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
2 連鳳娜;吳錦林;薛永生;;一種改進(jìn)的基于距離的離群挖掘算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年
3 梁雪琴;劉紅生;代秀梅;周亞芬;;聚類離群點(diǎn)挖掘技術(shù)在內(nèi)部審計(jì)信息化中的應(yīng)用——一個(gè)來自商業(yè)銀行信用卡審計(jì)的實(shí)例[A];全國內(nèi)部審計(jì)理論研討優(yōu)秀論文集(2013)[C];2014年
4 于浩;王斌;肖剛;楊曉春;;基于距離的不確定離群點(diǎn)檢測[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
5 許龍飛;熊君麗;段敏;;基于粗糙集的高維空間離群點(diǎn)發(fā)現(xiàn)算法研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
6 劉文遠(yuǎn);李振平;王寶文;裴繼輝;;一種多維數(shù)據(jù)的離群點(diǎn)檢測算法[A];2007年全國第十一屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會(huì)議論文集[C];2007年
7 魏藜;錢衛(wèi)寧;周傲英;;HOT:尋找高維空間中的離群點(diǎn)[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
8 周紅福;錢衛(wèi)寧;魏藜;周傲英;;EDOLOIS:高效準(zhǔn)確的子空間局部離群點(diǎn)發(fā)現(xiàn)[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
9 魏藜;錢衛(wèi)寧;周傲英;;SLOT:基于估計(jì)的高效子空間局部離群點(diǎn)發(fā)現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
相關(guān)博士學(xué)位論文 前10條
1 楊鵬;離群檢測及其優(yōu)化算法研究[D];重慶大學(xué);2010年
2 林海;離群檢測及離群釋義空間查找算法研究[D];重慶大學(xué);2012年
3 薛安榮;空間離群點(diǎn)挖掘技術(shù)的研究[D];江蘇大學(xué);2008年
4 楊茂林;離群檢測算法研究[D];華中科技大學(xué);2012年
5 雷大江;離群檢測與離群釋義算法研究[D];重慶大學(xué);2012年
6 萬家強(qiáng);基于連通性的離群檢測與聚類研究[D];重慶大學(xué);2014年
7 唐向紅;數(shù)據(jù)流離群點(diǎn)檢測研究[D];華中科技大學(xué);2010年
8 劉靖;復(fù)雜數(shù)據(jù)類型的離群檢測方法研究[D];華南理工大學(xué);2014年
9 湯俊;基于可疑金融交易識(shí)別的離群模式挖掘研究[D];武漢理工大學(xué);2007年
10 蘇亮;數(shù)據(jù)流分析關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 韓紅霞;基于距離離群點(diǎn)的分析與研究[D];江蘇大學(xué);2007年
2 黃馨玉;基于鄰域重心變化的離群點(diǎn)檢測算法研究[D];遼寧大學(xué);2015年
3 程百球;基于EP模式的離群點(diǎn)發(fā)現(xiàn)[D];安慶師范學(xué)院;2015年
4 歐陽根平;Hadoop云平臺(tái)下基于離群點(diǎn)挖掘的入侵檢測技術(shù)研究[D];電子科技大學(xué);2015年
5 鄧璇;數(shù)據(jù)流挖掘關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
6 周瑩瑩;利用離群點(diǎn)檢測改進(jìn)協(xié)同過濾推薦算法[D];南京郵電大學(xué);2015年
7 張友強(qiáng);基于選擇性集成學(xué)習(xí)的離群點(diǎn)檢測研究[D];青島科技大學(xué);2016年
8 關(guān)皓文;基于離群點(diǎn)檢測方法的醫(yī)保異常發(fā)現(xiàn)[D];山東大學(xué);2016年
9 朱杰;基于帶時(shí)間約束頻繁路徑的離群軌跡檢測[D];蘇州大學(xué);2016年
10 馬菲;局部離群點(diǎn)檢測算法的研究[D];淮北師范大學(xué);2016年
,本文編號(hào):1971343
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1971343.html