天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于子空間的兩階段離群挖掘算法及其并行化

發(fā)布時(shí)間:2018-04-21 20:53

  本文選題:關(guān)聯(lián)子空間 + 候選離群對(duì)象。 參考:《太原科技大學(xué)》2016年碩士論文


【摘要】:離群挖掘是數(shù)據(jù)挖掘領(lǐng)域中的主要研究?jī)?nèi)容之一,并已廣泛地應(yīng)用到金融分析、信用詐騙,垃圾郵件分析等領(lǐng)域。針對(duì)高維海量數(shù)據(jù)集,如何有效的降低維災(zāi),提高數(shù)據(jù)挖掘的精度和效率,是離群挖掘中主要解決的問(wèn)題。本文從提高離群數(shù)據(jù)挖掘效果的角度,對(duì)兩階段離群檢測(cè)算法及其并行化進(jìn)行了研究,其主要研究成果如下:(1)采用篩選候選離群對(duì)象刪減計(jì)算量的思想,給出了一種兩階段離群挖掘算法。第一階段,計(jì)算每個(gè)數(shù)據(jù)對(duì)象在每一維的密度比,所有維的密度比的乘積取對(duì)數(shù)平均作為密度系數(shù),并選取候選離群對(duì)象;第二階段,把候選離群對(duì)象的鄰居在每一個(gè)關(guān)聯(lián)子空間中的偏離程度之積作為偏差比,密度系數(shù)與偏差比的乘積作為離群系數(shù),并確定離群數(shù)據(jù)對(duì)象。由于僅計(jì)算候選離群對(duì)象的離群系數(shù),因此有效地提高挖掘效率;最后,采用UCI數(shù)據(jù)集,實(shí)驗(yàn)驗(yàn)證了該算法不僅保證挖掘結(jié)果精度,而且有效提高了挖掘效率。(2)采用Map Reduce編程模型,給出了基于子空間的兩階段離群數(shù)據(jù)并行挖掘算法。先將數(shù)據(jù)集的全部數(shù)據(jù)分配到每一個(gè)子節(jié)點(diǎn)上,在每一個(gè)節(jié)點(diǎn)上用一個(gè)map函數(shù)計(jì)算數(shù)據(jù)的密度系數(shù)。用Reduce函數(shù)將結(jié)果匯總到主節(jié)點(diǎn)得到候選離群數(shù)據(jù)集。為使每個(gè)節(jié)點(diǎn)負(fù)載均衡,對(duì)候選離群數(shù)據(jù)集中的對(duì)象重新編號(hào),將計(jì)算任務(wù)均等的分配到每個(gè)子節(jié)點(diǎn)。計(jì)算候選離群數(shù)據(jù)集中每個(gè)對(duì)象的偏差比,用Reduce函數(shù)將結(jié)果匯總到主節(jié)點(diǎn),計(jì)算候選離群對(duì)象的離群系數(shù)。最后排序,篩選出離群點(diǎn)。
[Abstract]:Outlier mining is one of the main research contents in the field of data mining, and has been widely used in financial analysis, credit fraud, spam analysis and other fields. For high-dimensional massive data sets, how to effectively reduce dimensionality disasters and improve the accuracy and efficiency of data mining is the main problem in outlier mining. In order to improve the effect of outlier data mining, the two-stage outlier detection algorithm and its parallelization are studied in this paper. A two-stage outlier mining algorithm is presented. In the first stage, the density ratio of each data object in each dimension is calculated, the product of the density ratio of all dimensions is taken as the logarithmic average as the density coefficient, and the candidate outliers are selected. The product of deviation degree of neighbor of candidate outlier in each associated subspace is regarded as deviation ratio, and the product of density coefficient and deviation ratio is taken as outlier coefficient, and the outlier data object is determined. Because the outlier coefficients of candidate outliers are only calculated, the mining efficiency is improved effectively. Finally, the UCI dataset is used to verify that the algorithm not only ensures the accuracy of mining results, but also improves the mining efficiency. Moreover, the efficiency of mining is improved effectively. (2) using Map Reduce programming model, a two-stage outlier parallel mining algorithm based on subspace is presented. First, all the data of the data set are assigned to each child node, and the density coefficient of the data is calculated by a map function on each node. Reduce function is used to summarize the results to the primary node to obtain candidate outlier data sets. In order to balance the load of each node, the objects in the candidate outlier dataset are renumbered and the computing tasks are assigned equally to each child node. The deviation ratio of each object in candidate outlier dataset is calculated, and the result is summarized to the primary node by Reduce function, and the outlier coefficient of candidate outlier is calculated. Finally, sorting out outliers.
【學(xué)位授予單位】:太原科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 魏藜,宮學(xué)慶,錢(qián)衛(wèi)寧,周傲英;高維空間中的離群點(diǎn)發(fā)現(xiàn)[J];軟件學(xué)報(bào);2002年02期

2 薛安榮;姚林;鞠時(shí)光;陳偉鶴;馬漢達(dá);;離群點(diǎn)挖掘方法綜述[J];計(jì)算機(jī)科學(xué);2008年11期

3 李存華;;l_∞度量意義下的離群點(diǎn)檢測(cè)[J];淮海工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年02期

4 李昕;顏學(xué)峰;;融合離群點(diǎn)判別的穩(wěn)態(tài)檢測(cè)方法及其應(yīng)用[J];華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期

5 封海岳;薛安榮;;基于重疊模塊度的社區(qū)離群點(diǎn)檢測(cè)[J];計(jì)算機(jī)應(yīng)用與軟件;2013年05期

6 王柏鈞,王力勤;《穩(wěn)健回歸與離群點(diǎn)檢測(cè)》介紹[J];成都?xì)庀髮W(xué)院學(xué)報(bào);1989年04期

7 黃添強(qiáng);秦小麟;葉飛躍;;基于方形鄰域的離群點(diǎn)查找新方法[J];控制與決策;2006年05期

8 熊君麗;;高維空間下基于密度的離群點(diǎn)探測(cè)算法實(shí)現(xiàn)[J];現(xiàn)代電子技術(shù);2006年15期

9 黃添強(qiáng);秦小麟;王欽敏;;空間離群點(diǎn)的模型與跳躍取樣查找算法[J];中國(guó)圖象圖形學(xué)報(bào);2006年09期

10 陳光平;葉東毅;;一種改進(jìn)的離群點(diǎn)檢測(cè)方法[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年03期

相關(guān)會(huì)議論文 前9條

1 張鋒;常會(huì)友;;茫然第三方支持的隱私保持離群點(diǎn)探測(cè)協(xié)議[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年

2 連鳳娜;吳錦林;薛永生;;一種改進(jìn)的基于距離的離群挖掘算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2007年

3 梁雪琴;劉紅生;代秀梅;周亞芬;;聚類(lèi)離群點(diǎn)挖掘技術(shù)在內(nèi)部審計(jì)信息化中的應(yīng)用——一個(gè)來(lái)自商業(yè)銀行信用卡審計(jì)的實(shí)例[A];全國(guó)內(nèi)部審計(jì)理論研討優(yōu)秀論文集(2013)[C];2014年

4 于浩;王斌;肖剛;楊曉春;;基于距離的不確定離群點(diǎn)檢測(cè)[A];第26屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年

5 許龍飛;熊君麗;段敏;;基于粗糙集的高維空間離群點(diǎn)發(fā)現(xiàn)算法研究[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年

6 劉文遠(yuǎn);李振平;王寶文;裴繼輝;;一種多維數(shù)據(jù)的離群點(diǎn)檢測(cè)算法[A];2007年全國(guó)第十一屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會(huì)議論文集[C];2007年

7 魏藜;錢(qián)衛(wèi)寧;周傲英;;HOT:尋找高維空間中的離群點(diǎn)[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

8 周紅福;錢(qián)衛(wèi)寧;魏藜;周傲英;;EDOLOIS:高效準(zhǔn)確的子空間局部離群點(diǎn)發(fā)現(xiàn)[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年

9 魏藜;錢(qián)衛(wèi)寧;周傲英;;SLOT:基于估計(jì)的高效子空間局部離群點(diǎn)發(fā)現(xiàn)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年

相關(guān)博士學(xué)位論文 前10條

1 劉莘;基于時(shí)空分析的CCS泄漏預(yù)警關(guān)鍵技術(shù)研究[D];中國(guó)礦業(yè)大學(xué);2016年

2 劉露;異質(zhì)信息網(wǎng)絡(luò)中離群點(diǎn)檢測(cè)方法研究[D];吉林大學(xué);2017年

3 楊鵬;離群檢測(cè)及其優(yōu)化算法研究[D];重慶大學(xué);2010年

4 林海;離群檢測(cè)及離群釋義空間查找算法研究[D];重慶大學(xué);2012年

5 薛安榮;空間離群點(diǎn)挖掘技術(shù)的研究[D];江蘇大學(xué);2008年

6 楊茂林;離群檢測(cè)算法研究[D];華中科技大學(xué);2012年

7 金義富;高維稀疏離群數(shù)據(jù)集延伸知識(shí)發(fā)現(xiàn)研究[D];重慶大學(xué);2007年

8 雷大江;離群檢測(cè)與離群釋義算法研究[D];重慶大學(xué);2012年

9 萬(wàn)家強(qiáng);基于連通性的離群檢測(cè)與聚類(lèi)研究[D];重慶大學(xué);2014年

10 唐向紅;數(shù)據(jù)流離群點(diǎn)檢測(cè)研究[D];華中科技大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 韓紅霞;基于距離離群點(diǎn)的分析與研究[D];江蘇大學(xué);2007年

2 黃馨玉;基于鄰域重心變化的離群點(diǎn)檢測(cè)算法研究[D];遼寧大學(xué);2015年

3 程百球;基于EP模式的離群點(diǎn)發(fā)現(xiàn)[D];安慶師范學(xué)院;2015年

4 歐陽(yáng)根平;Hadoop云平臺(tái)下基于離群點(diǎn)挖掘的入侵檢測(cè)技術(shù)研究[D];電子科技大學(xué);2015年

5 鄧璇;數(shù)據(jù)流挖掘關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

6 周瑩瑩;利用離群點(diǎn)檢測(cè)改進(jìn)協(xié)同過(guò)濾推薦算法[D];南京郵電大學(xué);2015年

7 陳娟;基于離群特征提取和能量計(jì)算的SVM股市預(yù)測(cè)研究[D];合肥工業(yè)大學(xué);2014年

8 張友強(qiáng);基于選擇性集成學(xué)習(xí)的離群點(diǎn)檢測(cè)研究[D];青島科技大學(xué);2016年

9 王美晶;基于PSO算法的離群點(diǎn)檢測(cè)方法研究[D];福州大學(xué);2013年

10 關(guān)皓文;基于離群點(diǎn)檢測(cè)方法的醫(yī)保異常發(fā)現(xiàn)[D];山東大學(xué);2016年



本文編號(hào):1784056

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1784056.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)0f4c5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com