不確定數(shù)據(jù)集中離群點檢測技術(shù)的研究
發(fā)布時間:2022-02-12 11:28
近些年來,隨著數(shù)據(jù)庫技術(shù)的蓬勃發(fā)展,需要在數(shù)據(jù)庫中存儲和處理的數(shù)據(jù)量日益增加,如何從海量數(shù)據(jù)中挖掘出潛在的甚至未被發(fā)現(xiàn)的價值信息已經(jīng)成為當(dāng)下數(shù)據(jù)庫研究領(lǐng)域的熱點問題之一。離群點檢測技術(shù)可以幫助用戶發(fā)現(xiàn)異常但有價值的數(shù)據(jù)信息,其在醫(yī)療診斷、金融詐騙、環(huán)境監(jiān)測等領(lǐng)域中已經(jīng)有著廣泛的應(yīng)用。目前,傳統(tǒng)數(shù)據(jù)庫領(lǐng)域中的離群點檢測技術(shù)已經(jīng)取得了許多優(yōu)秀的研究成果。然而,隨著人們對數(shù)據(jù)采集和數(shù)據(jù)處理理解的不斷深入,人們逐漸認(rèn)識到不確定數(shù)據(jù)在生產(chǎn)和生活中普遍存在。但是,在這新興的不確定數(shù)據(jù)庫領(lǐng)域中現(xiàn)有的離群點檢測方法具有一定的局限性,不能切實有效的滿足現(xiàn)實應(yīng)用的需求。為此,本文對不確定數(shù)據(jù)中和不確定數(shù)據(jù)流中的離群點檢測問題展開了研究。具體地,本文的主要貢獻(xiàn)如下:1.提出了不確定數(shù)據(jù)集中的快速離群點檢測算法FODU(Fast Outlier Detection Algorithm on Uncertain Data Sets)。首先,采用分層次劃分思想給出了索引的構(gòu)建策略,這種索引結(jié)構(gòu)即克服傳統(tǒng)索引對多維數(shù)據(jù)管理的局限性又避免了空間冗余的產(chǎn)生。然后,提出了全新的過濾方法,該方法包括批量過濾與單點過濾兩個過...
【文章來源】:大連海事大學(xué)遼寧省211工程院校
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.?1不確定數(shù)據(jù)集中的離群點示例??Fig.?2.1?Example?of?outliers?in?uncertain?data?sets??
1??罄???馨??0.9-???PU?魯%:?K?¥??〇?8?-?尸丨5?b,?p\9?/>???0.7?????A?xí)鴧ⅲ??^?/?7?W?A?P2\p2i?Plf??-t?A??b2?P'、P、',h*?bv??〇.4???丨?蠡??? ̄代7;??0?:-?[?Z?^??0J'#????????0丨,??/,!????凡?hi?h3?*?b4??〇?0.1?0.2?0.3?0.4?0.5?0.6?0.7?0.8?0.9?I卡唯??圖2.?2分層次劃分索引構(gòu)建的示例??Fig.?2.2?Example?of?hierarchically?indexed?build??表2.?4圖2.?2中數(shù)據(jù)點的概率信息??Tab.?2.4?Probability?information?of?data?points?in?Figure?2.2??不確定數(shù)據(jù)點?存在概率?不確定數(shù)據(jù)點?存在概率?不確定數(shù)據(jù)點?存在概率??劃分子塊6!?劃分子塊h?劃分子塊A3??Pi?0.9?pi?0.8?p6?0.9??Pa?0.7?pi?0.4?ps?0.3??劃分子塊仏?劃分子塊h?劃分子塊66??P35?0.7?/?30?0.8?P9?0.6??P33,?0.7?/?3i?0.7?p\〇?0.6??P32?0.6?P29?0.7?尸11?0.4??/?34?0.3?/?27?0.6?P%?0.3??P28?0.1?pi?0.3??劃分子塊67?劃分子塊心?劃分子塊心??P]2?0.9?P24?0.6?p'
?不確定數(shù)據(jù)集中離群點檢測技術(shù)的研究???續(xù)表2.4??不確定數(shù)據(jù)點?存在概率?不確定數(shù)據(jù)點?存在概率?不確定數(shù)據(jù)點?存在概率??劃分子塊67?劃分子塊如?劃分子塊如??pi4?0.7?pa?0.5?p2〇?0.7??f>15?0.7?P25?0.4?P16?0.4??pi6?0.3?/>i7?0.3??具體地,圖2.3是圖2.2的索引生成樹。從圖2.3中可以看出劃分索引樹的葉子節(jié)點??中包含了不確定數(shù)據(jù)集合P中的所有數(shù)據(jù)點,并且葉子節(jié)點之間不存在相互重疊的關(guān)??系,集合戶中的任意不確定數(shù)據(jù)點;^也只能被映射在唯一的葉子節(jié)點中。??根節(jié)點—??子節(jié)點?|?| ̄子節(jié)點??I???1? ̄???b'?b2?節(jié)點?子節(jié)點?? ̄ ̄ ̄?丨子士點|?|子“點?|子結(jié)點??1?I?1??^4?^5?^6?b-y?bfi?be)??圖2.?3分層次劃分索引的生成樹示例??Fig.?2.3?Example?of?a?spanning?tree?that?divides?the?index?hierarchically??首先,本小節(jié)中給出了不確定數(shù)據(jù)集中分層劃分索引的構(gòu)建方法。然后,給出了具??體示例進(jìn)行說明?偨Y(jié)起來,本文設(shè)計的分層次劃分索引結(jié)構(gòu)在數(shù)據(jù)過濾方面具有兩大??優(yōu)勢:一、可以使得相對稀疏的數(shù)據(jù)點被索引到匕旦的劃分子塊中,因??此容易確定劃分子塊內(nèi)的數(shù)據(jù)點是否為離群點;二、可以使得相對較為密集的數(shù)據(jù)點被??索引到匕腳n>M旦以Mr的劃分子塊中,因此,容易確定這種劃分子塊內(nèi)的數(shù)據(jù)點是??否為非離群點。同時,對比傳統(tǒng)索引結(jié)構(gòu),本文采
【參考文獻(xiàn)】:
期刊論文
[1]基于多種支撐點的度量空間離群檢測算法[J]. 許紅龍,唐頌,毛睿,沈婧,劉剛,陳國良. 計算機學(xué)報. 2017(12)
[2]BOD:一種高效的分布式離群點檢測算法[J]. 王習(xí)特,申德榮,白梅,聶鐵錚,寇月,于戈. 計算機學(xué)報. 2016(01)
[3]基于距離的不確定離群點檢測[J]. 于浩,王斌,肖剛,楊曉春. 計算機研究與發(fā)展. 2010(03)
[4]不確定性數(shù)據(jù)管理技術(shù)研究綜述[J]. 周傲英,金澈清,王國仁,李建中. 計算機學(xué)報. 2009(01)
本文編號:3621636
【文章來源】:大連海事大學(xué)遼寧省211工程院校
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.?1不確定數(shù)據(jù)集中的離群點示例??Fig.?2.1?Example?of?outliers?in?uncertain?data?sets??
1??罄???馨??0.9-???PU?魯%:?K?¥??〇?8?-?尸丨5?b,?p\9?/>???0.7?????A?xí)鴧ⅲ??^?/?7?W?A?P2\p2i?Plf??-t?A??b2?P'、P、',h*?bv??〇.4???丨?蠡??? ̄代7;??0?:-?[?Z?^??0J'#????????0丨,??/,!????凡?hi?h3?*?b4??〇?0.1?0.2?0.3?0.4?0.5?0.6?0.7?0.8?0.9?I卡唯??圖2.?2分層次劃分索引構(gòu)建的示例??Fig.?2.2?Example?of?hierarchically?indexed?build??表2.?4圖2.?2中數(shù)據(jù)點的概率信息??Tab.?2.4?Probability?information?of?data?points?in?Figure?2.2??不確定數(shù)據(jù)點?存在概率?不確定數(shù)據(jù)點?存在概率?不確定數(shù)據(jù)點?存在概率??劃分子塊6!?劃分子塊h?劃分子塊A3??Pi?0.9?pi?0.8?p6?0.9??Pa?0.7?pi?0.4?ps?0.3??劃分子塊仏?劃分子塊h?劃分子塊66??P35?0.7?/?30?0.8?P9?0.6??P33,?0.7?/?3i?0.7?p\〇?0.6??P32?0.6?P29?0.7?尸11?0.4??/?34?0.3?/?27?0.6?P%?0.3??P28?0.1?pi?0.3??劃分子塊67?劃分子塊心?劃分子塊心??P]2?0.9?P24?0.6?p'
?不確定數(shù)據(jù)集中離群點檢測技術(shù)的研究???續(xù)表2.4??不確定數(shù)據(jù)點?存在概率?不確定數(shù)據(jù)點?存在概率?不確定數(shù)據(jù)點?存在概率??劃分子塊67?劃分子塊如?劃分子塊如??pi4?0.7?pa?0.5?p2〇?0.7??f>15?0.7?P25?0.4?P16?0.4??pi6?0.3?/>i7?0.3??具體地,圖2.3是圖2.2的索引生成樹。從圖2.3中可以看出劃分索引樹的葉子節(jié)點??中包含了不確定數(shù)據(jù)集合P中的所有數(shù)據(jù)點,并且葉子節(jié)點之間不存在相互重疊的關(guān)??系,集合戶中的任意不確定數(shù)據(jù)點;^也只能被映射在唯一的葉子節(jié)點中。??根節(jié)點—??子節(jié)點?|?| ̄子節(jié)點??I???1? ̄???b'?b2?節(jié)點?子節(jié)點?? ̄ ̄ ̄?丨子士點|?|子“點?|子結(jié)點??1?I?1??^4?^5?^6?b-y?bfi?be)??圖2.?3分層次劃分索引的生成樹示例??Fig.?2.3?Example?of?a?spanning?tree?that?divides?the?index?hierarchically??首先,本小節(jié)中給出了不確定數(shù)據(jù)集中分層劃分索引的構(gòu)建方法。然后,給出了具??體示例進(jìn)行說明?偨Y(jié)起來,本文設(shè)計的分層次劃分索引結(jié)構(gòu)在數(shù)據(jù)過濾方面具有兩大??優(yōu)勢:一、可以使得相對稀疏的數(shù)據(jù)點被索引到匕旦的劃分子塊中,因??此容易確定劃分子塊內(nèi)的數(shù)據(jù)點是否為離群點;二、可以使得相對較為密集的數(shù)據(jù)點被??索引到匕腳n>M旦以Mr的劃分子塊中,因此,容易確定這種劃分子塊內(nèi)的數(shù)據(jù)點是??否為非離群點。同時,對比傳統(tǒng)索引結(jié)構(gòu),本文采
【參考文獻(xiàn)】:
期刊論文
[1]基于多種支撐點的度量空間離群檢測算法[J]. 許紅龍,唐頌,毛睿,沈婧,劉剛,陳國良. 計算機學(xué)報. 2017(12)
[2]BOD:一種高效的分布式離群點檢測算法[J]. 王習(xí)特,申德榮,白梅,聶鐵錚,寇月,于戈. 計算機學(xué)報. 2016(01)
[3]基于距離的不確定離群點檢測[J]. 于浩,王斌,肖剛,楊曉春. 計算機研究與發(fā)展. 2010(03)
[4]不確定性數(shù)據(jù)管理技術(shù)研究綜述[J]. 周傲英,金澈清,王國仁,李建中. 計算機學(xué)報. 2009(01)
本文編號:3621636
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3621636.html
最近更新
教材專著