天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于集成概率信息的異常點(diǎn)檢測研究

發(fā)布時(shí)間:2021-03-23 07:49
  在大多數(shù)機(jī)器學(xué)習(xí)算法中,我們通常假設(shè)訓(xùn)練集和測試集具有相同的類標(biāo)簽集,這些類標(biāo)簽集被事先定義,這樣得到的分類模型才會有良好的泛化能力。但在實(shí)際應(yīng)用中,經(jīng)常存在一些與正常數(shù)據(jù)(在訓(xùn)練集中的數(shù)據(jù))的分布不一致的數(shù)據(jù),這些不屬于被事先定義好的類標(biāo)簽集中的任何一個類別的數(shù)據(jù)就是異常點(diǎn)。這些數(shù)據(jù)可能具有特殊的含義,然而,人們往往會忽視這些數(shù)據(jù)。在某些場合,它們或許比其他正常數(shù)據(jù)包含更有價(jià)值的信息。如何找出這些行為很不同于預(yù)期對象,發(fā)現(xiàn)其中的規(guī)律并對異常情況作出決策和判斷是數(shù)據(jù)挖掘領(lǐng)域所研究的重點(diǎn)之一。傳統(tǒng)的異常點(diǎn)檢測方法已經(jīng)趨于成熟,但是還存在難以突破的瓶頸和局限性。針對部分局限性,本文提出了兩種新穎的不同于傳統(tǒng)的基于集成概率信息的異常點(diǎn)檢測方法,用于解決異常點(diǎn)檢測問題。主要內(nèi)容概括如下:(1)首先提出了一種有效的基于集成概率均值的異常點(diǎn)檢測方法——Ensemble mean Probability Value for Novelty Detection(EPVND)。該方法提供了一個可以刻畫不同類的度量并利用這個度量作為基準(zhǔn)來檢測異常點(diǎn)。首先由訓(xùn)練數(shù)據(jù)構(gòu)建一個集成系統(tǒng),這個集成系統(tǒng)由n個不同個... 

【文章來源】:福建師范大學(xué)福建省

【文章頁數(shù)】:72 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于集成概率信息的異常點(diǎn)檢測研究


圖2.1區(qū)域R中的對象是異常點(diǎn)??Fig.2.1?The?objects?in?region?R?are?novelties??

示意圖,集成學(xué)習(xí),示意圖,個體學(xué)習(xí)


2.2.1集成學(xué)習(xí)??在統(tǒng)計(jì)機(jī)器學(xué)習(xí)中,集成學(xué)習(xí)[4,41]通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),???色@得比單一學(xué)習(xí)器顯著優(yōu)越的泛化(預(yù)測)性能[46]。集成學(xué)習(xí)示意圖如圖2.2??所示。集成學(xué)習(xí)先用現(xiàn)有的機(jī)器學(xué)習(xí)算法通過訓(xùn)練數(shù)據(jù)訓(xùn)練得到“個體學(xué)習(xí)器”??(individual?learner),再利用某種策略將它們結(jié)合起來。如果集成中只包含同類的??的個體學(xué)習(xí)器,例如隨機(jī)森林里只有決策樹,這樣的集成是“同質(zhì)的”??(homogeneous),如果一個集成中包含不同的個體學(xué)習(xí)器,這個集成就是“異質(zhì)??的”(heterogeneous)。最具代表的集成方式主要有?Boosting[41],Bagging[48%?Random??Forest[49]。??Boosting首先是從初始訓(xùn)練樣本中訓(xùn)練出一個個體學(xué)習(xí)器,再根據(jù)個體學(xué)習(xí)器??的表現(xiàn)對訓(xùn)練樣本分布作出調(diào)整,使得先前個體學(xué)習(xí)器做錯的訓(xùn)練樣本在后續(xù)受到??更多的關(guān)注,然后基于調(diào)整后的樣本分布來訓(xùn)練下一個個體學(xué)習(xí)器;如此反復(fù),直??到學(xué)習(xí)器數(shù)目達(dá)到事先指定的數(shù)目。??Bagging使用給定數(shù)據(jù)集£>創(chuàng)建A個訓(xùn)練集

人工數(shù)據(jù),數(shù)據(jù)集


人工數(shù)據(jù)集:我們通過程序生成2個人工數(shù)據(jù)集——Datal和Data2.兩個數(shù)據(jù)集??的大致信息在表3.1中呈現(xiàn)。Datal是由兩維正態(tài)分布的五個類構(gòu)成,且Data2是由??兩維正態(tài)分布的6個類構(gòu)成。圖3.1分別展示了?Datal和Data2的分布情況。紅色??十字代表正常類,藍(lán)色十字代表異常類。從圖3.1中,可以看出Datal中的異常數(shù)??據(jù)點(diǎn)和正常數(shù)據(jù)點(diǎn)非常接近,而Data2中的異常數(shù)據(jù)點(diǎn)遠(yuǎn)離正常數(shù)據(jù)點(diǎn)。??UCI數(shù)據(jù)集:我們選擇了?UCI中的四個數(shù)據(jù)集:Zoo,?Wine,Balance,Segments。??四個數(shù)據(jù)集的具體細(xì)節(jié)在表3.2中列出。??Minist數(shù)據(jù)集:數(shù)字手寫Minist數(shù)據(jù)集包含6000個樣本組成的訓(xùn)練集和10000??個樣本組成的測試集。Minist數(shù)據(jù)集的具體細(xì)節(jié)在表3.2中展示。??表3.3列出了人臉數(shù)據(jù)集的細(xì)節(jié)。在這個工作中,我們使用ORL人臉數(shù)據(jù)集和??AR數(shù)據(jù)集。它們通常被用于評估人臉識別算法。ORL人臉數(shù)據(jù)集總共由40個人的??400張人臉圖片所組成。每個人都有10張不同的圖片并且每個圖片的尺寸是92*112??像素,這將形成一個10304維的特征空間。AR人臉數(shù)據(jù)是由126個不同的前視人??臉圖像組成。每個人在不同的光照條件和不同的人臉表情下拍攝的,一些圖片有部??分遮掩(墨鏡或者毛巾)。每一個圖像的人臉部分都被手工裁剪到尺寸為100*80.??在我們的試驗(yàn)中,我們使用了兩個子集——AR1和AR2。AR1包括五個人的人臉圖??像


本文編號:3095445

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3095445.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a4492***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com