分類型矩陣數(shù)據(jù)的孤立點(diǎn)檢測(cè)算法研究
發(fā)布時(shí)間:2021-11-28 06:57
孤立點(diǎn)檢測(cè)是數(shù)據(jù)挖掘中的一個(gè)重要問(wèn)題,旨在發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中的有用的異常對(duì)象和異常模式,并已廣泛應(yīng)用于信用卡欺詐檢測(cè)、網(wǎng)絡(luò)監(jiān)測(cè)、電子商務(wù)、故障檢測(cè)、惡劣天氣預(yù)報(bào)和衛(wèi)生系統(tǒng)監(jiān)測(cè)等領(lǐng)域。現(xiàn)有的孤立點(diǎn)檢測(cè)算法輸入的數(shù)據(jù)集是包含9)個(gè)對(duì)象的集合且每個(gè)對(duì)象對(duì)應(yīng)一條記錄,但是在實(shí)際應(yīng)用中,一個(gè)對(duì)象通常對(duì)應(yīng)多條記錄,本文中稱包含多條記錄的對(duì)象為矩陣對(duì)象,包含矩陣對(duì)象的數(shù)據(jù)集為矩陣數(shù)據(jù)集。目前,還沒(méi)有有效的算法可以檢測(cè)矩陣數(shù)據(jù)集中的孤立點(diǎn),如果使用現(xiàn)有的孤立點(diǎn)檢測(cè)算法來(lái)處理矩陣數(shù)據(jù),最直接的方法是壓縮和轉(zhuǎn)換數(shù)據(jù),但是,在數(shù)據(jù)壓縮和轉(zhuǎn)換的過(guò)程中通常會(huì)有大量信息被丟失,不足以完全反映用戶的真實(shí)行為。因此,本文針對(duì)分類型矩陣數(shù)據(jù)集中的孤立點(diǎn)檢測(cè)進(jìn)行了深入細(xì)致的研究和探討,主要工作如下:(1)由于矩陣數(shù)據(jù)集中的對(duì)象包含多條記錄,所以可以把每個(gè)矩陣對(duì)象看作一個(gè)小數(shù)據(jù)集,通過(guò)給出一種矩陣對(duì)象自身的內(nèi)聚度和該矩陣對(duì)象與其他矩陣對(duì)象之間的耦合度,定義矩陣對(duì)象的孤立因子,提出了一種基于信息熵的孤立點(diǎn)檢測(cè)算法。(2)數(shù)據(jù)屬性之間通常有復(fù)雜的相互作用,所以還需要考慮屬性間相互作用對(duì)矩陣數(shù)據(jù)集孤立點(diǎn)檢測(cè)的影響。因此在計(jì)算...
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
二維數(shù)據(jù)集中的孤立點(diǎn)
人類心電圖中的集合異常
圖 3.1 預(yù)處理后的 Market basket 數(shù)據(jù)集分布生成的數(shù)據(jù)集用'+'和'*'表示,符號(hào)'+'表示的對(duì)到這些符號(hào)'+'表示的對(duì)象屬性值出現(xiàn)頻率很低 data
本文編號(hào):3523939
【文章來(lái)源】:山西大學(xué)山西省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
二維數(shù)據(jù)集中的孤立點(diǎn)
人類心電圖中的集合異常
圖 3.1 預(yù)處理后的 Market basket 數(shù)據(jù)集分布生成的數(shù)據(jù)集用'+'和'*'表示,符號(hào)'+'表示的對(duì)到這些符號(hào)'+'表示的對(duì)象屬性值出現(xiàn)頻率很低 data
本文編號(hào):3523939
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3523939.html
最近更新
教材專著