一種基于k近鄰圖的稀有類檢測算法
本文關(guān)鍵詞:一種基于k近鄰圖的稀有類檢測算法
更多相關(guān)文章: 稀有類檢測 k鄰近圖 數(shù)據(jù)分布 變化系數(shù) 入度
【摘要】:稀有類檢測的目標(biāo)是為無類別標(biāo)簽的數(shù)據(jù)集中的每個類,特別是僅含少量數(shù)據(jù)樣本的稀有類,尋找到至少一個數(shù)據(jù)樣本以證明數(shù)據(jù)集中存在這些類.該技術(shù)在金融欺詐檢測及網(wǎng)絡(luò)入侵檢測等現(xiàn)實問題中具有廣泛的應(yīng)用場景.但是,現(xiàn)有的稀有類檢測算法往往存在以下問題:(1)時間復(fù)雜度比較高;或(2)對原始數(shù)據(jù)集需要一定的先驗知識,如數(shù)據(jù)集中各類數(shù)據(jù)樣本所占比例等.提出了一種基于k鄰近圖的無先驗快速稀有類檢測算法KRED,通過利用稀有類數(shù)據(jù)樣本在小范圍內(nèi)緊密分布所造成的與周邊數(shù)據(jù)分布的不一致性來定位稀有類.為此,KRED將給定數(shù)據(jù)集轉(zhuǎn)化為k鄰近圖,并計算圖中各頂點入度和邊長的變化.最后,將以上變化最大的頂點對應(yīng)的數(shù)據(jù)樣本作為稀有類的候選樣本.實驗結(jié)果表明:KRED有效提高了發(fā)現(xiàn)數(shù)據(jù)集中各個類的效率,明顯縮短了算法運行所需時間.
【作者單位】: 武漢大學(xué)計算機學(xué)院;武漢大學(xué)中南醫(yī)院;武漢大學(xué)國際軟件學(xué)院;
【關(guān)鍵詞】: 稀有類檢測 k鄰近圖 數(shù)據(jù)分布 變化系數(shù) 入度
【基金】:國家自然科學(xué)基金(61502347,61272275,61202033,61070013,U1135005) 中央高校基本科研業(yè)務(wù)費專項資金(2042015kf0038) 武漢大學(xué)人才計劃/引進人才科研啟動經(jīng)費~~
【分類號】:TP301.6
【正文快照】: 稀有類檢測旨在發(fā)現(xiàn)無類別標(biāo)簽數(shù)據(jù)集中存在哪些類,特別是哪些稀有類.這是因為這些稀有類雖然數(shù)據(jù)樣本較少,但往往比占據(jù)數(shù)據(jù)集數(shù)據(jù)樣本絕大多數(shù)的主要類更具有現(xiàn)實意義,更值得被進一步研究[1].例如:在海量金融交易記錄中,有時隱藏著少量利用金融系統(tǒng)的漏洞或采取欺詐手段進行
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 袁茵;;數(shù)據(jù)分布服務(wù)推動了注重數(shù)據(jù)的系統(tǒng)發(fā)展[J];電子技術(shù);2006年11期
2 夏軍;龐征斌;張峻;李永進;;一種基于0-1整數(shù)規(guī)劃的全局?jǐn)?shù)據(jù)分布優(yōu)化方法[J];國防科技大學(xué)學(xué)報;2009年04期
3 鄭勝;郝毫毫;;基于貝努利大數(shù)定律的數(shù)據(jù)分布算法[J];計算機工程;2009年19期
4 丁瑩;幾種數(shù)據(jù)分布設(shè)計方法的比較與進一步探討[J];計算機時代;1994年04期
5 丁瑩;幾種數(shù)據(jù)分布設(shè)計方法的探討[J];微型電腦應(yīng)用;1994年04期
6 武繼剛,,龐淑萍;堆上的數(shù)據(jù)分布與堆選擇算法[J];計算技術(shù)與自動化;1995年04期
7 陳楠;分布式數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)分布策略分析[J];計算機時代;1998年10期
8 錢旭明;;數(shù)據(jù)分布規(guī)劃的數(shù)學(xué)模型[J];寧波大學(xué)學(xué)報(理工版);1992年02期
9 王于同;一種以負(fù)載平衡為目標(biāo)的分布式數(shù)據(jù)分布算法[J];杭州電子工業(yè)學(xué)院學(xué)報;1995年02期
10 王秀坤,吳月堂,張盛;一種有效的數(shù)據(jù)分布算法[J];計算機工程與應(yīng)用;2000年12期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 胥永康;岳筱玲;潘澤友;;基于數(shù)據(jù)分布的勞動力市場信息系統(tǒng)[A];第六屆全國計算機應(yīng)用聯(lián)合學(xué)術(shù)會議論文集[C];2002年
2 李宏;;港口企業(yè)信息系統(tǒng)數(shù)據(jù)分布技術(shù)[A];全國飛機與船舶通信導(dǎo)航學(xué)術(shù)研討會論文集(下)[C];2000年
3 陳楠;;分布式數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)分布策略研究[A];信息科學(xué)與微電子技術(shù):中國科協(xié)第三屆青年學(xué)術(shù)年會論文集[C];1998年
4 王e
本文編號:950289
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/950289.html