基于隨機抽樣的模糊粗糙約簡
本文關(guān)鍵詞: 模糊粗糙集 隨機抽樣 屬性約簡 統(tǒng)計粗糙集 出處:《軟件學(xué)報》2017年11期 論文類型:期刊論文
【摘要】:傳統(tǒng)的屬性約簡由于其時間復(fù)雜度和空間復(fù)雜度過高,幾乎無法應(yīng)用到大規(guī)模的數(shù)據(jù)集中.將隨機抽樣引入傳統(tǒng)的模糊粗糙集中,使得屬性約簡的效率大幅度提升.首先,在統(tǒng)計下近似的基礎(chǔ)上提出一種統(tǒng)計屬性約簡的定義.這里的約簡不是原有意義上的約簡,而是保持基于統(tǒng)計下近似定義的統(tǒng)計辨識度不變的屬性子集.然后,采用抽樣的方法計算統(tǒng)計辨識度的樣本估計值,基于此估計值可以對統(tǒng)計屬性重要性進行排序,從而可以設(shè)計一種快速的適用于大規(guī)模數(shù)據(jù)的序約簡算法.由于隨機抽樣集以及統(tǒng)計近似概念的引入,該算法從時間和空間上均降低了約簡的計算復(fù)雜度,同時又保持了數(shù)據(jù)集中信息含量幾乎不變.最后,數(shù)值實驗將基于隨機抽樣的序約簡算法和兩種傳統(tǒng)的屬性約簡算法從以下3個方面進行了對比:計算屬性約簡時間消耗、計算屬性約簡空間消耗、約簡效果.對比實驗驗證了基于隨機抽樣的序約簡算法在時間與空間上的優(yōu)勢.
[Abstract]:Traditional attribute reduction can hardly be applied to large-scale data sets because of its high complexity in time and space. Random sampling is introduced into the traditional fuzzy rough sets. The efficiency of attribute reduction is greatly improved. First of all, on the basis of statistical approximation, a definition of statistical attribute reduction is proposed. The reduction here is not the original sense of reduction. It is a subset of attributes that keep the statistical identification degree invariant based on the approximate definition under statistics. Then, the sample estimation of statistical identification is calculated by sampling method. Based on this estimate, the importance of statistical attributes can be sorted, and a fast order reduction algorithm for large-scale data can be designed, because of the introduction of random sampling set and statistical approximation concept. The algorithm reduces the computational complexity of the reduction in both time and space, while keeping the information content in the dataset almost unchanged. Finally. Numerical experiments compare the order reduction algorithm based on random sampling with two traditional attribute reduction algorithms from the following three aspects: computing attribute reduction time consumption and computing attribute reduction space consumption. The comparison experiment shows that the order reduction algorithm based on random sampling has advantages in time and space.
【作者單位】: 中國人民大學(xué)信息學(xué)院;中國人民大學(xué)數(shù)據(jù)工程與知識工程教育部重點實驗室;中國人民大學(xué)環(huán)境學(xué)院;
【分類號】:TP18
【正文快照】: 隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)挖掘技術(shù)蓬勃發(fā)展.近年來,由于不確定性數(shù)據(jù)比重的不斷增大,不確定性數(shù)據(jù)挖掘越來越受到人們的重視.在不確定數(shù)據(jù)上進行降維,如基于模糊粗糙集的屬性約簡,近幾年得到廣泛關(guān)注.但是,現(xiàn)有的模糊粗糙集約簡方法由于其基礎(chǔ)理論復(fù)雜度的桎梏,無法直接應(yīng)用
【相似文獻】
相關(guān)會議論文 前3條
1 李然;呂永江;林和;李永禮;;基于數(shù)據(jù)庫系統(tǒng)的知識約簡算法[A];2005全國自動化新技術(shù)學(xué)術(shù)交流會論文集(三)[C];2005年
2 孫茂圣;李斌;;一種分布式本體融合及冗語關(guān)系約簡算法[A];2008年全國開放式分布與并行計算機學(xué)術(shù)會議論文集(下冊)[C];2008年
3 樊艷英;徐章艷;張偉;張自敏;陳冠萍;;一種基于粗糙集理論的完備值約簡算法[A];廣西計算機學(xué)會2012年學(xué)術(shù)年會論文集[C];2012年
相關(guān)博士學(xué)位論文 前2條
1 劉遵仁;多類型屬性的鄰域粗糙模型和約簡算法的研究[D];上海大學(xué);2013年
2 金勇;數(shù)字媒體約簡算法研究[D];浙江大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 劉素軍;基于GA-PSO的粗糙集屬性的簡算法的研究[D];華中師范大學(xué);2015年
2 李然;粒計算的高效知識約簡算法與缺失數(shù)據(jù)處理[D];蘭州大學(xué);2006年
3 安爽;基于信息熵的數(shù)據(jù)約簡算法[D];東北大學(xué);2008年
4 閆電勛;粗糙集并行約簡算法研究[D];浙江師范大學(xué);2012年
5 梁泉;復(fù)雜系統(tǒng)預(yù)測中知識約簡算法及其表示的研究[D];中南林學(xué)院;2004年
6 張磊;基于粗糙熵的數(shù)據(jù)約簡算法及應(yīng)用研究[D];蘇州大學(xué);2007年
7 周彤;基于信息系統(tǒng)屬性相關(guān)性的知識約簡算法研究[D];湖南大學(xué);2012年
8 劉薇;基于Rough Sets的增量式約簡算法研究[D];山西大學(xué);2011年
9 張西情;基于熵的約簡算法在急斜頂煤可放性中的應(yīng)用[D];西安科技大學(xué);2012年
10 羅俊;粗糙集理論約簡算法及其應(yīng)用研究[D];武漢理工大學(xué);2009年
,本文編號:1453324
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/1453324.html