不完備信息系統(tǒng)的增量式知識(shí)約簡算法研究
第一章 緒論
1.1 研究背景與意義
全球每天幾十億人使用計(jì)算機(jī)、GPS 設(shè)備、電話和醫(yī)療設(shè)備,產(chǎn)生海量的數(shù)據(jù)信息。為了長遠(yuǎn)發(fā)展,企業(yè)紛紛建立自身獨(dú)有的數(shù)據(jù)庫,以期為自身長遠(yuǎn)發(fā)展提供決策支持,如何從這些海量數(shù)據(jù)中挖掘出對(duì)企業(yè)長遠(yuǎn)發(fā)展有益的信息成為當(dāng)前重要的研究課題。然而,數(shù)據(jù)中往往存在著大量毫無價(jià)值的信息,且難于通過主觀的經(jīng)驗(yàn)去甄別,這不僅會(huì)造成資源的浪費(fèi),最重要的是會(huì)干擾企業(yè)的發(fā)展決策。研究還發(fā)現(xiàn):絕大多數(shù)擁有海量數(shù)據(jù)庫的企業(yè),數(shù)據(jù)和信息的有效利用率僅為 7%,大量的知識(shí)資源得不到有效利用。與此同時(shí),由于各種原因,經(jīng)常會(huì)出現(xiàn)數(shù)據(jù)缺損的情況,例如:數(shù)據(jù)輸入時(shí)人為疏漏、數(shù)據(jù)傳輸堵塞、機(jī)器故障等,都會(huì)造成數(shù)據(jù)不完整。如此龐大、復(fù)雜、不完整的數(shù)據(jù)面前,人工分析已經(jīng)無能無力,寶貴的信息無法得到充分的利用,知識(shí)發(fā)現(xiàn)技術(shù)應(yīng)運(yùn)而生。知識(shí)發(fā)現(xiàn)[1-2]是挖掘數(shù)據(jù)庫中數(shù)據(jù)或?qū)傩蚤g一個(gè)代數(shù)關(guān)系,通過存在的關(guān)系建立數(shù)學(xué)模型以提取有用的信息提供給用戶,方便用戶在信息正確的情況下處理“縮減”后的數(shù)據(jù)信息。因此如何應(yīng)對(duì)數(shù)據(jù)缺失、提取海量數(shù)據(jù)中有效的數(shù)據(jù)已經(jīng)成為數(shù)據(jù)分析的熱點(diǎn)課題。
...............
1.2 粗糙集在完備信息系統(tǒng)中的研究現(xiàn)狀
粗糙集理論提出至今,經(jīng)過 30 多年的研究發(fā)展,已經(jīng)成為非常有效的數(shù)據(jù)分析與處理工具。粗糙集在發(fā)表之初并未受到太多關(guān)注,直到 1990 年前后才逐漸受到廣泛的重視。尤其進(jìn)入 21 世紀(jì)以來,該理論在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、決策支持等方面的廣泛、成功的應(yīng)用使它成為諸多領(lǐng)域的研究熱點(diǎn)之一。作為粗糙集理論核心研究內(nèi)容之一的屬性約簡,約簡結(jié)果通常并不唯一。 Wang 等人[6]在研究的過程中已經(jīng)證實(shí)求解所有屬性約簡和最小約簡是 NP-hard 問題。據(jù)此,在屬性約簡中啟發(fā)式的方法被廣泛應(yīng)用。常用的啟發(fā)式算法有基于信息熵的方法[7-9]、基于差別矩陣[10,11]的方法和基于正區(qū)域[12,13]的方法。
...............
第二章 信息系統(tǒng)中的基本概念
2.1 知識(shí)與分類
知識(shí)是人類通過實(shí)踐認(rèn)識(shí)到的客觀世界的規(guī)律性的東西,是人類實(shí)踐經(jīng)驗(yàn)的總結(jié)和升華,具有抽象性和普遍性。定義 2.1[39](知識(shí)) 設(shè) U 是非空的有限實(shí)例的集合,稱為論域。論域中任何一個(gè)子集 X U,稱為論域 U 的一個(gè)概念。論域 U 中任何子類族稱為關(guān)于 U的知識(shí)。在粗糙集理論中通常用不可分辨關(guān)系來表示分類及知識(shí)。而從數(shù)學(xué)和數(shù)據(jù)在計(jì)算機(jī)中的表示形式的角度來看,關(guān)系在計(jì)算機(jī)中的表示和處理比分類的表示和處理更容易、簡單,所以,我們就用等價(jià)關(guān)系或關(guān)系來表示知識(shí)及分類。在實(shí)際生活中,我們處理的數(shù)據(jù)在論域 U 上并不僅僅只是單一的劃分,而是論域 U 上的多個(gè)或一族劃分。從而,我們就有了信息庫的相關(guān)概念。
...............
2.2 上、下近似集及正區(qū)域
定義 2.5[39](上、下近似集)給定信息庫 S (U ,A,V,f),U 為論域,集合 X U和 U 論域上的一個(gè)不可分辨關(guān)系 R IND(S),定義兩個(gè)子集:R( X){x|(xU)([x]X)}{Y|(YU/R)(YX)}R 2.2)R( X) {x|( x U) ([x]X )} {Y|( Y U/R) (YX )}R (2.3)分別稱之為 X 關(guān)于 R 的下近似集、上近似集。 R (X)稱為 X 關(guān)于知識(shí) R的下近似,表示U 中確定劃分到集合 X 的對(duì)象組成的集合,,等價(jià)關(guān)系中屬于集合 X 的所有子集Yi的并集。R (X)稱為 X 關(guān)于知識(shí)R 的上近似,表示論域U 中有確定和可能被劃分到集合 X 的實(shí)例組成的集合,關(guān)系中與集合 X 的交集不為空的所有子集 Yi的并集。
...............
第三章 不完備決策表的數(shù)據(jù)補(bǔ)齊................13
3.1 引言................13
3.2 模糊加權(quán)相似性度量.................13
第四章 基于數(shù)據(jù)補(bǔ)齊的不完備決策表增量式屬性約簡................20
4.1 引言...............20
4.2 補(bǔ)齊后的決策表化簡算法.................20
第五章 基于限制容差關(guān)系的不完備決策表增量式屬性約簡................29
5.1 引言...............29
5.2 擴(kuò)展模型分析................30
第五章 基于限制容差關(guān)系的不完備決策表增量式屬性約簡
5.1 引言
當(dāng)前數(shù)據(jù)普遍存在數(shù)據(jù)不完備、動(dòng)態(tài)增長這兩個(gè)特性,針對(duì)數(shù)據(jù)不完備性,解決的辦法多集中在數(shù)據(jù)補(bǔ)齊和拓展粗糙集模型上,這兩種思路是當(dāng)前不完備數(shù)據(jù)的研究基礎(chǔ)。同時(shí),數(shù)據(jù)動(dòng)態(tài)增長的特性導(dǎo)致建立的原信息系統(tǒng)的結(jié)論可能不再有效,需要對(duì)這些結(jié)論動(dòng)態(tài)更新。據(jù)此,針對(duì)不完備增量式數(shù)據(jù)的知識(shí)發(fā)現(xiàn),之前的章節(jié)提出了一種基于模糊加權(quán)的粗糙集數(shù)據(jù)補(bǔ)齊方法,補(bǔ)齊后的數(shù)據(jù)可以較方便的利用現(xiàn)有的針對(duì)完備數(shù)據(jù)所取得的研究成果,在此基礎(chǔ)上,分析研究現(xiàn)有的針對(duì)補(bǔ)齊后決策表的增量式屬性約簡算法,在簡化決策表的基礎(chǔ)上提出一種綜合差別矩陣和正區(qū)域兩種思想的增量式屬性約簡算法,在原決策表約簡結(jié)果的基礎(chǔ)上,該算法能快速更新數(shù)據(jù)動(dòng)態(tài)變化后的決策表屬性約簡結(jié)果,同時(shí)保證約簡結(jié)果不再包含冗余屬性。
...............
5.2 擴(kuò)展模型分析
經(jīng)典粗糙集理論通過等價(jià)關(guān)系對(duì)對(duì)象進(jìn)行分類和處理,然而實(shí)際數(shù)據(jù)中大量存在著不完備現(xiàn)象,當(dāng)利用經(jīng)典粗糙集理論對(duì)這些數(shù)據(jù)進(jìn)行處理時(shí),將會(huì)出現(xiàn)由于不完備數(shù)據(jù)無法滿足等價(jià)關(guān)系致使經(jīng)典粗糙集束手無策的現(xiàn)象。為解決等價(jià)關(guān)系劃分不完備信息系統(tǒng)過于苛刻的問題,目前已提出多種粗糙擴(kuò)展集模型,本節(jié)分析比較基于容差關(guān)系、非對(duì)稱相似關(guān)系、量化相本文編號(hào):582943
本文鏈接:http://sikaile.net/wenshubaike/kjzx/582943.html