基于連續(xù)屬性離散化的屬性偏序理論的知識(shí)發(fā)現(xiàn)
本文選題:屬性偏序理論 + 連續(xù)屬性 ; 參考:《燕山大學(xué)》2016年碩士論文
【摘要】:計(jì)算機(jī)技術(shù)的迅猛發(fā)展和數(shù)據(jù)庫(kù)系統(tǒng)的普遍使用,給人們提供了強(qiáng)有力的平臺(tái),去更好地利用信息技術(shù)進(jìn)行生產(chǎn),而且搜集和檢索數(shù)據(jù)的能力也有顯著提高。豐富多樣的信息感知和采集設(shè)備引領(lǐng)我們步入大數(shù)據(jù)時(shí)代。然而,采用什么樣的手段和技術(shù)從海量數(shù)據(jù)中發(fā)現(xiàn)對(duì)決策非常有價(jià)值的規(guī)則和知識(shí),成為前沿科技亟需解決的關(guān)鍵問(wèn)題。數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)作為處理數(shù)據(jù)的重要手段,已然成為當(dāng)今研究的一個(gè)熱點(diǎn)問(wèn)題。但是,許多知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的算法得以進(jìn)行的先決條件就是所要處理的屬性值是離散值,而在現(xiàn)實(shí)生活中得到的數(shù)據(jù)常常是連續(xù)屬性,所以必須對(duì)連續(xù)屬性進(jìn)行離散化處理。本文通過(guò)以UCI數(shù)據(jù)集的知識(shí)發(fā)現(xiàn)和規(guī)則提取為基礎(chǔ),通過(guò)主流連續(xù)屬性離散化方法的對(duì)數(shù)據(jù)集中的多維屬性值進(jìn)行離散化處理,并且以形式概念分析理論的形式背景的可視化表達(dá)為重要手段,運(yùn)用離散化處理后的數(shù)據(jù)結(jié)果構(gòu)建二值形式背景,以形式背景分層優(yōu)化和屬性偏序結(jié)構(gòu)圖生成方法為關(guān)鍵環(huán)節(jié),生成不同數(shù)據(jù)集的屬性偏序結(jié)構(gòu)圖,進(jìn)行知識(shí)的規(guī)則提取,通過(guò)與數(shù)據(jù)集的分布特點(diǎn)及類(lèi)標(biāo)簽來(lái)比較,對(duì)離散化方案進(jìn)行評(píng)估。主要內(nèi)容如下:1)建立了基于形式背景的知識(shí)表達(dá)原理的混合數(shù)據(jù)集成框架,實(shí)現(xiàn)各種數(shù)據(jù)在一個(gè)框架下可視化表示和基于屬性偏序結(jié)構(gòu)理論實(shí)現(xiàn)的數(shù)據(jù)挖掘。2)研究了基于優(yōu)化形式背景生成偏序結(jié)構(gòu)原理的知識(shí)發(fā)現(xiàn)數(shù)學(xué)方法,生成了基于屬性覆蓋對(duì)象(或者對(duì)象覆蓋屬性)原理的數(shù)據(jù)偏序結(jié)構(gòu)圖。3)針對(duì)現(xiàn)有離散化算法在高維數(shù)據(jù)處理中的局限性,研究了一種基于非線(xiàn)性降維技術(shù)的高維數(shù)據(jù)離散化方法-改進(jìn)局部線(xiàn)性嵌入算法,實(shí)現(xiàn)基于連續(xù)屬性離散化的屬性偏序理論的知識(shí)發(fā)現(xiàn)。本文通過(guò)對(duì)UCI數(shù)據(jù)集的降維及離散化處理后,有著更高精度的知識(shí),簡(jiǎn)化了復(fù)雜的知識(shí)規(guī)則,對(duì)大數(shù)據(jù)的知識(shí)規(guī)則提取及可視化有重要意義。
[Abstract]:With the rapid development of computer technology and the widespread use of database systems, people have been provided with a powerful platform to make better use of information technology for production, and the ability to collect and retrieve data has also been significantly improved. Rich and diverse information perception and acquisition equipment leading us into the era of big data. However, how to find the rules and knowledge that are very valuable to decision making from the massive data has become the key problem that needs to be solved in the frontier science and technology. As an important means of data processing, data mining and machine learning have become a hot issue. However, a prerequisite for many knowledge discovery and data mining algorithms is that the attribute values to be processed are discrete values, while in real life the data is often continuous. Therefore, continuous attributes must be discretized. Based on the knowledge discovery and rule extraction of UCI data sets, this paper discretizes the multidimensional attribute values of the data set by the mainstream continuous attribute discretization method. With the visual representation of formal background of formal conceptual analysis theory as an important means, the binary formal background is constructed by using the results of discrete data processing, and the key link is the hierarchical optimization of formal background and the method of generating attribute partial order structure diagram. The attribute partial order structure diagram of different data sets is generated and the rules of knowledge are extracted. The discretization scheme is evaluated by comparing it with the distribution characteristics and class labels of the data sets. The main contents are as follows: 1) A hybrid data integration framework based on formal background knowledge representation is established. Based on the theory of attribute partial order structure, the mathematical method of knowledge discovery based on the principle of optimizing formal background to generate partial order structure is studied, which realizes the visual representation of all kinds of data under a framework and data mining based on attribute partial order structure theory. The data partial order structure diagram based on the principle of attribute overlay object (or object overlay property) is generated. 3) in view of the limitations of existing discretization algorithms in high-dimensional data processing, An improved local linear embedding algorithm for discretization of high-dimensional data based on nonlinear dimensionality reduction technique is proposed to realize the knowledge discovery of attribute partial order theory based on continuous attribute discretization. After dimensionality reduction and discretization of UCI data sets, this paper has higher precision knowledge, simplifies complex knowledge rules, and is of great significance to big data's knowledge rule extraction and visualization.
【學(xué)位授予單位】:燕山大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP311.13;O153.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 孫英慧;孫英娟;蒲東兵;姜艷;;一種基于連續(xù)屬性離散化的知識(shí)分類(lèi)方法[J];東北師大學(xué)報(bào)(自然科學(xué)版);2012年01期
2 沈東升;一種連續(xù)屬性離散化的新算法[J];漳州師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2003年04期
3 鞏建閩,王國(guó)勝,蕭蓓蕾;保持分類(lèi)能力不變的一種連續(xù)屬性離散化方法[J];曲阜師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年01期
4 劉偉;;基于粗集的連續(xù)屬性離散化方法[J];吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期
5 桑琳;宮悅;陳斯;高連陽(yáng);徐滿(mǎn)華;;基于粗糙集的連續(xù)屬性離散化算法及其應(yīng)用[J];高師理科學(xué)刊;2008年02期
6 張文宇;;數(shù)據(jù)挖掘過(guò)程中連續(xù)屬性離散化新方法研究[J];數(shù)學(xué)的實(shí)踐與認(rèn)識(shí);2007年10期
7 謝宏,程浩忠,牛東曉;基于信息熵的粗糙集連續(xù)屬性離散化算法[J];計(jì)算機(jī)學(xué)報(bào);2005年09期
8 李剛;段隆振;孫焱平;;基于信息增益的多連續(xù)屬性離散化算法改進(jìn)[J];江西科學(xué);2009年02期
9 易韜輝;粗糙集理論的連續(xù)屬性離散化的一種方法[J];長(zhǎng)沙航空職業(yè)技術(shù)學(xué)院學(xué)報(bào);2004年01期
10 周凡程;吳孟達(dá);王丹;;基于Shadowed Sets的連續(xù)屬性離散化[J];模糊系統(tǒng)與數(shù)學(xué);2012年02期
相關(guān)會(huì)議論文 前2條
1 闕夏;胡學(xué)鋼;張玉紅;;基于區(qū)間類(lèi)信息熵的連續(xù)屬性離散化方法[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
2 田學(xué)全;;一種基于模糊關(guān)系的連續(xù)屬性離散化方法[A];第六屆中國(guó)不確定系統(tǒng)年會(huì)論文集[C];2008年
相關(guān)碩士學(xué)位論文 前10條
1 康燕茹;基于連續(xù)屬性離散化的屬性偏序理論的知識(shí)發(fā)現(xiàn)[D];燕山大學(xué);2016年
2 劉磊;連續(xù)屬性離散化相關(guān)研究及應(yīng)用[D];遼寧師范大學(xué);2008年
3 姜國(guó)強(qiáng);基于最近鄰聚類(lèi)的連續(xù)屬性離散化算法研究[D];鄭州大學(xué);2009年
4 桑雨;粗糙集連續(xù)屬性離散化方法研究[D];遼寧師范大學(xué);2008年
5 闕夏;連續(xù)屬性離散化方法研究[D];合肥工業(yè)大學(xué);2006年
6 林汀輝;連續(xù)屬性離散化方法的研究及其在入侵檢測(cè)中的應(yīng)用[D];廈門(mén)大學(xué);2009年
7 李慧;基于粗糙集理論的連續(xù)屬性離散化算法研究[D];遼寧師范大學(xué);2010年
8 李真;多值數(shù)據(jù)轉(zhuǎn)換成單值定性符號(hào)的數(shù)學(xué)方法研究[D];燕山大學(xué);2012年
9 岳海亮;信息論在粗糙集連續(xù)屬性離散化中的應(yīng)用[D];遼寧師范大學(xué);2010年
10 孔祥明;基于變精度粗糙集的連續(xù)屬性離散化方法及數(shù)據(jù)預(yù)處理方法[D];東北師范大學(xué);2006年
,本文編號(hào):1826695
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1826695.html