面向不確定數(shù)據(jù)的最近鄰分類方法研究
本文關(guān)鍵詞:面向不確定數(shù)據(jù)的最近鄰分類方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:數(shù)據(jù)分類是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的基本任務(wù),已經(jīng)在眾多應(yīng)用領(lǐng)域里取得了巨大進(jìn)步。分類的目的是:分析輸入數(shù)據(jù),通過在訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來的特性,為每一個(gè)類找到一種準(zhǔn)確的描述或者模型。這種描述常常用謂詞表示。由此生成的類描述用來對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類。盡管這些測(cè)試數(shù)據(jù)的類標(biāo)簽是未知的,我們?nèi)钥梢杂纱祟A(yù)測(cè)這些新數(shù)據(jù)所屬的類。注意是預(yù)測(cè),而不能肯定。傳統(tǒng)分類技術(shù)通常用于處理具有確定的特征向量值的數(shù)據(jù),數(shù)據(jù)的不確定性在學(xué)習(xí)問題辨析上被忽略了。然而必須指出由于數(shù)據(jù)可能包含錯(cuò)誤或者只有部分被存儲(chǔ),所以在真實(shí)數(shù)據(jù)上有很多方面會(huì)產(chǎn)生數(shù)據(jù)的不確定性。如何高效的處理帶有誤差的不確定性數(shù)據(jù)依然是數(shù)據(jù)挖掘領(lǐng)域里的一項(xiàng)挑戰(zhàn)。雖然傳統(tǒng)的數(shù)據(jù)分類算法往往都假定采集到的數(shù)據(jù)是精確的,不存在任何誤差,但是,在大部分的應(yīng)用領(lǐng)域中,時(shí)常有采集樣本自身存在誤差,儀器的精度誤差情況或是出于保護(hù)隱私的原因需要對(duì)采集的數(shù)據(jù)進(jìn)行某些干預(yù),從而影響數(shù)據(jù)自身是不確定的。因此,不確定性數(shù)據(jù)的特征值就不是某個(gè)單一的值,而是存在于某個(gè)區(qū)間內(nèi),并且服從某個(gè)概率分布。目前已經(jīng)可以擴(kuò)展某些傳統(tǒng)的經(jīng)典分類算法,比如決策樹,支持向量機(jī)等,用來處理不確定性數(shù)據(jù)。然而本文在處理不確定性數(shù)據(jù)分類的問題時(shí),鑒于傳統(tǒng)的分類方法在處理不確定性數(shù)據(jù)時(shí)可能返回一個(gè)概率接近于零的類,即可能無法保證返回類的質(zhì)量,因此基于將最近鄰規(guī)則擴(kuò)展到處理不確定性數(shù)據(jù)的情況是可行的前提下,提出了不確定性最近鄰規(guī)則。不確定性最近鄰規(guī)則依賴于最近鄰的類的概念而不是最近鄰的對(duì)象。測(cè)試對(duì)象的最近鄰類是取可以滿足它最近鄰類中的最大概率值的類。實(shí)驗(yàn)證明前者的概念要比后者在處理不確定性數(shù)據(jù)問題上更有利。設(shè)計(jì)一個(gè)用來對(duì)測(cè)試對(duì)象進(jìn)行分類的有效的最近鄰分類算法。給出的實(shí)驗(yàn)結(jié)果,表明不確定最近鄰規(guī)則是有效的和高效的分類不確定性數(shù)據(jù)方法。
【關(guān)鍵詞】:最近鄰規(guī)則 最近鄰類 不確定性數(shù)據(jù)
【學(xué)位授予單位】:遼寧師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13;TP181
【目錄】:
- 摘要3-4
- Abstract4-8
- 第一章 緒論8-14
- 1.1 背景和意義8-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-12
- 1.3 本文的貢獻(xiàn)12-13
- 1.4 本文組織結(jié)構(gòu)13-14
- 第二章 不確定性數(shù)據(jù)分類內(nèi)容14-19
- 2.1 不確定性數(shù)據(jù)模型14-16
- 2.2 決策樹模型16
- 2.3 支持向量機(jī)16-18
- 2.4 k-近鄰規(guī)則18-19
- 第三章 不確定最近鄰分類規(guī)則19-23
- 3.1 描述不確定對(duì)象和不確定分類19
- 3.2 最近鄰分類規(guī)則處理不確定對(duì)象19-20
- 3.3 描述最可能的類20
- 3.4 不確定的最近鄰規(guī)則20-23
- 第四章 不確定最近鄰分類算法23-33
- 4.1 預(yù)備工作23
- 4.2 計(jì)算最近鄰類的相關(guān)屬性23-25
- 4.3 計(jì)算最近鄰類概率25-28
- 4.3.1 概率pi(R) 的計(jì)算25-26
- 4.3.2 類距離概率計(jì)算26-27
- 4.3.3 計(jì)算類的概率27-28
- 4.4 算法描述28-29
- 4.5 實(shí)驗(yàn)結(jié)果29-33
- 4.5.1 數(shù)據(jù)集描述29-30
- 4.5.2 實(shí)驗(yàn)描述30-33
- 第五章 結(jié)語33-36
- 參考文獻(xiàn)36-40
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況40-41
- 致謝41
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 崔斌;盧陽;;基于不確定數(shù)據(jù)的查詢處理綜述[J];計(jì)算機(jī)應(yīng)用;2008年11期
2 周遜;李建中;石勝飛;;不確定數(shù)據(jù)上兩種查詢的分布式聚集算法[J];計(jì)算機(jī)研究與發(fā)展;2010年05期
3 徐雪松;;時(shí)間序列不確定數(shù)據(jù)流中異常數(shù)據(jù)檢測(cè)方法[J];電子設(shè)計(jì)工程;2011年19期
4 徐雪松;李玲娟;郭立瑋;;基于優(yōu)化策略的不確定數(shù)據(jù)流預(yù)測(cè)方法[J];計(jì)算機(jī)工程;2011年21期
5 徐雪松;沈紅紅;陶帆;胡曉璐;崔偉;;基于小波分析的不確定數(shù)據(jù)流異常數(shù)據(jù)檢測(cè)[J];軟件導(dǎo)刊;2011年11期
6 錢江波;王志杰;陳華輝;王海斌;;不確定數(shù)據(jù)流自適應(yīng)并行連接算法及應(yīng)用[J];電信科學(xué);2012年02期
7 向劍平;喬少杰;胡劍;;基于不確定數(shù)據(jù)理論的道路相關(guān)度度量方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年06期
8 曹振麗;孫瑞志;李勐;;面向不確定數(shù)據(jù)的農(nóng)產(chǎn)品追溯方法[J];農(nóng)業(yè)機(jī)械學(xué)報(bào);2013年07期
9 蔣濤;高云君;張彬;周傲英;樂光學(xué);;不確定數(shù)據(jù)查詢處理[J];電子學(xué)報(bào);2013年05期
10 王爽;楊廣明;朱志良;;基于不確定數(shù)據(jù)的頻繁項(xiàng)查詢算法[J];東北大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前7條
1 高聰;申德榮;于戈;聶鐵錚;寇月;;一種基于不確定數(shù)據(jù)的挖掘頻繁集方法[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(二)[C];2008年
2 周遜;李建中;石勝飛;;不確定數(shù)據(jù)上聚集查詢的分布式處理算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
3 王曉偉;黃九鳴;賈焰;;分布式不確定數(shù)據(jù)上的概率Skyline計(jì)算[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集A輯二[C];2010年
4 艾文凱;張剡;柏文陽;;基于用戶偏好的不確定數(shù)據(jù)閾值輪廓查詢算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
5 陸葉;王麗珍;張曉峰;;從不確定數(shù)據(jù)集中挖掘頻繁Co-location模式[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(A輯)[C];2009年
6 孫永佼;王國仁;;P2P環(huán)境中不確定數(shù)據(jù)Top-k查詢處理算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
7 張潮;李晨;王勇;張陽;;uPOSC4.5:一種針對(duì)不確定數(shù)據(jù)的PU學(xué)習(xí)決策樹算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前8條
1 陳靜玉;面向不確定數(shù)據(jù)流的聚類和模式挖掘技術(shù)研究[D];西安電子科技大學(xué);2014年
2 湯克明;不確定數(shù)據(jù)流中頻繁數(shù)據(jù)挖掘研究[D];南京航空航天大學(xué);2012年
3 梁春泉;不確定數(shù)據(jù)流分類算法研究[D];西北農(nóng)林科技大學(xué);2014年
4 高明;不確定數(shù)據(jù)的世系管理和相似性查詢[D];復(fù)旦大學(xué);2011年
5 董俊;不確定數(shù)據(jù)中數(shù)據(jù)挖掘方法的研究[D];燕山大學(xué);2012年
6 孫永佼;P2P環(huán)境下排序查詢處理和分類技術(shù)的研究[D];東北大學(xué);2012年
7 王爽;不確定數(shù)據(jù)流頻繁模式挖掘算法研究[D];東北大學(xué);2013年
8 王曉偉;基于概率數(shù)據(jù)庫的偏好查詢研究[D];國防科學(xué)技術(shù)大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 孫鳳姣;概率XML數(shù)據(jù)文檔的分發(fā)技術(shù)研究[D];大連海事大學(xué);2015年
2 李雨明;不確定數(shù)據(jù)的挖掘算法研究[D];上海交通大學(xué);2015年
3 曹慶傲;不確定性數(shù)據(jù)Top-k查詢算法與實(shí)現(xiàn)[D];貴州大學(xué);2015年
4 武婷婷;基于MapReduce的不確定查詢處理技術(shù)的研究與實(shí)現(xiàn)[D];東北大學(xué);2013年
5 李紅;不確定數(shù)據(jù)流查詢處理算法的研究[D];黑龍江大學(xué);2015年
6 甘果;基于不確定數(shù)據(jù)的范圍查詢算法的研究與實(shí)現(xiàn)[D];東北大學(xué);2014年
7 張昕;基于分布式極限學(xué)習(xí)機(jī)的不確定數(shù)據(jù)流分類技術(shù)的研究與實(shí)現(xiàn)[D];東北大學(xué);2014年
8 劉斌;基于聚集約束條件的不確定數(shù)據(jù)清洗與Top-k查詢[D];國防科學(xué)技術(shù)大學(xué);2013年
9 林佳麗;基于密度的不確定數(shù)據(jù)離群點(diǎn)檢測(cè)研究[D];重慶大學(xué);2015年
10 郎泓鈺;面向不確定數(shù)據(jù)的最近鄰分類方法研究[D];遼寧師范大學(xué);2015年
本文關(guān)鍵詞:面向不確定數(shù)據(jù)的最近鄰分類方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):258574
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/258574.html