基于三支決策的代價敏感學(xué)習(xí)方法研究
本文關(guān)鍵詞:基于三支決策的代價敏感學(xué)習(xí)方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:數(shù)據(jù)挖掘中的一個重要模型是分類模型,傳統(tǒng)數(shù)據(jù)挖掘方法的目標(biāo)是獲得一個分類精度盡可能高的分類器。但是在實(shí)際問題中,外部環(huán)境的各種不確定因素會導(dǎo)致決策不能順利達(dá)到預(yù)期目標(biāo),進(jìn)而帶來決策風(fēng)險代價,且分類模型中的誤分類代價不盡相同,存在代價敏感性。完全避免決策失誤是難以做到的,人們所期望的是使決策風(fēng)險代價最小,而非期望利益最大化。追求決策知識與經(jīng)驗(yàn)數(shù)據(jù)的嚴(yán)格一致性容易給決策者提供錯誤的決策信息,且忽略了決策者對預(yù)期風(fēng)險的規(guī)避心理,已不適用于解決實(shí)際問題。三支決策將決策視為分類問題,與數(shù)據(jù)挖掘處理的問題模型相一致,建立了決策理論與數(shù)據(jù)挖掘方法之間的橋梁,其具有的誤差容忍與代價敏感機(jī)制可以使傳統(tǒng)的數(shù)據(jù)挖掘方法在分類中對不同代價的誤分類結(jié)果具有區(qū)分性與敏感性,以做出風(fēng)險損失最低的分類結(jié)果。針對一般的數(shù)據(jù)挖掘模型僅僅尋求分類器的精度,不能根據(jù)人們的期望處理現(xiàn)實(shí)中的決策問題,本文將三支決策用于傳統(tǒng)的數(shù)據(jù)挖掘方法中,構(gòu)建了基于三支決策的代價敏感學(xué)習(xí)方法,使傳統(tǒng)的數(shù)據(jù)挖掘方法更好地適應(yīng)具有代價敏感性的實(shí)際問題。本文主要研究內(nèi)容如下:(1)針對典型的支持向量機(jī)增量學(xué)習(xí)算法對有價值的非支持向量的忽略,以及一般的支持向量機(jī)增量學(xué)習(xí)算法盡可能提升分類精度的客觀性,利用三支決策的代價敏感性和邊界域構(gòu)建了一種新的支持向量機(jī)增量學(xué)習(xí)算法。該算法首先根據(jù)支持向量機(jī)的學(xué)習(xí)原理來度量三支決策中的條件概率;然后采用三支決策劃分出邊界域,并基于支持向量機(jī)對其與新增樣本、原支持向量的并集進(jìn)行分類;最后,通過實(shí)驗(yàn)證明,該方法不僅能夠篩選出有價值的非支持向量進(jìn)而提高分類的精確性,而且使支持向量機(jī)增量學(xué)習(xí)方法更適合于具有代價敏感性的實(shí)際問題,并使三支決策中條件概率的構(gòu)建方式更切合于具體學(xué)習(xí)環(huán)境。(2)針對現(xiàn)有的涉及k近鄰的top-n離群點(diǎn)檢測算法通常依賴于參數(shù)k,n,但用戶卻很難確定合適的參數(shù)值,基于三支決策的三支語義提出了一種基于三支決策的代價敏感離群點(diǎn)檢測方法。該方法首先采用k近鄰來度量三支決策的條件概率;其次,構(gòu)建使決策代價最小的最優(yōu)化問題來自適應(yīng)地尋找最優(yōu)條件概率;然后,采用三支決策遞歸地劃分離群點(diǎn);最后,通過實(shí)驗(yàn)證明,該方法不僅使條件概率的度量方法適用于離群點(diǎn)檢測問題,而且可以在不需要用戶參與的前提下自動地檢測離群點(diǎn)。(3)針對傳統(tǒng)數(shù)據(jù)挖掘方法對不一致數(shù)據(jù)的忽視,以及一般的決策樹算法對不一致結(jié)點(diǎn)的處理缺乏理論支撐的缺陷,根據(jù)三支決策的代價敏感性和邊界域構(gòu)建了一種新的決策樹分類方法。該方法首先采用決策樹結(jié)點(diǎn)的正例比例來度量三支決策中的條件概率,進(jìn)而三支劃分決策樹中的結(jié)點(diǎn),生成三支決策樹;然后提出三支決策樹合并剪枝規(guī)則,使之成為二支決策樹;最后,通過實(shí)驗(yàn)證明,該方法保留了數(shù)據(jù)中的不一致信息,從最小化整體風(fēng)險的角度來劃分不一致結(jié)點(diǎn),不僅生成了具有代價敏感性的決策樹,而且使決策樹中不一致結(jié)點(diǎn)的判別更具可解釋性,并使三支決策條件概率的度量方法適用于決策樹學(xué)習(xí)問題。
【關(guān)鍵詞】:三支決策 數(shù)據(jù)挖掘 代價敏感學(xué)習(xí) 決策風(fēng)險最小化
【學(xué)位授予單位】:河南師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP18;TP311.13
【目錄】:
- 摘要4-6
- ABSTRACT6-10
- 第一章 緒論10-16
- 1.1 研究背景及意義10-11
- 1.2 三支決策理論及其研究現(xiàn)狀11-12
- 1.3 數(shù)據(jù)挖掘代價敏感學(xué)習(xí)國內(nèi)外研究現(xiàn)狀12-13
- 1.4 論文研究內(nèi)容與結(jié)構(gòu)安排13-16
- 1.4.1 主要研究內(nèi)容13-14
- 1.4.2 結(jié)構(gòu)安排14-16
- 第二章 三支決策、數(shù)據(jù)挖掘基礎(chǔ)知識16-26
- 2.1 決策粗糙集理論16-22
- 2.1.1 Pawlak代數(shù)粗糙集模型16-17
- 2.1.2 基于最小風(fēng)險的Bayes決策17-19
- 2.1.3 決策粗糙集模型19-22
- 2.2 基于決策粗糙集的三支決策語義22-23
- 2.3 數(shù)據(jù)挖掘相關(guān)理論23-25
- 2.3.1 支持向量機(jī)增量學(xué)習(xí)23-24
- 2.3.2 ID3決策樹學(xué)習(xí)算法24-25
- 2.3.3 離群點(diǎn)檢測方法25
- 2.4 本章小結(jié)25-26
- 第三章 基于三支決策的代價敏感支持向量機(jī)增量學(xué)習(xí)方法26-36
- 3.1 引言26
- 3.2 基于支持向量機(jī)的三支決策條件概率的構(gòu)建26-29
- 3.2.1 SVM線性模式下的三支決策條件概率構(gòu)建27
- 3.2.2 SVM非線性可分模式下的三支決策條件概率構(gòu)建27-29
- 3.3 基于三支決策的支持向量機(jī)邊界向量構(gòu)建29-30
- 3.4 基于三支決策的代價敏感支持向量機(jī)增量學(xué)習(xí)算法30-31
- 3.4.1 算法30-31
- 3.4.2 算法時間復(fù)雜度分析31
- 3.5 實(shí)驗(yàn)分析31-34
- 3.6 本章小結(jié)34-36
- 第四章 基于三支決策的代價敏感離群點(diǎn)檢測方法36-52
- 4.1 引言36-38
- 4.2 基于離群點(diǎn)檢測的三支決策條件概率的構(gòu)建38-39
- 4.3 最優(yōu)條件概率的計(jì)算39-42
- 4.4 基于三支決策的代價敏感離群點(diǎn)檢測算法42-44
- 4.5 實(shí)驗(yàn)分析44-50
- 4.6 本章小結(jié)50-52
- 第五章 基于三支決策的代價敏感決策樹學(xué)習(xí)方法52-62
- 5.1 引言52-53
- 5.2 代價敏感三支決策樹的構(gòu)建53-55
- 5.2.1 決策樹結(jié)點(diǎn)的三支決策條件概率構(gòu)建54
- 5.2.2 代價敏感三支決策樹構(gòu)建算法54-55
- 5.3 代價敏感三支決策樹合并剪枝算法55-56
- 5.4 實(shí)驗(yàn)分析56-60
- 5.5 本章小結(jié)60-62
- 第六章 結(jié)論62-64
- 6.1 工作總結(jié)62-63
- 6.2 今后研究構(gòu)想63-64
- 參考文獻(xiàn)64-69
- 致謝69-70
- 攻讀學(xué)位期間的科研成果70-71
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 薛安榮;姚林;鞠時光;陳偉鶴;馬漢達(dá);;離群點(diǎn)挖掘方法綜述[J];計(jì)算機(jī)科學(xué);2008年11期
2 李存華;;l_∞度量意義下的離群點(diǎn)檢測[J];淮海工學(xué)院學(xué)報(自然科學(xué)版);2008年02期
3 李昕;顏學(xué)峰;;融合離群點(diǎn)判別的穩(wěn)態(tài)檢測方法及其應(yīng)用[J];華東理工大學(xué)學(xué)報(自然科學(xué)版);2009年01期
4 封海岳;薛安榮;;基于重疊模塊度的社區(qū)離群點(diǎn)檢測[J];計(jì)算機(jī)應(yīng)用與軟件;2013年05期
5 王柏鈞,王力勤;《穩(wěn)健回歸與離群點(diǎn)檢測》介紹[J];成都?xì)庀髮W(xué)院學(xué)報;1989年04期
6 黃添強(qiáng);秦小麟;葉飛躍;;基于方形鄰域的離群點(diǎn)查找新方法[J];控制與決策;2006年05期
7 熊君麗;;高維空間下基于密度的離群點(diǎn)探測算法實(shí)現(xiàn)[J];現(xiàn)代電子技術(shù);2006年15期
8 黃添強(qiáng);秦小麟;王欽敏;;空間離群點(diǎn)的模型與跳躍取樣查找算法[J];中國圖象圖形學(xué)報;2006年09期
9 陳光平;葉東毅;;一種改進(jìn)的離群點(diǎn)檢測方法[J];福州大學(xué)學(xué)報(自然科學(xué)版);2007年03期
10 薛安榮;鞠時光;;基于空間約束的離群點(diǎn)挖掘[J];計(jì)算機(jī)科學(xué);2007年06期
中國重要會議論文全文數(shù)據(jù)庫 前9條
1 張鋒;常會友;;茫然第三方支持的隱私保持離群點(diǎn)探測協(xié)議[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年
2 連鳳娜;吳錦林;薛永生;;一種改進(jìn)的基于距離的離群挖掘算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2007年
3 梁雪琴;劉紅生;代秀梅;周亞芬;;聚類離群點(diǎn)挖掘技術(shù)在內(nèi)部審計(jì)信息化中的應(yīng)用——一個來自商業(yè)銀行信用卡審計(jì)的實(shí)例[A];全國內(nèi)部審計(jì)理論研討優(yōu)秀論文集(2013)[C];2014年
4 于浩;王斌;肖剛;楊曉春;;基于距離的不確定離群點(diǎn)檢測[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(A輯)[C];2009年
5 許龍飛;熊君麗;段敏;;基于粗糙集的高維空間離群點(diǎn)發(fā)現(xiàn)算法研究[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2003年
6 劉文遠(yuǎn);李振平;王寶文;裴繼輝;;一種多維數(shù)據(jù)的離群點(diǎn)檢測算法[A];2007年全國第十一屆企業(yè)信息化與工業(yè)工程學(xué)術(shù)會議論文集[C];2007年
7 魏藜;錢衛(wèi)寧;周傲英;;HOT:尋找高維空間中的離群點(diǎn)[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年
8 周紅福;錢衛(wèi)寧;魏藜;周傲英;;EDOLOIS:高效準(zhǔn)確的子空間局部離群點(diǎn)發(fā)現(xiàn)[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2003年
9 魏藜;錢衛(wèi)寧;周傲英;;SLOT:基于估計(jì)的高效子空間局部離群點(diǎn)發(fā)現(xiàn)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 Chitrakar Roshan;[D];武漢大學(xué);2015年
2 劉莘;基于時空分析的CCS泄漏預(yù)警關(guān)鍵技術(shù)研究[D];中國礦業(yè)大學(xué);2016年
3 楊鵬;離群檢測及其優(yōu)化算法研究[D];重慶大學(xué);2010年
4 林海;離群檢測及離群釋義空間查找算法研究[D];重慶大學(xué);2012年
5 薛安榮;空間離群點(diǎn)挖掘技術(shù)的研究[D];江蘇大學(xué);2008年
6 楊茂林;離群檢測算法研究[D];華中科技大學(xué);2012年
7 金義富;高維稀疏離群數(shù)據(jù)集延伸知識發(fā)現(xiàn)研究[D];重慶大學(xué);2007年
8 雷大江;離群檢測與離群釋義算法研究[D];重慶大學(xué);2012年
9 萬家強(qiáng);基于連通性的離群檢測與聚類研究[D];重慶大學(xué);2014年
10 唐向紅;數(shù)據(jù)流離群點(diǎn)檢測研究[D];華中科技大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 韓紅霞;基于距離離群點(diǎn)的分析與研究[D];江蘇大學(xué);2007年
2 黃馨玉;基于鄰域重心變化的離群點(diǎn)檢測算法研究[D];遼寧大學(xué);2015年
3 程百球;基于EP模式的離群點(diǎn)發(fā)現(xiàn)[D];安慶師范學(xué)院;2015年
4 秦浩;基于密度的局部離群點(diǎn)挖掘及在入侵檢測中應(yīng)用研究[D];大連海事大學(xué);2016年
5 王春鵬;基于離群點(diǎn)檢測的在線軟測量方法研究[D];中國石油大學(xué)(華東);2014年
6 張友強(qiáng);基于選擇性集成學(xué)習(xí)的離群點(diǎn)檢測研究[D];青島科技大學(xué);2016年
7 王美晶;基于PSO算法的離群點(diǎn)檢測方法研究[D];福州大學(xué);2013年
8 關(guān)皓文;基于離群點(diǎn)檢測方法的醫(yī)保異常發(fā)現(xiàn)[D];山東大學(xué);2016年
9 朱杰;基于帶時間約束頻繁路徑的離群軌跡檢測[D];蘇州大學(xué);2016年
10 馬菲;局部離群點(diǎn)檢測算法的研究[D];淮北師范大學(xué);2016年
本文關(guān)鍵詞:基于三支決策的代價敏感學(xué)習(xí)方法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:411863
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/411863.html