分類(lèi)規(guī)則挖掘在金融中的應(yīng)用
本文關(guān)鍵詞:分類(lèi)規(guī)則挖掘在金融中的應(yīng)用,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著金融業(yè)務(wù)的發(fā)展,業(yè)務(wù)變化越來(lái)越頻繁,僅依賴業(yè)務(wù)專(zhuān)家總結(jié)業(yè)務(wù)規(guī)則的速度已經(jīng)難以跟上業(yè)務(wù)變化的速度,采用數(shù)據(jù)挖掘的方法輔助業(yè)務(wù)規(guī)則快速發(fā)現(xiàn)和驗(yàn)證具有重要的實(shí)際應(yīng)用價(jià)值。本文以一個(gè)大型銀行對(duì)賬系統(tǒng)的規(guī)則挖掘?yàn)楸尘?系統(tǒng)研究了分類(lèi)規(guī)則挖掘的方法,提出了分類(lèi)規(guī)則挖掘的方案。首先,本文介紹了本項(xiàng)目的背景和需求,闡述了將金融規(guī)則挖掘轉(zhuǎn)換為分類(lèi)規(guī)則挖掘的過(guò)程。介紹了金融規(guī)則挖掘中數(shù)據(jù)平衡和非平衡,有分類(lèi)標(biāo)簽和無(wú)分類(lèi)標(biāo)簽四種場(chǎng)景。然后,本文研究了基于決策樹(shù)的分類(lèi)規(guī)則挖掘方法。針對(duì)有分類(lèi)標(biāo)簽的非平衡數(shù)據(jù)集,本文提出了基于KNN的樣本選擇與決策樹(shù)算法相結(jié)合的分類(lèi)規(guī)則挖掘方法。該方法通過(guò)找到與分類(lèi)最相關(guān)的正樣本,有針對(duì)性地對(duì)正樣本采樣,達(dá)到數(shù)據(jù)平衡化的效果。通過(guò)實(shí)驗(yàn)對(duì)比證明對(duì)非平衡數(shù)據(jù)集,該方法比一般的決策樹(shù)算法提煉出的分類(lèi)規(guī)則更簡(jiǎn)潔,更符合真實(shí)情況。最后,論文針對(duì)無(wú)分類(lèi)標(biāo)簽的平衡數(shù)據(jù)集和非平衡數(shù)據(jù)集,分別提出了基于聚類(lèi)的分類(lèi)規(guī)則挖掘方法和基于LOF算法的分類(lèi)規(guī)則挖掘方法,通過(guò)人-機(jī)協(xié)作的多迭代過(guò)程,使得在取得較高規(guī)則準(zhǔn)確度的前提下,大大減少人工標(biāo)注數(shù)據(jù)的工作量。通過(guò)實(shí)驗(yàn)對(duì)比證明對(duì)平衡數(shù)據(jù)集,基于聚類(lèi)的分類(lèi)規(guī)則挖掘方法收斂速度更快,在保證規(guī)則準(zhǔn)確度的前提下標(biāo)注的數(shù)據(jù)更少;對(duì)非平衡數(shù)據(jù)集,基于LOF算法的分類(lèi)規(guī)則挖掘方法收斂速度更快,在保證規(guī)則準(zhǔn)確度的前提下標(biāo)注的數(shù)據(jù)更少。
【關(guān)鍵詞】:分類(lèi)規(guī)則挖掘 決策樹(shù) 聚類(lèi) LOF 離群點(diǎn)檢測(cè)
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP311.13
【目錄】:
- 摘要4-5
- Abstract5-12
- 第1章 緒論12-16
- 1.1 研究背景及意義12-13
- 1.2 規(guī)則挖掘的研究現(xiàn)狀13-14
- 1.3 本文主要內(nèi)容14
- 1.4 論文組織結(jié)構(gòu)14-16
- 第2章 規(guī)則挖掘綜述16-28
- 2.1 規(guī)則挖掘的方法16-23
- 2.1.1 關(guān)聯(lián)規(guī)則挖掘算法16-18
- 2.1.2 分類(lèi)規(guī)則挖掘算法18-23
- 2.1.2.1 決策樹(shù)算法18-20
- 2.1.2.2 貝葉斯分類(lèi)20-22
- 2.1.2.3 神經(jīng)網(wǎng)絡(luò)22-23
- 2.2 規(guī)則挖掘相關(guān)技術(shù)23-27
- 2.2.1 離群點(diǎn)檢測(cè)技術(shù)23-26
- 2.2.2 數(shù)據(jù)預(yù)處理技術(shù)26
- 2.2.3 降維技術(shù)26-27
- 2.3 本章小結(jié)27-28
- 第3章 金融對(duì)賬問(wèn)題的定義與轉(zhuǎn)換28-40
- 3.1 項(xiàng)目背景和需求28-30
- 3.2 問(wèn)題的轉(zhuǎn)換30-32
- 3.3 數(shù)據(jù)預(yù)處理32-34
- 3.3.1 數(shù)據(jù)清洗32
- 3.3.2 數(shù)據(jù)集成32-33
- 3.3.3 數(shù)據(jù)轉(zhuǎn)換33-34
- 3.4 特征選擇34-37
- 3.4.1 遺傳算法34-36
- 3.4.2 人機(jī)交互的迭代方式36-37
- 3.5 距離定義37-38
- 3.6 金融規(guī)則挖掘的不同場(chǎng)景38-39
- 3.7 本章小結(jié)39-40
- 第4章 監(jiān)督的分類(lèi)規(guī)則挖掘40-63
- 4.1 基于決策樹(shù)的規(guī)則挖掘40-44
- 4.1.1 決策樹(shù)的構(gòu)建步驟40-43
- 4.1.2 優(yōu)缺點(diǎn)分析43-44
- 4.2 非平衡數(shù)據(jù)集的規(guī)則挖掘44-50
- 4.2.1 數(shù)據(jù)非平衡對(duì)規(guī)則挖掘的影響44-45
- 4.2.2 非平衡問(wèn)題的解決方法45-46
- 4.2.3 基于KNN的樣本選擇46-48
- 4.2.4 非平衡數(shù)據(jù)規(guī)則挖掘系統(tǒng)方案48-50
- 4.3 結(jié)果的評(píng)價(jià)指標(biāo)50-51
- 4.4 實(shí)驗(yàn)設(shè)計(jì)51-62
- 4.4.1 實(shí)驗(yàn)數(shù)據(jù)來(lái)源51-53
- 4.4.2 非平衡數(shù)據(jù)集對(duì)比實(shí)驗(yàn)53-58
- 4.4.2.1 一般的決策樹(shù)算法53-54
- 4.4.2.2 隨機(jī)欠采樣方法54-55
- 4.4.2.3 隨機(jī)過(guò)采樣方法55-56
- 4.4.2.4 基于KNN的樣本選擇方法56-57
- 4.4.2.5 實(shí)驗(yàn)對(duì)比57-58
- 4.4.3 平衡數(shù)據(jù)集對(duì)比實(shí)驗(yàn)58-61
- 4.4.3.1 一般的決策樹(shù)算法58-59
- 4.4.3.2 基于KNN的樣本選擇方法59-61
- 4.4.4 實(shí)驗(yàn)總結(jié)61-62
- 4.5 本章小結(jié)62-63
- 第5章 非監(jiān)督的分類(lèi)規(guī)則挖掘63-86
- 5.1 基于聚類(lèi)的規(guī)則挖掘63-68
- 5.1.1 基于聚類(lèi)的規(guī)則挖掘介紹63-64
- 5.1.2 K-Modes算法介紹64-66
- 5.1.3 基于聚類(lèi)的規(guī)則挖掘整體框架66-67
- 5.1.4 優(yōu)缺點(diǎn)分析67-68
- 5.2 基于LOF算法的規(guī)則挖掘68-77
- 5.2.1 LOF算法介紹68-71
- 5.2.2 結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)71-72
- 5.2.3 改進(jìn)的LOF算法72-74
- 5.2.4 基于LOF算法的規(guī)則挖掘整體框架74-76
- 5.2.5 優(yōu)缺點(diǎn)分析76-77
- 5.3 實(shí)驗(yàn)設(shè)計(jì)77-84
- 5.3.1 LOF算法實(shí)驗(yàn)結(jié)果77-79
- 5.3.2 非平衡數(shù)據(jù)集對(duì)比實(shí)驗(yàn)79-81
- 5.3.3 平衡數(shù)據(jù)集對(duì)比實(shí)驗(yàn)81-84
- 5.3.4 實(shí)驗(yàn)總結(jié)84
- 5.4 本章小結(jié)84-86
- 第6章 總結(jié)與展望86-88
- 6.1 論文總結(jié)86
- 6.2 對(duì)未來(lái)研究的展望86-88
- 參考文獻(xiàn)88-90
- 攻讀碩士學(xué)位期間主要的研究成果90-91
- 致謝91
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 蔡虹;葉水生;張永;;一種基于粗糙-模糊集理論的分類(lèi)規(guī)則挖掘方法[J];計(jì)算機(jī)工程與應(yīng)用;2006年02期
2 賈彥平;付立東;;基于蟻群算法的分類(lèi)規(guī)則問(wèn)題[J];電子技術(shù);2008年09期
3 冀英偉;楊海峰;張繼福;;一種基于謂詞邏輯的分類(lèi)規(guī)則約簡(jiǎn)方法[J];太原科技大學(xué)學(xué)報(bào);2010年01期
4 劉復(fù)巖,呂韶義;發(fā)現(xiàn)分類(lèi)規(guī)則知識(shí)的一種算法[J];計(jì)算機(jī)工程與應(yīng)用;2002年13期
5 龍際珍;趙歡;;基于一種混合算法的分類(lèi)規(guī)則挖掘[J];湘潭大學(xué)自然科學(xué)學(xué)報(bào);2006年01期
6 彭慧伶;劉發(fā)升;;關(guān)聯(lián)規(guī)則挖掘與分類(lèi)規(guī)則挖掘的區(qū)別和聯(lián)系[J];電子工程師;2006年07期
7 彭慧伶;劉發(fā)升;;關(guān)聯(lián)規(guī)則挖掘與分類(lèi)規(guī)則挖掘的比較研究[J];計(jì)算機(jī)與現(xiàn)代化;2006年07期
8 彭慧伶;劉發(fā)升;李玉鵬;;一種基于關(guān)聯(lián)規(guī)則挖掘的分類(lèi)規(guī)則挖掘算法[J];微計(jì)算機(jī)信息;2006年33期
9 胡學(xué)鋼;陳慧;張玉紅;馬馮;;基于分布式概念格的分類(lèi)規(guī)則挖掘[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
10 葛斌;孟祥瑞;;內(nèi)涵縮減與分類(lèi)規(guī)則求解[J];科技導(dǎo)報(bào);2009年15期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前5條
1 張玉紅;胡學(xué)鋼;劉曉平;;基于分類(lèi)子格融合的概念格分布式分類(lèi)方法[A];2007年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2007年
2 趙傳申;楊明;孫志揮;;基于概念格的分布多庫(kù)規(guī)則發(fā)現(xiàn)[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
3 王奇珍;湯志鋼;胡學(xué)鋼;簡(jiǎn)宋全;;基于相對(duì)約簡(jiǎn)格的分類(lèi)規(guī)則挖掘[A];全國(guó)第十四屆計(jì)算機(jī)科學(xué)及其在儀器儀表中的應(yīng)用學(xué)術(shù)交流會(huì)論文集[C];2001年
4 頓毅杰;張小峰;張永;;基于不可分辨關(guān)系的分類(lèi)規(guī)則算法[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
5 胡立華;張繼福;張素蘭;;基于概念格的分類(lèi)規(guī)則提取算法及其應(yīng)用[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 余遠(yuǎn);基于形式概念分析分類(lèi)規(guī)則挖掘的關(guān)鍵問(wèn)題研究[D];中國(guó)礦業(yè)大學(xué)(北京);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳超;工業(yè)用泵的狀態(tài)監(jiān)測(cè)與故障診斷方法研究[D];華北電力大學(xué);2015年
2 吳旖雯;分類(lèi)規(guī)則挖掘在金融中的應(yīng)用[D];浙江大學(xué);2016年
3 楊海峰;粗糙概念格及分類(lèi)規(guī)則挖掘方法研究[D];太原科技大學(xué);2007年
4 宛敏田;基于概念格的分類(lèi)規(guī)則提取研究[D];合肥工業(yè)大學(xué);2003年
5 冀英偉;基于謂詞邏輯和包含集的分類(lèi)規(guī)則約簡(jiǎn)算法[D];太原科技大學(xué);2009年
6 唐競(jìng)勝;基于形式概念分析的類(lèi)無(wú)冗余關(guān)聯(lián)分類(lèi)規(guī)則提取研究[D];中央民族大學(xué);2011年
7 張磊;基于混合遺傳算法的分類(lèi)規(guī)則挖掘方法及其并行實(shí)現(xiàn)[D];重慶大學(xué);2004年
8 王志春;基于進(jìn)化算法的分類(lèi)規(guī)則挖掘研究[D];天津大學(xué);2010年
9 趙雷;基于遺傳算法的分類(lèi)規(guī)則挖掘研究[D];福州大學(xué);2004年
10 陳慧;基于概念格的多數(shù)據(jù)源中分類(lèi)規(guī)則挖掘研究[D];合肥工業(yè)大學(xué);2006年
本文關(guān)鍵詞:分類(lèi)規(guī)則挖掘在金融中的應(yīng)用,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):279230
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/279230.html