異常點(diǎn)挖掘及證券行業(yè)應(yīng)用實(shí)例研究
發(fā)布時(shí)間:2020-06-12 06:15
【摘要】:在數(shù)據(jù)挖掘研究領(lǐng)域,異常點(diǎn)挖掘一直是學(xué)者和研究人員關(guān)注的熱點(diǎn)問(wèn)題,從一開(kāi)始作為聚類(lèi)分析的副產(chǎn)品,發(fā)展到各類(lèi)挖掘算法層出不窮,已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)獨(dú)立且重要的命題。隨著金融、保險(xiǎn)和電信行業(yè)對(duì)風(fēng)險(xiǎn)管理的要求加大,異常點(diǎn)挖掘在風(fēng)險(xiǎn)監(jiān)測(cè)方面的優(yōu)勢(shì)得到了極大的發(fā)揮。另一方面,,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展、計(jì)算機(jī)計(jì)算能力的提高,異常點(diǎn)挖掘和其他數(shù)據(jù)挖掘技術(shù)一樣得到了充分的發(fā)展。 以往對(duì)異常點(diǎn)挖掘的研究都是以挖掘算法作為對(duì)象,以數(shù)理統(tǒng)計(jì)、集合論、離散數(shù)學(xué)和計(jì)算機(jī)科學(xué)等手段進(jìn)行研究,往往忽略了如何運(yùn)用異常點(diǎn)挖掘,并與實(shí)際問(wèn)題結(jié)合這一問(wèn)題。隨著異常點(diǎn)挖掘不斷用于風(fēng)險(xiǎn)探測(cè),如何把異常點(diǎn)挖掘的理論和實(shí)際的行業(yè)背景結(jié)合,成為了一個(gè)重要的課題。 本文首先簡(jiǎn)單回顧已有的數(shù)據(jù)挖掘生命周期模型以及異常點(diǎn)基本概念和挖掘算法。對(duì)國(guó)內(nèi)外的研究現(xiàn)狀作了說(shuō)明,并解釋了一些相關(guān)概念和專(zhuān)業(yè)術(shù)語(yǔ)。 然后將關(guān)注點(diǎn)放在異常點(diǎn)挖掘生命周期上,從七個(gè)方面描述了整個(gè)挖掘過(guò)程,在討論中配以一個(gè)算例作為輔助說(shuō)明。 其次本文實(shí)現(xiàn)了異常點(diǎn)挖掘最常用的兩類(lèi)基于距離的算法:DKP最近鄰算法和基于LOF密度的算法。為課題研究提供了工具和算法實(shí)現(xiàn)上的準(zhǔn)備。 最后,全文以一個(gè)實(shí)際課題為例,把前文研究?jī)?nèi)容貫穿于案例中,詳細(xì)說(shuō)明了異常點(diǎn)挖掘和證券行業(yè)結(jié)合解決客戶(hù)交易異常偵測(cè)的全過(guò)程,并對(duì)挖掘結(jié)果進(jìn)行了分析,提出相應(yīng)的建議對(duì)策。從而使論文提出的觀(guān)點(diǎn)兼具一定的理論意義和實(shí)踐價(jià)值。
【圖文】:
計(jì)算時(shí)變量(維)的選擇很難把握,往往需要反復(fù)計(jì)算、取舍、比較來(lái)得到滿(mǎn)意的變量(維)組合;根據(jù)數(shù)據(jù)范圍不同,可以識(shí)別全局異常點(diǎn)和局部異常點(diǎn),如圖2.5所示,如果說(shuō)ol是一個(gè)全局異常點(diǎn),o2可以看作是一個(gè)局部異常點(diǎn),兩者在挖掘方法上有所不同;根據(jù)數(shù)據(jù)類(lèi)型不同,又可以分為分類(lèi)型和數(shù)值型(離散型和連續(xù)型)異常點(diǎn)。盡管以上分類(lèi)不很完備,但側(cè)面反映了數(shù)據(jù)集中異常點(diǎn)類(lèi)型的多樣性,因此,有效發(fā)現(xiàn)數(shù)據(jù)集中的異常點(diǎn)并不是一件容易的工作,需要采用有效的策略和算法。
且應(yīng)該適當(dāng)?shù)陌裬的值設(shè)的大一些。上述結(jié)論從M.B~i夢(mèng)8]等人在研究LoF算法時(shí)所做的實(shí)驗(yàn)中也得到了驗(yàn)證。圖3.1表示了一個(gè)500個(gè)點(diǎn)組成的樣本數(shù)據(jù),該樣本符合高斯分布(正態(tài)分布),對(duì)其進(jìn)行基于LOF密度計(jì)算,得到的LOF值和k(圖3,1右圖中的MinPts)取值的關(guān)系圖。從圖3.1的右圖中可以看到,當(dāng)k(MinPts)<6時(shí),LOF的最大值偏離其均值很多,導(dǎo)致LOF的波動(dòng)很大
【學(xué)位授予單位】:同濟(jì)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2006
【分類(lèi)號(hào)】:F830.91;F224
本文編號(hào):2709114
【圖文】:
計(jì)算時(shí)變量(維)的選擇很難把握,往往需要反復(fù)計(jì)算、取舍、比較來(lái)得到滿(mǎn)意的變量(維)組合;根據(jù)數(shù)據(jù)范圍不同,可以識(shí)別全局異常點(diǎn)和局部異常點(diǎn),如圖2.5所示,如果說(shuō)ol是一個(gè)全局異常點(diǎn),o2可以看作是一個(gè)局部異常點(diǎn),兩者在挖掘方法上有所不同;根據(jù)數(shù)據(jù)類(lèi)型不同,又可以分為分類(lèi)型和數(shù)值型(離散型和連續(xù)型)異常點(diǎn)。盡管以上分類(lèi)不很完備,但側(cè)面反映了數(shù)據(jù)集中異常點(diǎn)類(lèi)型的多樣性,因此,有效發(fā)現(xiàn)數(shù)據(jù)集中的異常點(diǎn)并不是一件容易的工作,需要采用有效的策略和算法。
且應(yīng)該適當(dāng)?shù)陌裬的值設(shè)的大一些。上述結(jié)論從M.B~i夢(mèng)8]等人在研究LoF算法時(shí)所做的實(shí)驗(yàn)中也得到了驗(yàn)證。圖3.1表示了一個(gè)500個(gè)點(diǎn)組成的樣本數(shù)據(jù),該樣本符合高斯分布(正態(tài)分布),對(duì)其進(jìn)行基于LOF密度計(jì)算,得到的LOF值和k(圖3,1右圖中的MinPts)取值的關(guān)系圖。從圖3.1的右圖中可以看到,當(dāng)k(MinPts)<6時(shí),LOF的最大值偏離其均值很多,導(dǎo)致LOF的波動(dòng)很大
【學(xué)位授予單位】:同濟(jì)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2006
【分類(lèi)號(hào)】:F830.91;F224
【引證文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前2條
1 孔淑慧;流數(shù)據(jù)時(shí)序模式依賴(lài)挖掘在股市行情分析中的應(yīng)用[D];北京交通大學(xué);2008年
2 林翠香;基于數(shù)據(jù)挖掘的葡萄酒質(zhì)量識(shí)別[D];中南大學(xué);2010年
本文編號(hào):2709114
本文鏈接:http://sikaile.net/guanlilunwen/zhqtouz/2709114.html
最近更新
教材專(zhuān)著