一類改進(jìn)DBSCAN算法及在金融中的應(yīng)用
發(fā)布時(shí)間:2021-04-02 20:24
提出了一類具有自適應(yīng)參數(shù)的改進(jìn)DBSCAN聚類算法,并應(yīng)用于發(fā)現(xiàn)證券市場(chǎng)中關(guān)聯(lián)基金賬戶所組成的信息群落.算法針對(duì)傳統(tǒng)算法中半徑參數(shù)ε敏感度高,對(duì)于多層密度數(shù)據(jù)集難以選擇全局參數(shù)而導(dǎo)致聚類結(jié)果差等缺點(diǎn)進(jìn)行了改進(jìn),此外還基于實(shí)際市場(chǎng)數(shù)據(jù)特征,自定義了刻畫兩個(gè)基金間相似程度的綜合距離,使得改進(jìn)算法能更好地應(yīng)用在解決實(shí)際問(wèn)題上.最后通過(guò)基于模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)的數(shù)值實(shí)驗(yàn),驗(yàn)證了改進(jìn)算法的有效性.
【文章來(lái)源】:高校應(yīng)用數(shù)學(xué)學(xué)報(bào)A輯. 2020,35(02)北大核心
【文章頁(yè)數(shù)】:12 頁(yè)
【部分圖文】:
OPTICS聚類(左:數(shù)據(jù)集;右:山谷圖)
為了反映針對(duì)ε的改進(jìn)算法2在多密度數(shù)據(jù)集合中的聚類效果,構(gòu)造了如圖2所示的二維數(shù)據(jù)點(diǎn)集合.該數(shù)據(jù)集含有三個(gè)類,包括一個(gè)高密度類C1(“+”),一個(gè)中密度類C2(“?”)以及一個(gè)低密度的環(huán)狀結(jié)構(gòu)類C3(“”),此外包含了a,b和c三個(gè)噪聲點(diǎn)(“·”).對(duì)于DBSCAN傳統(tǒng)算法與改進(jìn)算法,統(tǒng)一取M=4,分別取ε=εc=0.5,0.8進(jìn)行聚類.聚類結(jié)果見(jiàn)圖3和圖4.
實(shí)驗(yàn)結(jié)果圖中,“+”代表第一類中的數(shù)據(jù)點(diǎn),“?”代表第二類中的數(shù)據(jù)點(diǎn),“”代表第三類中的數(shù)據(jù)點(diǎn),“·”代表噪聲點(diǎn).如圖3所示,ε=0.5時(shí)傳統(tǒng)算法成功識(shí)別了三類,沒(méi)能識(shí)別出離群噪聲點(diǎn)c,并將其歸為C2類.如圖4所示,ε=0.8時(shí)傳統(tǒng)算法將C1和C3以及噪聲點(diǎn)a都?xì)w入了同一類同時(shí)噪聲點(diǎn)c也被歸入了C2類.但兩種情況改進(jìn)算法都正確進(jìn)行了聚類,同時(shí)發(fā)現(xiàn)不同εc并沒(méi)有導(dǎo)致聚類結(jié)果的改變,可見(jiàn)改進(jìn)算法對(duì)于輸入?yún)?shù)的依賴性不大.此外,改進(jìn)算法得到的類標(biāo)簽(符號(hào))正好對(duì)應(yīng)從大到小排列的類密度.這有助于更全面地了解數(shù)據(jù)集的分布性質(zhì).圖4 ε=εc=0.8時(shí)的聚類結(jié)果(左:傳統(tǒng)算法;右:改進(jìn)算法)
【參考文獻(xiàn)】:
期刊論文
[1]DBSCAN算法中參數(shù)的自適應(yīng)確定[J]. 李宗林,羅可. 計(jì)算機(jī)工程與應(yīng)用. 2016(03)
[2]SA-DBSCAN:一種自適應(yīng)基于密度聚類算法[J]. 夏魯寧,荊繼武. 中國(guó)科學(xué)院研究生院學(xué)報(bào). 2009(04)
本文編號(hào):3115902
【文章來(lái)源】:高校應(yīng)用數(shù)學(xué)學(xué)報(bào)A輯. 2020,35(02)北大核心
【文章頁(yè)數(shù)】:12 頁(yè)
【部分圖文】:
OPTICS聚類(左:數(shù)據(jù)集;右:山谷圖)
為了反映針對(duì)ε的改進(jìn)算法2在多密度數(shù)據(jù)集合中的聚類效果,構(gòu)造了如圖2所示的二維數(shù)據(jù)點(diǎn)集合.該數(shù)據(jù)集含有三個(gè)類,包括一個(gè)高密度類C1(“+”),一個(gè)中密度類C2(“?”)以及一個(gè)低密度的環(huán)狀結(jié)構(gòu)類C3(“”),此外包含了a,b和c三個(gè)噪聲點(diǎn)(“·”).對(duì)于DBSCAN傳統(tǒng)算法與改進(jìn)算法,統(tǒng)一取M=4,分別取ε=εc=0.5,0.8進(jìn)行聚類.聚類結(jié)果見(jiàn)圖3和圖4.
實(shí)驗(yàn)結(jié)果圖中,“+”代表第一類中的數(shù)據(jù)點(diǎn),“?”代表第二類中的數(shù)據(jù)點(diǎn),“”代表第三類中的數(shù)據(jù)點(diǎn),“·”代表噪聲點(diǎn).如圖3所示,ε=0.5時(shí)傳統(tǒng)算法成功識(shí)別了三類,沒(méi)能識(shí)別出離群噪聲點(diǎn)c,并將其歸為C2類.如圖4所示,ε=0.8時(shí)傳統(tǒng)算法將C1和C3以及噪聲點(diǎn)a都?xì)w入了同一類同時(shí)噪聲點(diǎn)c也被歸入了C2類.但兩種情況改進(jìn)算法都正確進(jìn)行了聚類,同時(shí)發(fā)現(xiàn)不同εc并沒(méi)有導(dǎo)致聚類結(jié)果的改變,可見(jiàn)改進(jìn)算法對(duì)于輸入?yún)?shù)的依賴性不大.此外,改進(jìn)算法得到的類標(biāo)簽(符號(hào))正好對(duì)應(yīng)從大到小排列的類密度.這有助于更全面地了解數(shù)據(jù)集的分布性質(zhì).圖4 ε=εc=0.8時(shí)的聚類結(jié)果(左:傳統(tǒng)算法;右:改進(jìn)算法)
【參考文獻(xiàn)】:
期刊論文
[1]DBSCAN算法中參數(shù)的自適應(yīng)確定[J]. 李宗林,羅可. 計(jì)算機(jī)工程與應(yīng)用. 2016(03)
[2]SA-DBSCAN:一種自適應(yīng)基于密度聚類算法[J]. 夏魯寧,荊繼武. 中國(guó)科學(xué)院研究生院學(xué)報(bào). 2009(04)
本文編號(hào):3115902
本文鏈接:http://sikaile.net/jingjilunwen/jinrongzhengquanlunwen/3115902.html
最近更新
教材專著