密度峰值聚類算法研究及其在電力大數(shù)據(jù)異常值檢測上的應用
發(fā)布時間:2022-02-14 11:23
密度峰值聚類算法是一種基于密度的聚類算法,其密度峰值依靠密度-距離的模式進行確定,可以處理任意形狀的類簇,是一種簡單又高效的聚類算法。然而該算法仍然存在幾點缺陷:(1)截斷距離需要人工選取,缺乏一定理論依據(jù)。(2)局部密度定義的方式有一定局限性,導致當數(shù)據(jù)集中存在不同類簇間樣本疏密程度差異較大時,聚類效果差。(3)密度峰值聚類算法難以處理具有流形特征的數(shù)據(jù)集,而這種特征在真實數(shù)據(jù)集中十分常見。本文針對上述問題展開了研究,并提出了對應的改進方案:(1)針對密度峰值聚類算法處理數(shù)據(jù)時需要人為輸入截斷距離,對于不同數(shù)據(jù)集其參數(shù)也需要大量的先驗實驗來確定的缺點,提出了螢火蟲優(yōu)化的密度峰值聚類算法。算法利用密度估計熵評估數(shù)據(jù)間的確定性關系,用螢火蟲算法迭代尋優(yōu)找到熵最小時的截斷距離,將其帶入標準的密度峰值聚類算法中進行聚類。從而避免了人為設置參數(shù)的無依據(jù)性,根據(jù)不同數(shù)據(jù)集自適應的選擇參數(shù)。(2)針對密度峰值聚類算法局部密度定義存在的缺陷,提出了基于余弦核的密度峰值聚類算法。余弦核函數(shù)利用數(shù)據(jù)集的局部信息定義樣本的局部密度,可以發(fā)現(xiàn)截斷距離內(nèi)不同樣本的位置差異,同時平衡了類簇中心點和邊界點對樣本局...
【文章來源】:南昌工程學院江西省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
DPC算法聚類示例
決策圖示例
密度峰值聚類算法研究及其在電力大數(shù)據(jù)異常值檢測上的應用16兩種算法均運行10次后,選取聚類效果最好的一次。利用RI和NMI作為聚類質(zhì)量的評價標準。表3.2展示了兩種算法在合成數(shù)據(jù)集上的有效性指標比較。從表3.2可以看出,F(xiàn)ADPC算法的聚類準確性比DPC算法更加明顯、突出。在8個合成數(shù)據(jù)集中,F(xiàn)lame和Spiral數(shù)據(jù)集數(shù)據(jù)量較少,形狀分布簡單,兩種算法均得到了最好的聚類結果,其RI和NMI的值都得到了1。另外6個合成數(shù)據(jù)集上,F(xiàn)ADPC算法的RI指標均要優(yōu)于DPC算法,NMI指標也有5個優(yōu)于DPC算法。在Jain數(shù)據(jù)集上,F(xiàn)ADPC算法的效果最為顯著,其RI指標達到0.8122,NMI指標為0.5784,而DPC算法的RI和NMI只有0.5179和0.0967。在R15和D31兩個數(shù)據(jù)集上,DPC也能達到不錯的聚類效果,但FADPC聚類效果得到進一步的提升。RI指標由DPC的0.9889和0.9333提升到0.9991和0.9880,NMI指標也由0.9695和0.8202提升到了0.9942和0.9354。僅在Compound上FADPC的NMI指標為0.7971低于DPC算法的0.8136,但兩者相差不大。為進一步驗證實驗結果的準確性,圖3.1-圖3.8給出了兩種算法在8種合成數(shù)據(jù)集上的聚類效果對比圖。對于聚類所得不同類簇采用不同的顏色進行展示。表3.2合成數(shù)據(jù)集上算法有效性指標比較Table3.2ComparisonofAlgorithmValidityIndexesonSyntheticdataset數(shù)據(jù)集RINMIDPCFADPCDPCFADPCFlame1111Jain0.51790.81220.09670.5784Aggregation0.89220.94700.83540.9166Pathbased0.69200.75090.42010.5530Spiral1111Compound0.85890.90930.81360.7971R150.98890.99910.96950.9942D310.93330.98800.82020.9354(a)DPC(b)FADPC圖3.1兩種算法在Flame上的聚類結果Figure3.1ClusteringresultsoftwoalgorithmsonFlame
【參考文獻】:
期刊論文
[1]螢火蟲算法研究綜述[J]. 王暉,王文君,肖松毅. 南昌工程學院學報. 2019(04)
[2]基于K近鄰和多類合并的密度峰值聚類算法[J]. 薛小娜,高淑萍,彭弘銘,吳會會. 吉林大學學報(理學版). 2019(01)
[3]一種基于K近鄰的比較密度峰值聚類算法[J]. 杜沛,程曉榮. 計算機工程與應用. 2019(10)
[4]正弦選擇概率模型的全局最優(yōu)引導人工蜂群算法[J]. 孫輝,謝海華,趙嘉. 南昌工程學院學報. 2018(06)
[5]深度學習螢火蟲算法[J]. 趙嘉,謝智峰,呂莉,王暉,孫輝,喻祥. 電子學報. 2018(11)
[6]改進螢火蟲優(yōu)化的軟子空間聚類算法[J]. 張曦,趙嘉,李沛武,王家園,謝智峰. 南昌工程學院學報. 2018(04)
[7]基于IQPSO優(yōu)化SVM在徑流預報中的應用[J]. 李文敬,李沛武. 南昌工程學院學報. 2018(03)
[8]基于非參數(shù)核密度估計的密度峰值聚類算法[J]. 謝國偉,錢雪忠,周世兵. 計算機應用研究. 2018(10)
[9]一種基于網(wǎng)格的密度峰值聚類算法[J]. 王飛,王國胤,李智星,彭思源. 小型微型計算機系統(tǒng). 2017(05)
[10]Clustering by Fast Search and Find of Density Peaks with Data Field[J]. WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi. Chinese Journal of Electronics. 2016(03)
博士論文
[1]基于深層神經(jīng)網(wǎng)絡的語音識別聲學建模研究[D]. 周盼.中國科學技術大學 2014
[2]基于聚類分析的網(wǎng)絡用戶興趣挖掘方法研究[D]. 馬力.西安電子科技大學 2012
碩士論文
[1]聚類融合與深度學習在用電負荷模式識別的應用研究[D]. 林錦波.華南理工大學 2014
本文編號:3624460
【文章來源】:南昌工程學院江西省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
DPC算法聚類示例
決策圖示例
密度峰值聚類算法研究及其在電力大數(shù)據(jù)異常值檢測上的應用16兩種算法均運行10次后,選取聚類效果最好的一次。利用RI和NMI作為聚類質(zhì)量的評價標準。表3.2展示了兩種算法在合成數(shù)據(jù)集上的有效性指標比較。從表3.2可以看出,F(xiàn)ADPC算法的聚類準確性比DPC算法更加明顯、突出。在8個合成數(shù)據(jù)集中,F(xiàn)lame和Spiral數(shù)據(jù)集數(shù)據(jù)量較少,形狀分布簡單,兩種算法均得到了最好的聚類結果,其RI和NMI的值都得到了1。另外6個合成數(shù)據(jù)集上,F(xiàn)ADPC算法的RI指標均要優(yōu)于DPC算法,NMI指標也有5個優(yōu)于DPC算法。在Jain數(shù)據(jù)集上,F(xiàn)ADPC算法的效果最為顯著,其RI指標達到0.8122,NMI指標為0.5784,而DPC算法的RI和NMI只有0.5179和0.0967。在R15和D31兩個數(shù)據(jù)集上,DPC也能達到不錯的聚類效果,但FADPC聚類效果得到進一步的提升。RI指標由DPC的0.9889和0.9333提升到0.9991和0.9880,NMI指標也由0.9695和0.8202提升到了0.9942和0.9354。僅在Compound上FADPC的NMI指標為0.7971低于DPC算法的0.8136,但兩者相差不大。為進一步驗證實驗結果的準確性,圖3.1-圖3.8給出了兩種算法在8種合成數(shù)據(jù)集上的聚類效果對比圖。對于聚類所得不同類簇采用不同的顏色進行展示。表3.2合成數(shù)據(jù)集上算法有效性指標比較Table3.2ComparisonofAlgorithmValidityIndexesonSyntheticdataset數(shù)據(jù)集RINMIDPCFADPCDPCFADPCFlame1111Jain0.51790.81220.09670.5784Aggregation0.89220.94700.83540.9166Pathbased0.69200.75090.42010.5530Spiral1111Compound0.85890.90930.81360.7971R150.98890.99910.96950.9942D310.93330.98800.82020.9354(a)DPC(b)FADPC圖3.1兩種算法在Flame上的聚類結果Figure3.1ClusteringresultsoftwoalgorithmsonFlame
【參考文獻】:
期刊論文
[1]螢火蟲算法研究綜述[J]. 王暉,王文君,肖松毅. 南昌工程學院學報. 2019(04)
[2]基于K近鄰和多類合并的密度峰值聚類算法[J]. 薛小娜,高淑萍,彭弘銘,吳會會. 吉林大學學報(理學版). 2019(01)
[3]一種基于K近鄰的比較密度峰值聚類算法[J]. 杜沛,程曉榮. 計算機工程與應用. 2019(10)
[4]正弦選擇概率模型的全局最優(yōu)引導人工蜂群算法[J]. 孫輝,謝海華,趙嘉. 南昌工程學院學報. 2018(06)
[5]深度學習螢火蟲算法[J]. 趙嘉,謝智峰,呂莉,王暉,孫輝,喻祥. 電子學報. 2018(11)
[6]改進螢火蟲優(yōu)化的軟子空間聚類算法[J]. 張曦,趙嘉,李沛武,王家園,謝智峰. 南昌工程學院學報. 2018(04)
[7]基于IQPSO優(yōu)化SVM在徑流預報中的應用[J]. 李文敬,李沛武. 南昌工程學院學報. 2018(03)
[8]基于非參數(shù)核密度估計的密度峰值聚類算法[J]. 謝國偉,錢雪忠,周世兵. 計算機應用研究. 2018(10)
[9]一種基于網(wǎng)格的密度峰值聚類算法[J]. 王飛,王國胤,李智星,彭思源. 小型微型計算機系統(tǒng). 2017(05)
[10]Clustering by Fast Search and Find of Density Peaks with Data Field[J]. WANG Shuliang,WANG Dakui,LI Caoyuan,LI Yan,DING Gangyi. Chinese Journal of Electronics. 2016(03)
博士論文
[1]基于深層神經(jīng)網(wǎng)絡的語音識別聲學建模研究[D]. 周盼.中國科學技術大學 2014
[2]基于聚類分析的網(wǎng)絡用戶興趣挖掘方法研究[D]. 馬力.西安電子科技大學 2012
碩士論文
[1]聚類融合與深度學習在用電負荷模式識別的應用研究[D]. 林錦波.華南理工大學 2014
本文編號:3624460
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3624460.html
最近更新
教材專著