參考點k近鄰分類算法的改進及其MPI并行化
發(fā)布時間:2024-05-12 23:06
k近鄰算法(k-Nearest Neighbors,kNN)是一種基于統(tǒng)計的經(jīng)典分類方法,具有算法簡潔、分類準確性較高和無需先驗統(tǒng)計知識等特點,目前已成為數(shù)據(jù)挖掘領域中廣泛研究與應用的算法之一。本文在分析現(xiàn)有k近鄰算法的基礎上,主要開展對k近鄰算法的改進與并行化研究。傳統(tǒng)k近鄰分類算法具有二次方時間復雜度,為了提高分類速度,一類方法通過構(gòu)造樹型索引結(jié)構(gòu)以加快k近鄰查找,但是基于樹型k近鄰算法隨著數(shù)據(jù)集維度增加其分類性能會變差;另一類方法則通過查找近似近鄰而避免精確近鄰的大量計算,其中基于參考點k近鄰算法對各類數(shù)據(jù)集均具有較高的分類效率,但分類精度相對于傳統(tǒng)k近鄰算法仍有較大損失,針對該問題,本文提出一種改進的參考點k近鄰分類算法,其時間復雜度為O(nlogn)。本文考慮到訓練樣本的空間分布特征,根據(jù)到樣本距離的方差改善參考點的選取,并在查找近鄰樣本時依據(jù)參考點所起不同作用而賦予參考點自適應權(quán)重。通過在公開與人工數(shù)據(jù)集上實驗,驗證了本文算法具有較高的分類效率,相比于現(xiàn)有參考點k近鄰算法獲得了更好的分類精度。為了解決單機環(huán)境下大規(guī)模數(shù)據(jù)分類存在計算性能弱、內(nèi)存消耗高與擴展性差等問題,提出了...
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3972025
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【部分圖文】:
圖3.2兩個參考點根據(jù)樣本與數(shù)據(jù)集的分布情況獲取自適應權(quán)重
考點找到x的近鄰樣本均具有相同標簽,此時說明x可能處于相同標簽的數(shù)據(jù)集中,可給該參考點設置較小權(quán)重。從歐式空間來看,參考點的權(quán)重越大,由該參考點所找到的近鄰樣本子序列的長度越大。如圖3.2所示,x1和x2是待分類樣本,由參考點O1所找到x1的一定數(shù)量(如2k個)近鄰樣本均具有相同....
圖4.4DPkNN算法的示意圖
士學位論文第4章改進算法的各個分類任務之間在計算順序上并不存在相關性,因此可采待分類數(shù)據(jù)集及相應的分類操作平均分配給多個計算節(jié)點并DPkNN算法。....
圖4.5PkN同樣的,由于沒有涉及到具體何種算法適用于所有k近鄰算法的并行化
重慶郵電大學碩士學位論文到的k個距離和標簽,按照距離較小的并將更新后的k個距離及標簽傳遞給下類操作。待分類集未知樣本x
圖5.3數(shù)字8的訓練樣本
(b)系統(tǒng)的整體類框圖圖5.2UML類圖統(tǒng)中各k近鄰算法的類圖,由于一個名為Classifier的抽象父類MainFrame是用于展示圖形界面er類用于載入訓練集,Drawing用戶所輸入字符的數(shù)組表示。一個行列均為32的文本文件,使8的文本表示,....
本文編號:3972025
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3972025.html
最近更新
教材專著