高維數(shù)據(jù)聚類(lèi)算法的研究及應(yīng)用
第一章 緒論
現(xiàn)實(shí)生活中所產(chǎn)生的數(shù)據(jù)根據(jù)不同的行業(yè)有著不同的屬性和特點(diǎn),因此往往在沒(méi)有任何信息指導(dǎo)的前提下很難進(jìn)行分析處理。聚類(lèi)分析(Cluster Analysis, CA)可以對(duì)目標(biāo)數(shù)據(jù)集的所有數(shù)據(jù)對(duì)象進(jìn)行聚類(lèi)并找出具有干擾性的噪聲。其在指導(dǎo)基礎(chǔ)教育過(guò)程中,可以使用分析學(xué)生成績(jī)的各種因素,從而分析出主要因素來(lái)作出更加高效的教育模式[4];在城市交通規(guī)劃上,規(guī)劃者可以使用有效的聚類(lèi)分析方法對(duì)人群的集中流向進(jìn)行分析,從而合理地分布城市的公交站點(diǎn)和道路。聚類(lèi)分析是現(xiàn)今社會(huì)中發(fā)現(xiàn)數(shù)據(jù)信息的最為常用且重要的方法之一,主要用于從大量真實(shí)的高維數(shù)據(jù)中獲得未知的、潛在的、有價(jià)值的知識(shí),它根據(jù)數(shù)據(jù)對(duì)象的數(shù)學(xué)特征或者現(xiàn)實(shí)意義等關(guān)系,將數(shù)據(jù)對(duì)象進(jìn)行分類(lèi)成簇,使得簇內(nèi)的數(shù)據(jù)對(duì)象具有相同或較高的相似度,而盡可能的降低簇間的對(duì)象相似度。傳統(tǒng)聚類(lèi)算法[5]如基于密度和基于劃分的算法等在低維數(shù)據(jù)聚類(lèi)中獲得較好的結(jié)果,然而由于高維數(shù)據(jù)空間的稀疏性和空空間現(xiàn)象的存在[6],這些方法對(duì)高維數(shù)據(jù)聚類(lèi)分析的過(guò)程時(shí),會(huì)導(dǎo)致傳統(tǒng)聚類(lèi)算法失去了聚類(lèi)分析的意義。
.........
2.1 經(jīng)典的基本聚類(lèi)算法
EM(Exception-Maximization)算法是一種基于模型的聚類(lèi)方法[31],該算法主要分為兩步,期望步和最大化步。期望步先給定當(dāng)前的簇中心,將每個(gè)數(shù)據(jù)對(duì)象劃分到距離簇中心最近的簇,然后最大化步調(diào)整每個(gè)簇中心,使得該分派的數(shù)據(jù)對(duì)象到新中心的距離之和最小化,直到聚類(lèi)收斂或改變充分小。該算法對(duì)于給定的數(shù)據(jù)集的每個(gè)數(shù)據(jù)對(duì)象所屬的每個(gè)類(lèi)簇進(jìn)行迭代,表現(xiàn)出較好的聚類(lèi)效果,但 EM 算法可能收斂不到最優(yōu)的解,可以收斂到局部極大。我們可以在初始時(shí)設(shè)置不同的隨機(jī)初始值,運(yùn)行多次 EM 過(guò)程,這個(gè)過(guò)程計(jì)算開(kāi)銷(xiāo)較大,需要消耗較多的時(shí)間。如果可以選擇較為適合的概率分布函數(shù)的話(huà),該算法可以較好地處理不同的多種數(shù)據(jù)類(lèi)型的數(shù)據(jù)集。2.2 高維數(shù)據(jù)集的處理方法
PCA 由 20 世紀(jì)初的學(xué)者 Hotelling 提出[33],其主要思想為使用一個(gè)特殊的,由數(shù)據(jù)對(duì)象決定的坐標(biāo)系,將第一個(gè)坐標(biāo)設(shè)置在數(shù)據(jù)對(duì)象的方差最大的方向上,在二維空間中,第二維的坐標(biāo)軸方向與第一個(gè)坐標(biāo)軸正交,但是在三維空間中,它在與第一個(gè)坐標(biāo)軸平面上的任意位置,其始終受到第一個(gè)坐標(biāo)軸正交的限制,在更高維度上會(huì)有更多的選擇。其實(shí)現(xiàn)起來(lái)也不是很難,首先計(jì)算數(shù)據(jù)對(duì)象的協(xié)方差矩陣,并進(jìn)行對(duì)角化,然后找到特征向量,,按照特征值進(jìn)行排列,取出較大的一些軸分量,即主成分,丟棄其余的分量,盡量使得這些分量擔(dān)負(fù)原數(shù)據(jù)屬性的 95%以上,從而實(shí)現(xiàn)降維過(guò)程。PCA 的實(shí)現(xiàn)的流程圖如下圖 2-1,具體的實(shí)現(xiàn)過(guò)程將在下面章節(jié)詳細(xì)展開(kāi)分析。
第三章 基于加權(quán)距離計(jì)算的自適應(yīng)粗糙 K 均值算法..........16
3.1 基于帶權(quán)距離的粗糙 K-means 聚類(lèi)算法 ...... 163.2 基于加權(quán)距離計(jì)算的自適應(yīng)粗糙 K-means 聚類(lèi)算法 ...........18
3.3 聚類(lèi)效果指標(biāo) .................. 20
第四章 基于相似性度量的高維數(shù)據(jù)聚類(lèi)分析改進(jìn)算法.......25
4.1 高維數(shù)據(jù)的特征分析 ...... 25
4.2 基于相似性度量函數(shù)的改進(jìn)算法 ............... 26
4.3 基于相似性度量的高維數(shù)據(jù)聚類(lèi)分析改進(jìn)算法 ......... 27
第五章 高維數(shù)據(jù)聚類(lèi)算法在食品安全檢測(cè)中的應(yīng)用..................34
5.1 食品安全檢測(cè)分析的現(xiàn)狀 .......... 34
5.2 本章實(shí)驗(yàn)的高維聚類(lèi)分析方法 ............ 37
5.3 實(shí)驗(yàn)與分析 .................. 38
第五章 高維數(shù)據(jù)聚類(lèi)算法在食品安全檢測(cè)中的應(yīng)用
5.1 食品安全檢測(cè)分析的現(xiàn)狀
特別是,對(duì)兒童成長(zhǎng)極為重要的奶制品行業(yè),更不能出現(xiàn)任何的問(wèn)題,因?yàn)閮和且粋(gè)國(guó)家,一個(gè)家庭的未來(lái),如果兒童因?yàn)槟讨破穯?wèn)題上出現(xiàn)嚴(yán)重的傷害,那我們這個(gè)國(guó)家未來(lái)怎么辦?這也是為什么國(guó)家這么重視奶粉安全問(wèn)題的原因。為什么不法商家會(huì)把三聚氰胺添加到奶粉中呢?一方面他們是為了牟取暴利,另一方面是降低奶粉的制作成本三聚氰胺能夠加入到奶粉中是因?yàn)槠浜?66%,價(jià)格便宜,形似蛋白粉,添加到奶粉中不易被發(fā)現(xiàn)。當(dāng)前食品檢測(cè)過(guò)程中普遍采用測(cè)定氮含量來(lái)計(jì)算蛋白質(zhì)的含量,而不是直接測(cè)量蛋白質(zhì)的含量,所以?xún)读怂呐D碳尤肴矍璋泛螅褂玫繙y(cè)定的方法也會(huì)因蛋白質(zhì)含量達(dá)標(biāo)而通過(guò)檢測(cè)。傳統(tǒng)的安全檢測(cè)方法的流程如下圖 5-1 所示。這些方法中大多數(shù)需要進(jìn)行樣品前處理,而樣品前處理一般耗費(fèi)時(shí)間長(zhǎng)、對(duì)儀器的要求較高、而且會(huì)一定程度上破壞樣品質(zhì)量,因此不能達(dá)到及時(shí)、無(wú)損、快速檢測(cè)的要求。目前,急需一種能夠不破壞樣品質(zhì)量、檢測(cè)速度較快并能夠?qū)崟r(shí)檢測(cè)的方法來(lái)判定奶粉中是否含有三聚氰胺。5.2 本章實(shí)驗(yàn)的高維聚類(lèi)分析方法
本章使用的分析算法主要有 BP 神經(jīng)網(wǎng)絡(luò)算法和 SIMCA 算法,以及本文第四章提出的 PsimCA 算法。首先,介紹一下 BP 神經(jīng)網(wǎng)絡(luò)的相關(guān)技術(shù)內(nèi)容。前面已經(jīng)提到BP神經(jīng)網(wǎng)絡(luò)是于1986年由Rumelhart等人組成的科學(xué)小組提出的,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)模型拓?fù)浣Y(jié)構(gòu)包括輸入層、隱層和輸出層。BP利用一種稱(chēng)為激活函數(shù)來(lái)描述層與層之間的關(guān)聯(lián),使得模擬各層神經(jīng)元之間的交互反應(yīng)。激活函數(shù)必須滿(mǎn)足處處可導(dǎo)的條件。那么比較常用的輸入函數(shù)和輸出函數(shù)分別如公式(5.1)和(5.2)所示。......
主要結(jié)論與展望
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展以及移動(dòng)互聯(lián)網(wǎng)技術(shù)的不斷進(jìn)步,人們積累了大量復(fù)雜且高維的數(shù)據(jù),而如何收集并分析人們產(chǎn)生的這些復(fù)雜且高維的數(shù)據(jù),從中發(fā)現(xiàn)有價(jià)值的信息是當(dāng)前的研究重點(diǎn)。聚類(lèi)分析作為一種常用的數(shù)據(jù)分析技術(shù),在現(xiàn)今這個(gè)充斥著復(fù)雜數(shù)據(jù)的時(shí)代已經(jīng)廣泛受到人們的重視。鑒于現(xiàn)存的一些聚類(lèi)分析算法在處理高維數(shù)據(jù)時(shí)往往需要高昂的時(shí)空開(kāi)銷(xiāo)并且不一定獲得較好的效果,本文重點(diǎn)為改進(jìn)基于加權(quán)距離的聚類(lèi)算法性能使之在高維數(shù)據(jù)中高效的執(zhí)行并能夠獲得較好的聚類(lèi)性能,從而提出了一些可行的解決方案。因此,本文從對(duì)數(shù)據(jù)約簡(jiǎn)的角度出發(fā),以劃分算法、基于相似度量函數(shù)為基礎(chǔ)的技術(shù)為手段,來(lái)對(duì)高維數(shù)據(jù)聚類(lèi)分析展開(kāi)深入研究討論并進(jìn)行一些實(shí)際應(yīng)用。總結(jié)全文所做的工作,主要的工作成果包括以下幾個(gè)方面:(1)提出了一種基于加權(quán)距離計(jì)算的自適應(yīng)粗糙 K 均值算法,該算法主要是針對(duì)現(xiàn)存的粗糙劃分算法在處理高維數(shù)據(jù)表現(xiàn)出高耗時(shí)和執(zhí)行聚類(lèi)分析效果不理想等因素,提出了一種自適應(yīng)粗糙 K 均值算法,并將該方法與屬性約簡(jiǎn)相結(jié)合,利用改進(jìn)后算法自適應(yīng)的確定聚類(lèi)個(gè)數(shù)以及劃分的聚類(lèi)結(jié)果。在 UCI 數(shù)據(jù)集上的實(shí)驗(yàn)表明,改進(jìn)后的算法在處理高維數(shù)據(jù)時(shí)有著較理想的聚類(lèi)分析效果。
.....
參考文獻(xiàn)(略)
本文編號(hào):313552
本文鏈接:http://sikaile.net/wenshubaike/caipu/313552.html