一種不完備數(shù)據(jù)三支聚類填充方法
發(fā)布時(shí)間:2023-02-08 20:26
隨著科學(xué)技術(shù)的快速發(fā)展,我國已進(jìn)入了信息時(shí)代。近些年數(shù)據(jù)爆發(fā)式地增長(zhǎng),數(shù)據(jù)的存儲(chǔ)及獲取能力有了很大的提高。對(duì)于如何從這些數(shù)據(jù)中得到有價(jià)值的信息,成為科學(xué)研究領(lǐng)域不可忽視的一門課題。聚類分析擁有著很長(zhǎng)的研究歷史,并在眾多領(lǐng)域都得到了應(yīng)用?墒窃趯(shí)際環(huán)境中,由于人為因素、歷史原因、數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)傳輸?shù)惹闆r下常常有數(shù)據(jù)缺失的情況,造成了聚類的難點(diǎn)。因?yàn)槿笔У臄?shù)據(jù)不能直接用傳統(tǒng)的聚類方法進(jìn)行聚類,而且數(shù)據(jù)的缺失無法避免。那對(duì)缺失數(shù)據(jù)的適當(dāng)處理就成為了不可避免的技術(shù)難題,將直接影響到聚類效果的好壞。針對(duì)這個(gè)問題,論文提出了一種不完備數(shù)據(jù)三支聚類填充方法。首先,采用平均值填充法對(duì)缺失的數(shù)據(jù)進(jìn)行初始化填充,然后再用對(duì)k個(gè)聚類中心點(diǎn)的選取進(jìn)行優(yōu)化的k-means算法對(duì)數(shù)據(jù)進(jìn)行聚類。這種方法避免了傳統(tǒng)k-means聚類算法容易陷入局部最優(yōu)解的狀況,并加快了算法速度。最后考慮用聚類結(jié)果同一個(gè)簇中的完備數(shù)據(jù)對(duì)之前的缺失數(shù)據(jù)進(jìn)行重新填充,來盡可能減小均值填充法帶來的數(shù)據(jù)誤差。傳統(tǒng)數(shù)據(jù)填充常常對(duì)缺失數(shù)據(jù)只進(jìn)行單次填充,沒有充分利用已知數(shù)據(jù)信息,而且上述過程中k個(gè)點(diǎn)的初始選取對(duì)k-means聚類結(jié)果仍然...
【文章頁數(shù)】:33 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文主要工作
1.4 組織結(jié)構(gòu)
第二章 理論基礎(chǔ)
2.1 不完備數(shù)據(jù)
2.1.1 產(chǎn)生原因
2.1.2 不完備信息系統(tǒng)
2.2 三支決策的區(qū)間表示
2.2.1 三支決策概念
2.2.2 基于三支決策的聚類結(jié)果區(qū)間表示
2.3 缺失數(shù)據(jù)處理
第三章 基于聚類算法的數(shù)據(jù)填充
3.1 k個(gè)點(diǎn)的選擇
3.1.1 k數(shù)目的選擇—肘部法則
3.1.2 k個(gè)初始點(diǎn)的選擇
3.2 k-means算法對(duì)源數(shù)據(jù)分類
3.2.1 局部最優(yōu)解
3.2.2 與改進(jìn)的k-means算法對(duì)比
3.3 填充缺失數(shù)據(jù)
3.3.1 初始化填補(bǔ)方法
3.3.2 聚類填補(bǔ)方法
3.3.3 三支聚類填充的必要性
3.4 本章小結(jié)
第四章 基于三支聚類的數(shù)據(jù)填充
4.1 多次k-means算法對(duì)源數(shù)據(jù)分類
4.2 聚類成員標(biāo)簽對(duì)齊
4.2.1 聚類集成
4.2.2 相同類簇求交集
4.3 構(gòu)造矩陣
4.4 實(shí)驗(yàn)分析
4.4.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境
4.4.2 評(píng)價(jià)標(biāo)準(zhǔn)
4.4.3 實(shí)驗(yàn)結(jié)果及分析
4.5 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文
致謝
本文編號(hào):3738318
【文章頁數(shù)】:33 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 論文主要工作
1.4 組織結(jié)構(gòu)
第二章 理論基礎(chǔ)
2.1 不完備數(shù)據(jù)
2.1.1 產(chǎn)生原因
2.1.2 不完備信息系統(tǒng)
2.2 三支決策的區(qū)間表示
2.2.1 三支決策概念
2.2.2 基于三支決策的聚類結(jié)果區(qū)間表示
2.3 缺失數(shù)據(jù)處理
第三章 基于聚類算法的數(shù)據(jù)填充
3.1 k個(gè)點(diǎn)的選擇
3.1.1 k數(shù)目的選擇—肘部法則
3.1.2 k個(gè)初始點(diǎn)的選擇
3.2 k-means算法對(duì)源數(shù)據(jù)分類
3.2.1 局部最優(yōu)解
3.2.2 與改進(jìn)的k-means算法對(duì)比
3.3 填充缺失數(shù)據(jù)
3.3.1 初始化填補(bǔ)方法
3.3.2 聚類填補(bǔ)方法
3.3.3 三支聚類填充的必要性
3.4 本章小結(jié)
第四章 基于三支聚類的數(shù)據(jù)填充
4.1 多次k-means算法對(duì)源數(shù)據(jù)分類
4.2 聚類成員標(biāo)簽對(duì)齊
4.2.1 聚類集成
4.2.2 相同類簇求交集
4.3 構(gòu)造矩陣
4.4 實(shí)驗(yàn)分析
4.4.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境
4.4.2 評(píng)價(jià)標(biāo)準(zhǔn)
4.4.3 實(shí)驗(yàn)結(jié)果及分析
4.5 本章小結(jié)
總結(jié)與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文
致謝
本文編號(hào):3738318
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3738318.html
最近更新
教材專著