大規(guī)模復雜數(shù)據(jù)聚類算法研究
發(fā)布時間:2021-04-23 22:50
作為一種重要的無監(jiān)督機器學習方法和典型的數(shù)據(jù)挖掘技術(shù),聚類分析已得到學術(shù)界和企業(yè)界的廣泛關(guān)注.近年來,根據(jù)不同應用領(lǐng)域的需求,研究者已經(jīng)發(fā)展了一系列聚類模型和算法,并在圖像處理、信息檢索、社交網(wǎng)絡(luò)和生物信息學等領(lǐng)域的數(shù)據(jù)分析中扮演著重要角色.然而,隨著大數(shù)據(jù)、物聯(lián)網(wǎng)等一系列新興技術(shù)的快速發(fā)展與廣泛應用,社會活動、科學研究、移動互聯(lián)網(wǎng)等諸多領(lǐng)域積累了大量復雜數(shù)據(jù).需要處理的這些數(shù)據(jù)呈現(xiàn)出樣本規(guī)模的海量性、特征規(guī)模的高維性、特征表示的混合性、內(nèi)在結(jié)構(gòu)的復雜性等特點.無論從模型、算法還是應用層面,均給聚類分析提出了嚴峻挑戰(zhàn).因此,如何從大規(guī)模復雜數(shù)據(jù)中挖掘隱含的類結(jié)構(gòu)成為了一個富有挑戰(zhàn)性的研究課題.本文針對數(shù)據(jù)的大規(guī)模性、高維性、混合性、復雜性等特點,采用抽樣、子空間聚類、聚類集成、圖壓縮等技術(shù)系統(tǒng)地開展了聚類分析模型與算法的研究.具體地,本文的主要研究內(nèi)容及取得的研究成果如下:(1)針對大規(guī)模數(shù)據(jù)聚類算法面臨的計算效率低下的問題,提出了一個基于分層抽樣的聚類算法框架.與其他大多數(shù)基于抽樣的聚類算法相比,提出的框架在抽樣過程中考慮了數(shù)據(jù)集的分布信息.一個包含大量數(shù)據(jù)對象或方差較大的數(shù)據(jù)層應該...
【文章來源】:山西大學山西省
【文章頁數(shù)】:144 頁
【學位級別】:博士
【文章目錄】:
中文摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 聚類分析面臨的挑戰(zhàn)
1.3 國內(nèi)外研究現(xiàn)狀
1.3.1 大規(guī)模數(shù)據(jù)聚類算法
1.3.2 高維數(shù)據(jù)聚類算法
1.3.3 混合數(shù)據(jù)聚類算法
1.3.4 復雜網(wǎng)絡(luò)聚類算法
1.4 研究內(nèi)容和組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 基于分層抽樣的大規(guī)模數(shù)據(jù)聚類算法
2.1 引言
2.2 基于分層抽樣的大規(guī)模數(shù)據(jù)聚類算法
2.2.1 分層抽樣
2.2.2 數(shù)據(jù)標簽
2.2.3 算法描述
2.3 實驗分析
2.3.1 實驗設(shè)置
2.3.2 實驗結(jié)果
2.4 本章小結(jié)
第三章 基于信息熵的混合數(shù)據(jù)軟子空間聚類算法
3.1 引言
3.2 基于信息熵的混合數(shù)據(jù)軟子空間聚類算法
3.2.1 混合數(shù)據(jù)相異性度量方法
3.2.2 基于信息熵的數(shù)值型屬性加權(quán)機制
3.2.3 基于信息熵的分類型屬性加權(quán)機制
3.2.4 算法描述
3.3 實驗分析
3.3.1 實驗設(shè)置
3.3.2 實驗結(jié)果
3.4 本章小結(jié)
第四章 基于序列化的混合數(shù)據(jù)基聚類生成算法
4.1 引言
4.2 基于序列化的混合數(shù)據(jù)基聚類生成算法
4.2.1 問題描述
4.2.2 數(shù)值型數(shù)據(jù)期望熵
4.2.3 分類型數(shù)據(jù)期望熵
4.2.4 算法描述
4.3 實驗分析
4.3.1 實驗設(shè)置
4.3.2 實驗結(jié)果
4.4 本章小結(jié)
第五章 基于有效性指標的分類型數(shù)據(jù)聚類集成選擇算法
5.1 引言
5.2 基于有效性指標的分類型數(shù)據(jù)聚類集成選擇算法
5.2.1 內(nèi)部有效性指標介紹
5.2.2 聚類質(zhì)量與差異性度量
5.2.3 算法描述
5.3 實驗分析
5.3.1 實驗設(shè)置
5.3.2 實驗結(jié)果
5.4 本章小結(jié)
第六章 基于圖壓縮的大規(guī)模社交網(wǎng)絡(luò)聚類算法
6.1 引言
6.2 基于圖壓縮的大規(guī)模社交網(wǎng)絡(luò)聚類算法
6.2.1 圖壓縮
6.2.2 類中心確定
6.2.3 類中心擴展
6.2.4 類結(jié)構(gòu)傳播
6.2.5 算法時間復雜度分析
6.3 實驗分析
6.3.1 實驗設(shè)置
6.3.2 實驗結(jié)果
6.4 本章小結(jié)
第七章 基于社交網(wǎng)絡(luò)聚類的社會化推薦算法
7.1 引言
7.2 基于社交網(wǎng)絡(luò)聚類的社會化推薦算法
7.2.1 用戶社區(qū)及其物品類生成
7.2.2 物品隸屬度矩陣構(gòu)建
7.2.3 物品相似度計算
7.2.4 算法描述
7.3 實驗分析
7.3.1 實驗設(shè)置
7.3.2 實驗結(jié)果
7.4 本章小結(jié)
第八章 總結(jié)與展望
參考文獻
攻讀博士學位期間取得的研究成果
致謝
個人簡況及聯(lián)系方式
本文編號:3156189
【文章來源】:山西大學山西省
【文章頁數(shù)】:144 頁
【學位級別】:博士
【文章目錄】:
中文摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 聚類分析面臨的挑戰(zhàn)
1.3 國內(nèi)外研究現(xiàn)狀
1.3.1 大規(guī)模數(shù)據(jù)聚類算法
1.3.2 高維數(shù)據(jù)聚類算法
1.3.3 混合數(shù)據(jù)聚類算法
1.3.4 復雜網(wǎng)絡(luò)聚類算法
1.4 研究內(nèi)容和組織結(jié)構(gòu)
1.5 本章小結(jié)
第二章 基于分層抽樣的大規(guī)模數(shù)據(jù)聚類算法
2.1 引言
2.2 基于分層抽樣的大規(guī)模數(shù)據(jù)聚類算法
2.2.1 分層抽樣
2.2.2 數(shù)據(jù)標簽
2.2.3 算法描述
2.3 實驗分析
2.3.1 實驗設(shè)置
2.3.2 實驗結(jié)果
2.4 本章小結(jié)
第三章 基于信息熵的混合數(shù)據(jù)軟子空間聚類算法
3.1 引言
3.2 基于信息熵的混合數(shù)據(jù)軟子空間聚類算法
3.2.1 混合數(shù)據(jù)相異性度量方法
3.2.2 基于信息熵的數(shù)值型屬性加權(quán)機制
3.2.3 基于信息熵的分類型屬性加權(quán)機制
3.2.4 算法描述
3.3 實驗分析
3.3.1 實驗設(shè)置
3.3.2 實驗結(jié)果
3.4 本章小結(jié)
第四章 基于序列化的混合數(shù)據(jù)基聚類生成算法
4.1 引言
4.2 基于序列化的混合數(shù)據(jù)基聚類生成算法
4.2.1 問題描述
4.2.2 數(shù)值型數(shù)據(jù)期望熵
4.2.3 分類型數(shù)據(jù)期望熵
4.2.4 算法描述
4.3 實驗分析
4.3.1 實驗設(shè)置
4.3.2 實驗結(jié)果
4.4 本章小結(jié)
第五章 基于有效性指標的分類型數(shù)據(jù)聚類集成選擇算法
5.1 引言
5.2 基于有效性指標的分類型數(shù)據(jù)聚類集成選擇算法
5.2.1 內(nèi)部有效性指標介紹
5.2.2 聚類質(zhì)量與差異性度量
5.2.3 算法描述
5.3 實驗分析
5.3.1 實驗設(shè)置
5.3.2 實驗結(jié)果
5.4 本章小結(jié)
第六章 基于圖壓縮的大規(guī)模社交網(wǎng)絡(luò)聚類算法
6.1 引言
6.2 基于圖壓縮的大規(guī)模社交網(wǎng)絡(luò)聚類算法
6.2.1 圖壓縮
6.2.2 類中心確定
6.2.3 類中心擴展
6.2.4 類結(jié)構(gòu)傳播
6.2.5 算法時間復雜度分析
6.3 實驗分析
6.3.1 實驗設(shè)置
6.3.2 實驗結(jié)果
6.4 本章小結(jié)
第七章 基于社交網(wǎng)絡(luò)聚類的社會化推薦算法
7.1 引言
7.2 基于社交網(wǎng)絡(luò)聚類的社會化推薦算法
7.2.1 用戶社區(qū)及其物品類生成
7.2.2 物品隸屬度矩陣構(gòu)建
7.2.3 物品相似度計算
7.2.4 算法描述
7.3 實驗分析
7.3.1 實驗設(shè)置
7.3.2 實驗結(jié)果
7.4 本章小結(jié)
第八章 總結(jié)與展望
參考文獻
攻讀博士學位期間取得的研究成果
致謝
個人簡況及聯(lián)系方式
本文編號:3156189
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3156189.html
最近更新
教材專著