簇心自確認(rèn)的聚類算法及其在文本聚類中的應(yīng)用
發(fā)布時(shí)間:2023-06-04 23:26
在日常生活中我們所接觸的許多信息都是以文本存儲(chǔ)的形式進(jìn)行傳播的,如博客、微博、網(wǎng)頁等。由于大數(shù)據(jù)時(shí)代的到來,讓Internet上的文本數(shù)據(jù)量呈幾何指數(shù)遞增。這些文本數(shù)據(jù)中絕大部分都是以非結(jié)構(gòu)化的形式存儲(chǔ)的,但它們卻包含著很多有用的潛在信息。如何從這些文本數(shù)據(jù)中迅速并高效的獲取有用的潛在信息,就需要使用數(shù)據(jù)挖掘技術(shù)。聚類是指通過某種規(guī)則來發(fā)現(xiàn)數(shù)據(jù)集中的潛在分組,且這些分組中的數(shù)據(jù)對(duì)象擁有較高的相似度?梢哉f聚類是數(shù)據(jù)挖掘的重要技術(shù)手段,也是一種從數(shù)據(jù)集中獲取潛在信息的無監(jiān)督方法,目前在很多領(lǐng)域中都有使用,包括異常檢測(cè)、人工智能和計(jì)算機(jī)視覺等。而作為聚類分析的重要組成部分——文本聚類,己經(jīng)能夠使用多種聚類方法。K-medoids作為一種采用啟發(fā)式的劃分方法,由于其實(shí)現(xiàn)簡單、容易理解且受異常值的影響較小,目前已經(jīng)應(yīng)用在很多實(shí)際應(yīng)用中并取得較好的效果。不過傳統(tǒng)的K-medoids算法具有一些局限性,比如初始簇心的隨機(jī)選取會(huì)影響聚類結(jié)果。本文的主要研究內(nèi)容為:(1)針對(duì)密度峰值聚類算法(DPC)的三個(gè)缺陷——計(jì)算復(fù)雜度大、依賴截?cái)嚅g隔(9((8)和需要人工決策簇心,提出了基...
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.3 本文結(jié)構(gòu)說明
第二章 相關(guān)理論與技術(shù)
2.1 引言
2.2 文本預(yù)處理
2.2.1 清洗數(shù)據(jù)
2.2.2 分詞
2.2.3 停用詞過濾
2.3 文本表示模型
2.3.1 詞袋模型
2.3.2 主題模型
2.3.3 詞嵌入模型
2.4 構(gòu)建文本表示模型
2.4.1 文本特征選擇方法
2.4.2 特征項(xiàng)權(quán)重賦值方法
2.5 相似度計(jì)算方法
2.5.1 余弦相似度
2.5.2 歐式距離
2.6 聚類算法
2.6.1 劃分式聚類
2.6.2 層次聚類
2.6.3 密度聚類
2.6.4 網(wǎng)格聚類
2.7 聚類評(píng)價(jià)標(biāo)準(zhǔn)
2.7.1 F-measure
2.7.2 聚類純度
2.7.3 熵值
2.8 本章小結(jié)
第三章 基于殘差和密度網(wǎng)格的簇心自確認(rèn)聚類算法
3.1 引言
3.2 REDGSC算法介紹
3.2.1 密度網(wǎng)格思想介紹
3.2.2 決策圖介紹
3.2.3 殘差分析確認(rèn)簇心
3.2.4 聚類過程
3.2.5 邊緣點(diǎn)和噪聲
3.3 算法流程
3.4 仿真實(shí)驗(yàn)與分析
3.4.1 性能對(duì)比
3.4.2 算法執(zhí)行時(shí)間分析
3.4.3 算法復(fù)雜度分析
3.4.4 實(shí)驗(yàn)結(jié)果分析
3.5 本章小結(jié)
第四章 基于密度權(quán)重Canopy的改進(jìn)K-medoids算法
4.1 引言
4.2 K-medoids算法介紹
4.3 Canopy算法介紹
4.4 密度權(quán)重的Canopy算法
4.4.1 相關(guān)概念
4.4.2 算法流程
4.5 DWCK-medoids算法
4.6 仿真實(shí)驗(yàn)
4.6.1 真實(shí)數(shù)據(jù)集
4.6.2 人工數(shù)據(jù)集
4.7 本章小結(jié)
第五章 DWCK-medoids算法在文本聚類上的應(yīng)用
5.1 引言
5.2 數(shù)據(jù)集介紹
5.3 DWCK-medoids算法應(yīng)用
5.3.1 文本數(shù)據(jù)預(yù)處理
5.3.2 頻繁詞集挖掘
5.3.3 構(gòu)建文本表示模型
5.3.4 相似度計(jì)算
5.3.5 聚類操作
5.3.6 主題描述
5.4 實(shí)驗(yàn)及結(jié)果分析
5.4.1 相關(guān)算法的參數(shù)設(shè)置
5.4.2 聚類性能比較
5.4.3 實(shí)驗(yàn)中對(duì)文本主題的描述
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的學(xué)術(shù)成果
攻讀碩士學(xué)位期間參加的研究項(xiàng)目
致謝
本文編號(hào):3831231
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.3 本文結(jié)構(gòu)說明
第二章 相關(guān)理論與技術(shù)
2.1 引言
2.2 文本預(yù)處理
2.2.1 清洗數(shù)據(jù)
2.2.2 分詞
2.2.3 停用詞過濾
2.3 文本表示模型
2.3.1 詞袋模型
2.3.2 主題模型
2.3.3 詞嵌入模型
2.4 構(gòu)建文本表示模型
2.4.1 文本特征選擇方法
2.4.2 特征項(xiàng)權(quán)重賦值方法
2.5 相似度計(jì)算方法
2.5.1 余弦相似度
2.5.2 歐式距離
2.6 聚類算法
2.6.1 劃分式聚類
2.6.2 層次聚類
2.6.3 密度聚類
2.6.4 網(wǎng)格聚類
2.7 聚類評(píng)價(jià)標(biāo)準(zhǔn)
2.7.1 F-measure
2.7.2 聚類純度
2.7.3 熵值
2.8 本章小結(jié)
第三章 基于殘差和密度網(wǎng)格的簇心自確認(rèn)聚類算法
3.1 引言
3.2 REDGSC算法介紹
3.2.1 密度網(wǎng)格思想介紹
3.2.2 決策圖介紹
3.2.3 殘差分析確認(rèn)簇心
3.2.4 聚類過程
3.2.5 邊緣點(diǎn)和噪聲
3.3 算法流程
3.4 仿真實(shí)驗(yàn)與分析
3.4.1 性能對(duì)比
3.4.2 算法執(zhí)行時(shí)間分析
3.4.3 算法復(fù)雜度分析
3.4.4 實(shí)驗(yàn)結(jié)果分析
3.5 本章小結(jié)
第四章 基于密度權(quán)重Canopy的改進(jìn)K-medoids算法
4.1 引言
4.2 K-medoids算法介紹
4.3 Canopy算法介紹
4.4 密度權(quán)重的Canopy算法
4.4.1 相關(guān)概念
4.4.2 算法流程
4.5 DWCK-medoids算法
4.6 仿真實(shí)驗(yàn)
4.6.1 真實(shí)數(shù)據(jù)集
4.6.2 人工數(shù)據(jù)集
4.7 本章小結(jié)
第五章 DWCK-medoids算法在文本聚類上的應(yīng)用
5.1 引言
5.2 數(shù)據(jù)集介紹
5.3 DWCK-medoids算法應(yīng)用
5.3.1 文本數(shù)據(jù)預(yù)處理
5.3.2 頻繁詞集挖掘
5.3.3 構(gòu)建文本表示模型
5.3.4 相似度計(jì)算
5.3.5 聚類操作
5.3.6 主題描述
5.4 實(shí)驗(yàn)及結(jié)果分析
5.4.1 相關(guān)算法的參數(shù)設(shè)置
5.4.2 聚類性能比較
5.4.3 實(shí)驗(yàn)中對(duì)文本主題的描述
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的學(xué)術(shù)成果
攻讀碩士學(xué)位期間參加的研究項(xiàng)目
致謝
本文編號(hào):3831231
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3831231.html
最近更新
教材專著