天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

K-means算法的改進及其在文本聚類中的應用研究

發(fā)布時間:2023-05-07 17:48
  互聯(lián)網(wǎng)的快速發(fā)展和廣泛普及,使網(wǎng)絡上文本數(shù)據(jù)呈爆炸性增長,如何及時準確地從這些大數(shù)據(jù)文本中獲得有價值的信息是學者們研究的熱點問題。在此情況下,利用文本聚類對大規(guī)模文本信息進行組織、提取重要特征,發(fā)現(xiàn)有用價值,以達到減少人工整理文檔的工作量,提高文檔檢索效率,文本聚類的應用前景和研究意義非常深遠。K-means算法由于具有簡單、速度快等優(yōu)點在文本聚類中普遍運用。然而K-means算法本身存在一些缺點,如初始中心的選擇具有隨機性,算法不穩(wěn)定,并且會收斂于聚類局部最優(yōu),同樣,k值的選擇往往根據(jù)用戶的個人經(jīng)驗,而k值的選取卻直接影響聚類結果的好壞。論文針對K-means算法的這些缺點展開研究并進行改進優(yōu)化,并將優(yōu)化后的算法應用到文本聚類實例中,論文主要做了如下工作:第一,快速密度峰值搜索算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)是一種新穎、簡潔、高效、基于密度的聚類算法,它可以聚類各種類型的點集。然而當數(shù)據(jù)集中存在某個類具有多密度峰值情形時,CFSFDP算法不能有效聚類此類數(shù)據(jù)集。針對這個問題,論文提出基于邊界樣...

【文章頁數(shù)】:76 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 研究背景與意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 論文研究內(nèi)容和創(chuàng)新點
    1.4 論文的組織結構
第二章 相關理論與技術
    2.1 文本預處理
        2.1.1 文本分詞
        2.1.2 詞性標注
        2.1.3 停用詞過濾
    2.2 文本特征詞提取
        2.2.1 文檔頻率
        2.2.2 信息增益
        2.2.3 互信息
        2.2.4 卡方檢驗
    2.3 文本表示模型
        2.3.1 布爾模型
        2.3.2 向量空間模型
        2.3.3 概率模型
    2.4 文本相似度計算
    2.5 聚類分析原理
        2.5.1 聚類分析的定義
        2.5.2 對聚類算法性能要求
        2.5.3 聚類分析中的數(shù)據(jù)類型
    2.6 聚類算法分類
        2.6.1 基于劃分的聚類算法
        2.6.2 基于層次的聚類算法
        2.6.3 基于密度的聚類算法
        2.6.4 基于網(wǎng)格的聚類算法
        2.6.5 基于模型的聚類算法
    2.7 文本挖掘面臨的新課題
    2.8 本章小結
第三章 基于邊界樣本優(yōu)化的快速密度峰值搜索算法
    3.1 快速密度峰值搜索算法
        3.1.1 算法思想
        3.1.2 算法的缺陷分析
    3.2 基于邊界樣本優(yōu)化的快速密度峰值搜索算法
        3.2.1 M-CFSFDP算法
        3.2.2 M-CFSFDP算法描述
    3.3 實驗結果與分析
    3.4 本章小結
第四章 密度峰值優(yōu)化初始中心的K-means算法
    4.1 K-means算法
        4.1.1 K-means算法思想
        4.1.2 K-means算法優(yōu)缺點分析
    4.2 基于勢能優(yōu)化的CFSFDP算法
        4.2.1 P-CFSFDP算法
        4.2.2 實驗分析
    4.3 密度峰值優(yōu)化初始中心的K-means算法
        4.3.1 使用密度峰值優(yōu)化初始中心
        4.3.2 KP-CFSFDP算法描述
    4.4 實驗結果與分析
    4.5 本章小結
第五章 基于KP-CFSFDP算法的最佳聚類數(shù)確定方法
    5.1 k值不確定性問題
    5.2 最佳聚類數(shù)研究
    5.3 KP-CFSFDP最佳聚類數(shù)確定方法
        5.3.1 確定最佳聚類數(shù)搜索范圍
        5.3.2 IKP-CFSFDP算法描述
    5.4 實驗結果與分析
    5.5 本章小結
第六章 IKP-CFSFDP算法在文本聚類中的應用
    6.1 文本聚類數(shù)據(jù)來源
    6.2 文本聚類系統(tǒng)的具體實現(xiàn)
        6.2.1 開發(fā)平臺
        6.2.2 文本聚類系統(tǒng)的設計和實現(xiàn)
    6.3 結果分析
    6.4 本章小結
第七章 總結與展望
    7.1 總結
    7.2 展望
致謝
參考文獻
附錄: 作者在攻讀碩士學位期間發(fā)表的論文



本文編號:3811040

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3811040.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶e7973***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com