天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

簇心自確認(rèn)的聚類算法及其在文本聚類中的應(yīng)用

發(fā)布時(shí)間:2023-06-04 23:26
  在日常生活中我們所接觸的許多信息都是以文本存儲(chǔ)的形式進(jìn)行傳播的,如博客、微博、網(wǎng)頁等。由于大數(shù)據(jù)時(shí)代的到來,讓Internet上的文本數(shù)據(jù)量呈幾何指數(shù)遞增。這些文本數(shù)據(jù)中絕大部分都是以非結(jié)構(gòu)化的形式存儲(chǔ)的,但它們卻包含著很多有用的潛在信息。如何從這些文本數(shù)據(jù)中迅速并高效的獲取有用的潛在信息,就需要使用數(shù)據(jù)挖掘技術(shù)。聚類是指通過某種規(guī)則來發(fā)現(xiàn)數(shù)據(jù)集中的潛在分組,且這些分組中的數(shù)據(jù)對(duì)象擁有較高的相似度?梢哉f聚類是數(shù)據(jù)挖掘的重要技術(shù)手段,也是一種從數(shù)據(jù)集中獲取潛在信息的無監(jiān)督方法,目前在很多領(lǐng)域中都有使用,包括異常檢測(cè)、人工智能和計(jì)算機(jī)視覺等。而作為聚類分析的重要組成部分——文本聚類,己經(jīng)能夠使用多種聚類方法。K-medoids作為一種采用啟發(fā)式的劃分方法,由于其實(shí)現(xiàn)簡單、容易理解且受異常值的影響較小,目前已經(jīng)應(yīng)用在很多實(shí)際應(yīng)用中并取得較好的效果。不過傳統(tǒng)的K-medoids算法具有一些局限性,比如初始簇心的隨機(jī)選取會(huì)影響聚類結(jié)果。本文的主要研究內(nèi)容為:(1)針對(duì)密度峰值聚類算法(DPC)的三個(gè)缺陷——計(jì)算復(fù)雜度大、依賴截?cái)嚅g隔(9((8)和需要人工決策簇心,提出了基...

【文章頁數(shù)】:64 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究背景及意義
    1.2 研究現(xiàn)狀
    1.3 本文結(jié)構(gòu)說明
第二章 相關(guān)理論與技術(shù)
    2.1 引言
    2.2 文本預(yù)處理
        2.2.1 清洗數(shù)據(jù)
        2.2.2 分詞
        2.2.3 停用詞過濾
    2.3 文本表示模型
        2.3.1 詞袋模型
        2.3.2 主題模型
        2.3.3 詞嵌入模型
    2.4 構(gòu)建文本表示模型
        2.4.1 文本特征選擇方法
        2.4.2 特征項(xiàng)權(quán)重賦值方法
    2.5 相似度計(jì)算方法
        2.5.1 余弦相似度
        2.5.2 歐式距離
    2.6 聚類算法
        2.6.1 劃分式聚類
        2.6.2 層次聚類
        2.6.3 密度聚類
        2.6.4 網(wǎng)格聚類
    2.7 聚類評(píng)價(jià)標(biāo)準(zhǔn)
        2.7.1 F-measure
        2.7.2 聚類純度
        2.7.3 熵值
    2.8 本章小結(jié)
第三章 基于殘差和密度網(wǎng)格的簇心自確認(rèn)聚類算法
    3.1 引言
    3.2 REDGSC算法介紹
        3.2.1 密度網(wǎng)格思想介紹
        3.2.2 決策圖介紹
        3.2.3 殘差分析確認(rèn)簇心
        3.2.4 聚類過程
        3.2.5 邊緣點(diǎn)和噪聲
    3.3 算法流程
    3.4 仿真實(shí)驗(yàn)與分析
        3.4.1 性能對(duì)比
        3.4.2 算法執(zhí)行時(shí)間分析
        3.4.3 算法復(fù)雜度分析
        3.4.4 實(shí)驗(yàn)結(jié)果分析
    3.5 本章小結(jié)
第四章 基于密度權(quán)重Canopy的改進(jìn)K-medoids算法
    4.1 引言
    4.2 K-medoids算法介紹
    4.3 Canopy算法介紹
    4.4 密度權(quán)重的Canopy算法
        4.4.1 相關(guān)概念
        4.4.2 算法流程
    4.5 DWCK-medoids算法
    4.6 仿真實(shí)驗(yàn)
        4.6.1 真實(shí)數(shù)據(jù)集
        4.6.2 人工數(shù)據(jù)集
    4.7 本章小結(jié)
第五章 DWCK-medoids算法在文本聚類上的應(yīng)用
    5.1 引言
    5.2 數(shù)據(jù)集介紹
    5.3 DWCK-medoids算法應(yīng)用
        5.3.1 文本數(shù)據(jù)預(yù)處理
        5.3.2 頻繁詞集挖掘
        5.3.3 構(gòu)建文本表示模型
        5.3.4 相似度計(jì)算
        5.3.5 聚類操作
        5.3.6 主題描述
    5.4 實(shí)驗(yàn)及結(jié)果分析
        5.4.1 相關(guān)算法的參數(shù)設(shè)置
        5.4.2 聚類性能比較
        5.4.3 實(shí)驗(yàn)中對(duì)文本主題的描述
    5.5 本章小結(jié)
第六章 總結(jié)與展望
    6.1 總結(jié)
    6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的學(xué)術(shù)成果
攻讀碩士學(xué)位期間參加的研究項(xiàng)目
致謝



本文編號(hào):3831231

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3831231.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d6a77***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
日本精品理论在线观看| 东京热男人的天堂一二三区| 日韩欧美一区二区不卡看片| 亚洲精品av少妇在线观看| 亚洲国产性生活高潮免费视频| 国产性色精品福利在线观看| 午夜国产精品福利在线观看| 国产不卡的视频在线观看| 欧美欧美欧美欧美一区| 国产精品熟女在线视频| 亚洲精品蜜桃在线观看| 日本人妻中出在线观看| 国产日本欧美特黄在线观看| 国产精品丝袜美腿一区二区| 免费福利午夜在线观看| 97人妻精品一区二区三区男同| 日韩精品视频高清在线观看| 国产欧美日韩视频91| 视频在线播放你懂的一区| 国产又猛又黄又粗又爽无遮挡| 国产精品亚洲精品亚洲| 欧美一区日韩二区亚洲三区| 成年人免费看国产视频| 中文字幕精品人妻一区| 好吊日成人免费视频公开| 国产精品香蕉一级免费| 亚洲精品伦理熟女国产一区二区| 日本一本不卡免费视频| 手机在线不卡国产视频| 欧美午夜一级特黄大片| 日韩蜜桃一区二区三区| 国产又黄又猛又粗又爽的片| 国产精品成人一区二区三区夜夜夜 | 黑丝袜美女老师的小逼逼| 成人精品视频一区二区在线观看| 欧美日韩国内一区二区| 亚洲精品中文字幕熟女| 夜色福利久久精品福利| 亚洲综合色在线视频香蕉视频| 精品al亚洲麻豆一区| 久久99精品国产麻豆婷婷洗澡|