天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于密度和蟻群的混合聚類算法研究及應(yīng)用

發(fā)布時(shí)間:2025-01-08 22:35
  在互聯(lián)網(wǎng)快速發(fā)展、廣泛普及的時(shí)代下,非結(jié)構(gòu)化數(shù)據(jù)(文本、圖片、圖像、視頻等)呈爆炸式增長(zhǎng),人們花費(fèi)在信息篩選的時(shí)間也越來越多,如何從大量的數(shù)據(jù)中挖掘出潛在有用的信息成為了學(xué)者們研究的熱點(diǎn)。在這種情況下,本文關(guān)注文本數(shù)據(jù)的挖掘,利用聚類算法對(duì)文本數(shù)據(jù)進(jìn)行組織、歸類,發(fā)現(xiàn)有用的信息,減少人工整理文檔的工作量,具有廣泛的應(yīng)用場(chǎng)景和深遠(yuǎn)的研究意義。本文聚焦于文本聚類應(yīng)用,分析傳統(tǒng)聚類算法的一些優(yōu)勢(shì)和不足,通過對(duì)聚類結(jié)果的有效性評(píng)價(jià),提出了基于密度峰值和蟻群聚類的混合聚類算法。該算法從類中心點(diǎn)的選擇、數(shù)據(jù)點(diǎn)的分配以及類合并三個(gè)方面給出了相應(yīng)的計(jì)算流程,并最終將算法應(yīng)用到文本聚類當(dāng)中。本論文主要有以下幾個(gè)工作:第一,蟻群聚類算法作為元啟發(fā)式算法,具有全局優(yōu)化能力、隨機(jī)性和探索性,然而存在收斂慢的問題,本文使用改進(jìn)后的螞蟻拾起放下物品的計(jì)算方式,更有效的利用數(shù)據(jù)和周邊數(shù)據(jù)的相似度計(jì)算拾起放下的概率,在一定程度上加快了算法的收斂速度;第二,密度峰值快速搜索算法雖然高效、簡(jiǎn)潔,但是存在需要運(yùn)用可視化方式人為參與中心點(diǎn)的選擇以及當(dāng)簇分布均勻時(shí),會(huì)把某些簇分為幾個(gè)子簇的問題。針對(duì)這兩個(gè)問題,本文考慮新的數(shù)據(jù)特...

【文章頁數(shù)】:74 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2-1數(shù)據(jù)聚類需要理解的是聚類分析不同于有監(jiān)督學(xué)習(xí),是一種無監(jiān)督學(xué)習(xí)方法

圖2-1數(shù)據(jù)聚類需要理解的是聚類分析不同于有監(jiān)督學(xué)習(xí),是一種無監(jiān)督學(xué)習(xí)方法

第二章相關(guān)理論基礎(chǔ)與技術(shù)本章概括性的對(duì)聚類分析、聚類相關(guān)算法的分類進(jìn)行了概括性的陳述,同時(shí)描繪了相似性度量、文本預(yù)處理以及文本表示模型相關(guān)理論技術(shù)。2.1聚類分析2.1.1聚類分析的基本概念數(shù)據(jù)分析是許多計(jì)算機(jī)應(yīng)用的基礎(chǔ),無論是在設(shè)計(jì)階段還是在線操作部分。數(shù)據(jù)分析技術(shù)可以分....


圖2-2層次聚類算法示例圖

圖2-2層次聚類算法示例圖

圖2-2層次聚類算法示例圖.3基于密度的聚類算法在數(shù)據(jù)庫(kù)中,并不是所有數(shù)據(jù)都是球形簇,因此如何聚類任意的非球形簇研究重點(diǎn)。對(duì)于此問題,從密度角度作出思考形成了新的聚類方法——基聚類算法,該方法屬于分區(qū)聚類方法,其中涉及兩個(gè)區(qū)域的識(shí)別——低密高密度區(qū)域。該方法的重點(diǎn)在于如何....


圖2-3決策圖實(shí)例及示意圖

圖2-3決策圖實(shí)例及示意圖

圖2-3決策圖實(shí)例及示意圖容易發(fā)現(xiàn),圖2-3(A)中的數(shù)據(jù)集包含了兩個(gè)群集和三個(gè)離群點(diǎn)26、27、28,再看圖2-3(B),1號(hào)和10號(hào)數(shù)據(jù)點(diǎn)同時(shí)具有較大的ρ值和值,根據(jù)算法的定義即為兩個(gè)群集的類中心點(diǎn),三個(gè)離群點(diǎn)都具有值較高,ρ很小的特點(diǎn)。對(duì)于圖....


圖2-4LDA圖形模型

圖2-4LDA圖形模型

N是文檔d所在文檔集中總的文檔數(shù)量,(現(xiàn)的次數(shù),nk代表文檔集中包含單詞tk的文檔數(shù)量。由對(duì)于()和nk兩個(gè)值分別呈現(xiàn)正相關(guān)和負(fù)相關(guān)的關(guān)系多,且該詞條在其他文檔中出現(xiàn)少,其權(quán)值就越大,對(duì)區(qū)大。題模型種非常流行的生成概率主題模型,其中每個(gè)文檔都表示....



本文編號(hào):4024721

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/4024721.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2347e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com