改進的密度峰值算法應(yīng)用于文本聚類問題研究
【學(xué)位授予單位】:哈爾濱工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.1
【圖文】:
第 1 章 緒論究的背景及意義網(wǎng)等新興媒體的普及,人們能獲取到的信息內(nèi)容更加豐富,獲取。對于熱點事件來說,從發(fā)生到傳播幾乎呈現(xiàn)指數(shù)型的速率。與信息過載和信息冗余等問題。尤其是在網(wǎng)絡(luò)人口基數(shù)較大的中國根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心第 40 次《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計017 年我國網(wǎng)民的數(shù)量已達將近 8 億人,互聯(lián)網(wǎng)普及率為 54.3%
第 2 章 相關(guān)理論和方法類預(yù)處理技術(shù)類作為文本挖掘與信息檢索的重要研究領(lǐng)域之一,有著廣泛用途,統(tǒng)、新聞熱搜等應(yīng)用中都有著文本聚類的影子。在眾多網(wǎng)絡(luò)信息中薦今日的熱點話題,或者是根據(jù)用戶瀏覽習(xí)慣所推測出其可能感興聚類的幫助。聚類分析作為一種無監(jiān)督的學(xué)習(xí),和分類最大的區(qū)別數(shù)據(jù)的特征和屬性進行訓(xùn)練和學(xué)習(xí)。一個高效的文本聚類方法可以構(gòu)的數(shù)據(jù)最終處理為一個個簇內(nèi)相似度較高的數(shù)據(jù)集,方便用戶對本聚類的大概流程如下:
≥<=(())()()(())()idididididididPbestfXtfPbestXtfXtfPbestPbest 步驟法的步驟如下:化粒子,種群規(guī)模設(shè)置為M(一般設(shè)置粒子數(shù)為 20-5 [,]minmaxV V內(nèi)隨機生成粒子的初始位置 (0)idX 和初始子等參數(shù)。每個粒子 X(t)id的適應(yīng)度值。公式(2-18)更新每個粒子的idPbest 和種群的 Gbest 。迭代公式(2-16)和(2-17)更新粒子速度和位置即 V(tid是否達到終止條件即滿足迭代次數(shù)或者適應(yīng)度精度1,返回步驟 2。圖如下:
【參考文獻】
相關(guān)期刊論文 前10條
1 周晨曦;梁循;齊金山;;基于約束動態(tài)更新的半監(jiān)督層次聚類算法[J];自動化學(xué)報;2015年07期
2 孟祥武;劉樹棟;張玉潔;胡勛;;社會化推薦系統(tǒng)研究[J];軟件學(xué)報;2015年06期
3 陳壽文;;基于質(zhì)心和自適應(yīng)指數(shù)慣性權(quán)重改進的粒子群算法[J];計算機應(yīng)用;2015年03期
4 熊眾望;羅可;;基于改進的簡化粒子群聚類算法[J];計算機應(yīng)用研究;2014年12期
5 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識別與人工智能;2013年12期
6 翟東海;魚江;高飛;于磊;丁鋒;;最大距離法選取初始簇中心的K-means文本聚類算法的研究[J];計算機應(yīng)用研究;2014年03期
7 劉海峰;蘇展;劉守生;;一種基于詞頻信息的改進CHI文本特征選擇[J];計算機工程與應(yīng)用;2013年22期
8 王民;尹超;王稚慧;要趁紅;高婧;;Binary-Positive下的并行化CURE算法[J];計算機工程與應(yīng)用;2014年11期
9 郝文寧;馮波;陳剛;靳大尉;趙水寧;;基于領(lǐng)域本體的文檔向量空間模型構(gòu)建[J];計算機應(yīng)用研究;2013年03期
10 吳曉軍;李峰;馬悅;辛云宏;;均勻搜索粒子群算法的收斂性分析[J];電子學(xué)報;2012年06期
相關(guān)碩士學(xué)位論文 前1條
1 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學(xué);2010年
本文編號:2782984
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2782984.html