改進(jìn)的密度峰值算法應(yīng)用于文本聚類問題研究

發(fā)布時間：2020-08-06 21:23

【摘要】：在當(dāng)今大數(shù)據(jù)的時代中,信息技術(shù)也已經(jīng)滲透到各行各業(yè)。隨著對信息需求的增多,如何幫助用戶將繁多的數(shù)據(jù)處理成邏輯化的形式就成了亟待解決的問題。目前最核心信息載體就是中文文本,文本聚類也成為快速組織和分析用戶感興趣的文本信息的重要途徑之一。通過預(yù)處理和聚類分析操作,對原本無結(jié)構(gòu)的文本數(shù)據(jù)形式化描述,最終按照相似度的大小聚成不同類簇,對信息檢索、新聞話題發(fā)現(xiàn)等具有重要的理論意義。在深入研究的基礎(chǔ)上,本文選取了具有參數(shù)少、原理簡單、易于實(shí)現(xiàn)等優(yōu)點(diǎn)的密度峰值算法用于文本聚類。針對密度峰值算法聚類中心點(diǎn)選擇問題,對粒子群算法作出改進(jìn),并與之結(jié)合,應(yīng)用在文本聚類中,旨在提高聚類效果。主要做了以下兩部分的研究工作:(1)在對標(biāo)準(zhǔn)粒子群算法的各個參數(shù)尤其是慣性權(quán)重的深入研究上,提出了一種動態(tài)調(diào)節(jié)慣性權(quán)重策略,綜合考慮粒子適應(yīng)度值賦予不同的慣性權(quán)重,平衡算法在不同迭代時期的全局搜索和局部搜索能力;研究分析了粒子在高維多峰函數(shù)尋優(yōu)時易陷入局部最優(yōu)的問題,提出了一種由柯西算子構(gòu)成的擾動因子策略增強(qiáng)種群變異性,拓寬最優(yōu)粒子搜索空間,幫助逃離局部最優(yōu)。綜合以上兩點(diǎn),提出一種自適應(yīng)指數(shù)慣性權(quán)重粒子群優(yōu)化算法;最后在不同測試函數(shù)上進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:算法精度和穩(wěn)定性有所提高。(2)提出了一種新的適應(yīng)度函數(shù)構(gòu)造方法作為結(jié)合AEW-PSO和密度峰值算法的橋梁,綜合考慮了局部密度、距離參數(shù)以及類內(nèi)離散度等,更科學(xué)的指導(dǎo)聚類中心的選擇,提高了算法效果。將基于AEW-PSO優(yōu)化的密度峰值算法應(yīng)用在文本聚類中,采用更符合文本距離計(jì)算的余弦距離代替原本的歐式距離度量,并提出了算法的整體框架。最后通過對比實(shí)驗(yàn)驗(yàn)證了本文提出的算法在準(zhǔn)確率、召回率、F1值等三個評價指標(biāo)上整體取得了最優(yōu)值,有效實(shí)現(xiàn)了文本聚類。
【學(xué)位授予單位】：哈爾濱工程大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2018
【分類號】：TP391.1
【圖文】：

中國網(wǎng),增長率,新興媒體,緒論

第 1 章緒論究的背景及意義網(wǎng)等新興媒體的普及，人們能獲取到的信息內(nèi)容更加豐富，獲取。對于熱點(diǎn)事件來說，從發(fā)生到傳播幾乎呈現(xiàn)指數(shù)型的速率。與信息過載和信息冗余等問題。尤其是在網(wǎng)絡(luò)人口基數(shù)較大的中國根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心第 40 次《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)017 年我國網(wǎng)民的數(shù)量已達(dá)將近 8 億人，互聯(lián)網(wǎng)普及率為 54.3%

流程圖,文本聚類,流程圖

第 2 章相關(guān)理論和方法類預(yù)處理技術(shù)類作為文本挖掘與信息檢索的重要研究領(lǐng)域之一，有著廣泛用途，統(tǒng)、新聞熱搜等應(yīng)用中都有著文本聚類的影子。在眾多網(wǎng)絡(luò)信息中薦今日的熱點(diǎn)話題，或者是根據(jù)用戶瀏覽習(xí)慣所推測出其可能感興聚類的幫助。聚類分析作為一種無監(jiān)督的學(xué)習(xí)，和分類最大的區(qū)別數(shù)據(jù)的特征和屬性進(jìn)行訓(xùn)練和學(xué)習(xí)。一個高效的文本聚類方法可以構(gòu)的數(shù)據(jù)最終處理為一個個簇內(nèi)相似度較高的數(shù)據(jù)集，方便用戶對本聚類的大概流程如下：

流程圖,粒子群算法,流程圖,粒子

≥<=(())()()(())()idididididididPbestfXtfPbestXtfXtfPbestPbest 步驟法的步驟如下：化粒子，種群規(guī)模設(shè)置為M（一般設(shè)置粒子數(shù)為 20-5 [,]minmaxV V內(nèi)隨機(jī)生成粒子的初始位置 (0)idX 和初始子等參數(shù)。每個粒子 X(t)id的適應(yīng)度值。公式(2-18)更新每個粒子的idPbest 和種群的 Gbest 。迭代公式(2-16)和(2-17)更新粒子速度和位置即 V(tid是否達(dá)到終止條件即滿足迭代次數(shù)或者適應(yīng)度精度1，返回步驟 2。圖如下：

【參考文獻(xiàn)】

相關(guān)期刊論文前10條

1 周晨曦;梁循;齊金山;;基于約束動態(tài)更新的半監(jiān)督層次聚類算法[J];自動化學(xué)報;2015年07期

2 孟祥武;劉樹棟;張玉潔;胡勛;;社會化推薦系統(tǒng)研究[J];軟件學(xué)報;2015年06期

3 陳壽文;;基于質(zhì)心和自適應(yīng)指數(shù)慣性權(quán)重改進(jìn)的粒子群算法[J];計(jì)算機(jī)應(yīng)用;2015年03期

4 熊眾望;羅可;;基于改進(jìn)的簡化粒子群聚類算法[J];計(jì)算機(jī)應(yīng)用研究;2014年12期

5 文順;趙杰煜;朱紹軍;;基于貝葉斯和諧度的層次聚類[J];模式識別與人工智能;2013年12期

6 翟東海;魚江;高飛;于磊;丁鋒;;最大距離法選取初始簇中心的K-means文本聚類算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2014年03期

7 劉海峰;蘇展;劉守生;;一種基于詞頻信息的改進(jìn)CHI文本特征選擇[J];計(jì)算機(jī)工程與應(yīng)用;2013年22期

8 王民;尹超;王稚慧;要趁紅;高婧;;Binary-Positive下的并行化CURE算法[J];計(jì)算機(jī)工程與應(yīng)用;2014年11期

9 郝文寧;馮波;陳剛;靳大尉;趙水寧;;基于領(lǐng)域本體的文檔向量空間模型構(gòu)建[J];計(jì)算機(jī)應(yīng)用研究;2013年03期

10 吳曉軍;李峰;馬悅;辛云宏;;均勻搜索粒子群算法的收斂性分析[J];電子學(xué)報;2012年06期

相關(guān)碩士學(xué)位論文前1條

1 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學(xué);2010年

本文編號：2782984

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2782984.html

上一篇：藏文詞性自動標(biāo)注系統(tǒng)的研究與實(shí)現(xiàn)
下一篇：基于視覺感知和數(shù)據(jù)緊湊表達(dá)的圖像美感質(zhì)量評估方法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

改進(jìn)的密度峰值算法應(yīng)用于文本聚類問題研究