天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于螢火蟲算法的文本聚類研究

發(fā)布時間:2018-06-25 19:38

  本文選題:螢火蟲算法 + 文本聚類; 參考:《西南大學(xué)》2017年碩士論文


【摘要】:由于當(dāng)代信息技術(shù)的高速發(fā)展,現(xiàn)代的人類難以離開互聯(lián)網(wǎng)帶來的便利生活。新浪微博、微信公眾號、博客等等手機(jī)App的發(fā)達(dá)使得人類也在不斷地制造各種各樣的網(wǎng)絡(luò)信息,與此同時,各種各樣,各門各科的資料、文獻(xiàn)及統(tǒng)計(jì)數(shù)據(jù)從紙質(zhì)實(shí)體轉(zhuǎn)換為電腦可以識別的電子信息,導(dǎo)致信息數(shù)量成指數(shù)倍地爆炸式增長。信息匱乏的年代也離我們越來越遠(yuǎn),給我們提出一個難題,就是如何在這日益堆積的無序的海量文本信息中高效準(zhǔn)確地找到目標(biāo)信息,這一直是研究人員研究的熱點(diǎn)。作為數(shù)據(jù)挖掘的一個重要發(fā)展方向,文本挖掘包含但不限于文本的分類、文本的聚類分析、趨勢的發(fā)現(xiàn)估測、關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。其中,文本聚類是一種無監(jiān)督學(xué)習(xí)技術(shù)。它通過將文本之間相似度大的盡可能分到同一組,將文本之間相似度小的盡可能分到不同的組,由此將潛伏的有價值的知識和規(guī)律從海量的不規(guī)則的文本數(shù)據(jù)中發(fā)掘出來,以供人們使用。目前,文本聚類已經(jīng)在文本信息挖掘、信息檢索、用戶個性化推薦等多個領(lǐng)域得到了不同程度的使用和推廣。在當(dāng)前的文本聚類研究中,大多研究聚焦在對文本相似度計(jì)算的改進(jìn)或者將傳統(tǒng)的聚類算法應(yīng)用到文本聚類上,然而傳統(tǒng)的聚類算法如K-medoids對海量的不規(guī)則的文本聚類來說,缺乏穩(wěn)定性和精確度。目前,已經(jīng)存在應(yīng)用群體仿生智能優(yōu)化算法來改善此類問題的先例,如粒子群算法PSO、蟻群算法ACO。螢火蟲算法(Firefly Algorithm,FA)模擬大自然中螢火蟲群體通過發(fā)光來覓食、求偶的生物學(xué)特點(diǎn)而產(chǎn)生的一種新型智能仿生算法,其具有算法結(jié)構(gòu)簡單、魯棒性強(qiáng)、容易實(shí)現(xiàn)等特點(diǎn),與粒子群算法相比較,具有更強(qiáng)的搜索全局最優(yōu)解的能力和更快的收斂速度,目前已被應(yīng)用到優(yōu)化問題、聚類分析、圖像處理等多個領(lǐng)域。但是,對于使用螢火蟲算法進(jìn)行文本聚類仍處于起步的階段,所以,如何針對文本聚類的特點(diǎn),結(jié)合螢火蟲算法的優(yōu)勢進(jìn)行改進(jìn)以獲得更優(yōu)良的性能具有重要的意義。本文所做的主要工作可以歸納為以下幾個方面:(1)對傳統(tǒng)的FA算法做了增強(qiáng)改進(jìn)。傳統(tǒng)的螢火蟲算法雖然有算法結(jié)構(gòu)簡單、魯棒性強(qiáng)、容易實(shí)現(xiàn)等特點(diǎn),但也仍然存在收斂速度不理想、容易早熟等缺點(diǎn)。針對收斂速度不夠快,本文為螢火蟲的飛行設(shè)計(jì)了步長自適應(yīng)的規(guī)則,其有利于在各個螢火蟲飛行距離過遠(yuǎn)時調(diào)整飛行方向和速度,往一個方向聚集。同時,為了加快其搜索的速度,本文還提出了一種隨機(jī)選擇螢火蟲來實(shí)現(xiàn)減少螢火蟲算法運(yùn)行時間的策略。(2)將增強(qiáng)的FA融合傳統(tǒng)K中心點(diǎn)算法進(jìn)行研究。通過分析FA的特點(diǎn),本文將FA應(yīng)用于文本聚類,提出一種融合螢火蟲算法和傳統(tǒng)劃分的聚類算法K中心點(diǎn)算法的混合算法。(3)實(shí)驗(yàn)分析。分別將K-means、K中心點(diǎn)算法和本文提出的融合算法做了文本聚類實(shí)驗(yàn),并對實(shí)驗(yàn)結(jié)果做了統(tǒng)計(jì)和詳細(xì)的分析。實(shí)驗(yàn)結(jié)果表明,本文提出的基于螢火蟲算法和K中心點(diǎn)算法的混合算法同傳統(tǒng)的K中心點(diǎn)算法、K均值算法相比,擁有更佳的效果和更優(yōu)的性能表現(xiàn)。本文將首次螢火蟲算法應(yīng)用于文本聚類,模仿螢火蟲們基于發(fā)光度、感光系數(shù)、距離等因素的飛行構(gòu)造螢火蟲群,通過螢火蟲群體的覓食、求偶行為來求取每個簇類中最佳的聚類中心,為文本聚類的研究提供了一種新的方法,同時也對螢火蟲算法的發(fā)展有推動作用。
[Abstract]:This paper presents a new intelligent bionic algorithm , such as particle swarm algorithm PSO , ant colony algorithm ACO and Firefly Algorithm . ( 1 ) In order to speed up its search , this paper proposes a hybrid algorithm for reducing the running time of the Firefly algorithm , which is based on the characteristics of the algorithm , such as K - means , K - point algorithm and the traditional K - point algorithm .
【學(xué)位授予單位】:西南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP18;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 唐少虎;劉小明;;一種改進(jìn)的自適應(yīng)步長的人工螢火蟲算法[J];智能系統(tǒng)學(xué)報(bào);2015年03期

2 王銘波;符強(qiáng);童楠;劉政;趙一鳴;;基于模擬退火機(jī)制的多種群螢火蟲算法[J];計(jì)算機(jī)應(yīng)用;2015年03期

3 杜曉剛;黨建武;王陽萍;劉新國;李莎;;基于螢火蟲算法的互信息醫(yī)學(xué)圖像配準(zhǔn)[J];計(jì)算機(jī)科學(xué);2013年07期

4 曾冰;李明富;張翼;馬建華;;基于螢火蟲算法的裝配序列規(guī)劃研究[J];機(jī)械工程學(xué)報(bào);2013年11期

5 周季華;葉春明;;應(yīng)用螢火蟲算法求解置換流水線問題[J];計(jì)算機(jī)應(yīng)用研究;2013年01期

6 路榮;項(xiàng)亮;劉明榮;楊青;;基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J];模式識別與人工智能;2012年03期

7 劉佳昆;周永權(quán);;一種最大最小螢光素值人工螢火蟲算法[J];計(jì)算機(jī)應(yīng)用研究;2011年10期

8 劉金嶺;;基于語義的高質(zhì)量中文短信文本聚類算法[J];計(jì)算機(jī)工程;2009年10期

9 姚清耘;劉功申;李翔;;基于向量空間模型的文本聚類算法[J];計(jì)算機(jī)工程;2008年18期

10 彭京;楊冬青;唐世渭;付艷;蔣漢奎;;一種基于語義內(nèi)積空間模型的文本聚類算法[J];計(jì)算機(jī)學(xué)報(bào);2007年08期

,

本文編號:2067246

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2067246.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e7e0b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com