天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

文本聚類算法及其在話題發(fā)現(xiàn)中的應(yīng)用研究

發(fā)布時間:2019-09-22 13:01
【摘要】:隨著當(dāng)今世界信息化時代的迅猛發(fā)展,大量的數(shù)據(jù)信息呈現(xiàn)出爆炸式的增長態(tài)勢,而且隨著互聯(lián)網(wǎng)的進(jìn)步,這些海量數(shù)據(jù)的傳播速度也日益加快。由于網(wǎng)民的大規(guī)模增長,網(wǎng)絡(luò)輿情在一定程度上呈現(xiàn)出社會的輿情導(dǎo)向。如何正確的引導(dǎo),保證網(wǎng)絡(luò)健康的發(fā)展,加強網(wǎng)絡(luò)輿情監(jiān)控和管理面臨著巨大的壓力和挑戰(zhàn)。目前話題發(fā)現(xiàn)是及時了解網(wǎng)絡(luò)信息的一種手段,可以對網(wǎng)絡(luò)信息進(jìn)行有效的分類,從而使網(wǎng)絡(luò)監(jiān)管機構(gòu)可以快速了解網(wǎng)絡(luò)動態(tài)。話題發(fā)現(xiàn)可以理解為一種針對事件的聚類,話題發(fā)現(xiàn)技術(shù)的核心是聚類分析,而文本聚類是目前話題發(fā)現(xiàn)技術(shù)中最常用也是最重要的方法。近些年來,基于有限混合模型的聚類方法得到了國內(nèi)外學(xué)者更多的關(guān)注和研究。其中,有限高斯混合模型在各個應(yīng)用領(lǐng)域得到了廣泛的研究。但是,在現(xiàn)實中,隨著數(shù)據(jù)的復(fù)雜化,許多數(shù)據(jù)的概率分布都不符合高斯分布,因此有限高斯混合模型無法準(zhǔn)確的對這些具有非高斯性的數(shù)據(jù)進(jìn)行擬合。目前有限混合模型存在著模型參數(shù)估計和模型選擇困難的問題。模型分量數(shù)的選擇過多或過少會引起模型的過擬合或欠擬合的問題,而無限混合模型通過初始時假設(shè)混合分量數(shù)無窮大,可以直接避開混合模型的模型選擇問題。狄利克雷混合模型是一種非參數(shù)的貝葉斯模型,可以理解為一種有效的聚類方法,適用于對有界的數(shù)據(jù)進(jìn)行建模研究。因此,本文以話題發(fā)現(xiàn)為研究背景,針對有限混合模型存在的問題,在研究利用無限狄利克雷混合模型的學(xué)習(xí)方法對非高斯數(shù)據(jù)建模的基礎(chǔ)上,提出了一種變分近似推理的算法。利用目標(biāo)數(shù)據(jù)集進(jìn)行了大量實驗,驗證了本文提出的基于無限狄利克雷混合模型的變分學(xué)習(xí)算法和有限狄利克雷混合模型相比,具有更精確的參數(shù)估計和更快的算法收斂速度,可以很好地解決有限混合模型中存在的參數(shù)估計和模型選擇的問題。同時,本文將研究的基于無限狄利克雷混合模型的變分學(xué)習(xí)算法應(yīng)用于文本聚類中,得到很好的文本聚類效果,然后設(shè)計并搭建話題發(fā)現(xiàn)系統(tǒng)并將本文研究的文本聚類算法應(yīng)用于話題發(fā)現(xiàn)。
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 喬少杰;金琨;韓楠;唐常杰;格桑多吉;Louis Alberto GUTIERREZ;;一種基于高斯混合模型的軌跡預(yù)測算法[J];軟件學(xué)報;2015年05期

2 王鵬;高鋮;陳曉美;;基于LDA模型的文本聚類研究[J];情報科學(xué);2015年01期

3 賴裕平;丁洪偉;周亞建;郭玉翠;楊義先;;有限貝塔劉維爾混合模型的變分學(xué)習(xí)及其應(yīng)用[J];電子學(xué)報;2014年07期

4 崔瑋;吳成東;張云洲;賈子熙;程龍;;基于高斯混合模型的非視距定位算法[J];通信學(xué)報;2014年01期

5 梅素玉;王飛;周水庚;;狄利克雷過程混合模型、擴展模型及應(yīng)用[J];科學(xué)通報;2012年34期

6 吳夙慧;成穎;鄭彥寧;潘云濤;;文本聚類中文本表示和相似度計算研究綜述[J];情報科學(xué);2012年04期

7 李志義;;網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略[J];現(xiàn)代情報;2011年10期

8 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計算機研究與發(fā)展;2011年10期

9 陳廣福;蔡國永;林航;王瑞麗;劉國賓;;多Agent系統(tǒng)中基于狄利克雷分布的信任模型[J];計算機工程;2011年14期

10 劉紅芝;;中文分詞技術(shù)的研究[J];電腦開發(fā)與應(yīng)用;2010年03期

相關(guān)博士學(xué)位論文 前1條

1 賴裕平;非高斯混合模型的變分學(xué)習(xí)算法研究[D];北京郵電大學(xué);2014年

相關(guān)碩士學(xué)位論文 前3條

1 古俊哲;有限高斯混合模型聚類算法的研究[D];蘭州商學(xué)院;2014年

2 詹勇;基于主題模型和混合模型的微博客交叉話題發(fā)現(xiàn)研究[D];西南交通大學(xué);2013年

3 賴文杰;教育新聞熱點話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2011年

,

本文編號:2539999

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2539999.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a2a72***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com