中文文本聚類算法研究
本文關(guān)鍵詞:中文文本聚類算法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:聚類作為一種無監(jiān)督的學(xué)習(xí)算法,具有一定的靈活性和較高的自動化處理能力。其應(yīng)用領(lǐng)域非常廣泛,它可以結(jié)合文本挖掘技術(shù),對文本進行聚類分析,從而可以應(yīng)用于搜索引擎中,方便用戶快速搜索到自己想要的有價值的信息,同時也可以應(yīng)用于垃圾郵件的過濾、文檔歸類等問題中。本文主要研究的是中文文本聚類算法。首先對課題的研究背景和意義進行了闡述,隨后引入文本挖掘的概念,并對文本挖掘的相關(guān)技術(shù)進行研究,利用R語言中的Rwordseg包和jiebaR包實現(xiàn)文本的分詞、研究文本特征提取與降維技術(shù),如常見的TF-IDF技術(shù)。在第三章中對文本聚類的流程和常見的聚類算法做總結(jié)。重點介紹了VSM文本表示模型和幾種常用的聚類算法。最后應(yīng)用k-means、hclust聚類算法對旅游業(yè)的用戶點評數(shù)據(jù)進行聚類,并分析聚類效果。同時加入電子商務(wù)業(yè)的點評數(shù)據(jù)進行文本聚類,和旅游業(yè)的聚類效果對比分析。
【關(guān)鍵詞】:文本挖掘 文本聚類 聚類算法
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-7
- 第一章 緒論7-9
- 1.1 課題研究背景與意義7
- 1.2 文本聚類的發(fā)展歷程7-8
- 1.3 本文研究內(nèi)容8-9
- 第二章 文本挖掘9-14
- 2.1 文本挖掘的思想9
- 2.2 文本挖掘相關(guān)技術(shù)總結(jié)9-10
- 2.3 中文文本的預(yù)處理技術(shù)10-14
- 2.3.1 中文文本分詞技術(shù)10-12
- 2.3.2 特征提取與降維12-14
- 第三章 文本聚類14-18
- 3.1 文本聚類思想14
- 3.2 文本聚類的相關(guān)流程14-15
- 3.3 文本表示模型15
- 3.4 聚類算法模型15-18
- 第四章 文本聚類算法實現(xiàn)18-26
- 4.1 文本相似度計算方式18-19
- 4.2 R語言中文本聚類實現(xiàn)19-26
- 4.2.1 文本表示過程19-22
- 4.2.2 基于k-means聚類算法的文本聚類22-23
- 4.2.3 基于hclust聚類算法的文本聚類23-24
- 4.2.4 兩種聚類算法效果差的原因解釋24-26
- 第五章 總結(jié)26-27
- 參考文獻(xiàn)27-29
- 附錄29-30
- 致謝30-31
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 龔靜;李英杰;;文本聚類算法的分析與比較[J];湖南環(huán)境生物職業(yè)技術(shù)學(xué)院學(xué)報;2006年03期
2 李眾;梁志劍;;一種改進的文本聚類算法[J];陜西科技大學(xué)學(xué)報(自然科學(xué)版);2008年06期
3 甘克勤;叢超;張寶林;孫旭凱;;基于劃分的文本聚類算法在標(biāo)準(zhǔn)文獻(xiàn)中的試驗與對比研究[J];標(biāo)準(zhǔn)科學(xué);2013年10期
4 莫紫娟;;試論短文本聚類算法在微博的應(yīng)用[J];科技致富向?qū)?2014年09期
5 史夢潔;;文本聚類算法綜述[J];現(xiàn)代計算機(專業(yè)版);2014年03期
6 張書敏;;短文本聚類算法研究[J];科技致富向?qū)?2013年09期
7 朱君;曲超;湯庸;;利用單詞超團的二分圖文本聚類算法[J];電子科技大學(xué)學(xué)報;2008年03期
8 石曉敬;韓燮;;文本聚類算法的設(shè)計與實現(xiàn)[J];計算機工程與設(shè)計;2010年09期
9 殷風(fēng)景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計算機應(yīng)用研究;2011年01期
10 李巖;婁云;;文本聚類算法在輿情監(jiān)控中的應(yīng)用分析[J];電子設(shè)計工程;2013年01期
中國重要會議論文全文數(shù)據(jù)庫 前1條
1 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 程楊;中文短文本聚類算法的研究[D];吉林大學(xué);2016年
2 汪丹丹;中文文本聚類算法研究[D];蘇州大學(xué);2016年
3 馬文超;基于2度頻繁詞序列的文本聚類算法研究[D];河南大學(xué);2009年
4 劉龍海;基于成對約束的半監(jiān)督文本聚類算法研究[D];重慶大學(xué);2011年
5 黃文江;中文文本聚類算法分析與研究[D];上海交通大學(xué);2010年
6 潘啟蒙;文本聚類算法的研究與實現(xiàn)[D];吉林大學(xué);2008年
7 郭增新;基于語義的文本聚類算法研究[D];西安電子科技大學(xué);2012年
8 高利波;文本聚類算法的研究及應(yīng)用[D];電子科技大學(xué);2013年
9 馬素琴;基于相似度的文本聚類算法研究及應(yīng)用[D];江蘇大學(xué);2010年
10 翟獻(xiàn)民;維吾爾語文本聚類算法研究[D];新疆大學(xué);2013年
本文關(guān)鍵詞:中文文本聚類算法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:488020
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/488020.html