天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

中文文本聚類算法研究

發(fā)布時間:2017-06-27 00:11

  本文關(guān)鍵詞:中文文本聚類算法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:聚類作為一種無監(jiān)督的學(xué)習(xí)算法,具有一定的靈活性和較高的自動化處理能力。其應(yīng)用領(lǐng)域非常廣泛,它可以結(jié)合文本挖掘技術(shù),對文本進行聚類分析,從而可以應(yīng)用于搜索引擎中,方便用戶快速搜索到自己想要的有價值的信息,同時也可以應(yīng)用于垃圾郵件的過濾、文檔歸類等問題中。本文主要研究的是中文文本聚類算法。首先對課題的研究背景和意義進行了闡述,隨后引入文本挖掘的概念,并對文本挖掘的相關(guān)技術(shù)進行研究,利用R語言中的Rwordseg包和jiebaR包實現(xiàn)文本的分詞、研究文本特征提取與降維技術(shù),如常見的TF-IDF技術(shù)。在第三章中對文本聚類的流程和常見的聚類算法做總結(jié)。重點介紹了VSM文本表示模型和幾種常用的聚類算法。最后應(yīng)用k-means、hclust聚類算法對旅游業(yè)的用戶點評數(shù)據(jù)進行聚類,并分析聚類效果。同時加入電子商務(wù)業(yè)的點評數(shù)據(jù)進行文本聚類,和旅游業(yè)的聚類效果對比分析。
【關(guān)鍵詞】:文本挖掘 文本聚類 聚類算法
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-7
  • 第一章 緒論7-9
  • 1.1 課題研究背景與意義7
  • 1.2 文本聚類的發(fā)展歷程7-8
  • 1.3 本文研究內(nèi)容8-9
  • 第二章 文本挖掘9-14
  • 2.1 文本挖掘的思想9
  • 2.2 文本挖掘相關(guān)技術(shù)總結(jié)9-10
  • 2.3 中文文本的預(yù)處理技術(shù)10-14
  • 2.3.1 中文文本分詞技術(shù)10-12
  • 2.3.2 特征提取與降維12-14
  • 第三章 文本聚類14-18
  • 3.1 文本聚類思想14
  • 3.2 文本聚類的相關(guān)流程14-15
  • 3.3 文本表示模型15
  • 3.4 聚類算法模型15-18
  • 第四章 文本聚類算法實現(xiàn)18-26
  • 4.1 文本相似度計算方式18-19
  • 4.2 R語言中文本聚類實現(xiàn)19-26
  • 4.2.1 文本表示過程19-22
  • 4.2.2 基于k-means聚類算法的文本聚類22-23
  • 4.2.3 基于hclust聚類算法的文本聚類23-24
  • 4.2.4 兩種聚類算法效果差的原因解釋24-26
  • 第五章 總結(jié)26-27
  • 參考文獻(xiàn)27-29
  • 附錄29-30
  • 致謝30-31

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 龔靜;李英杰;;文本聚類算法的分析與比較[J];湖南環(huán)境生物職業(yè)技術(shù)學(xué)院學(xué)報;2006年03期

2 李眾;梁志劍;;一種改進的文本聚類算法[J];陜西科技大學(xué)學(xué)報(自然科學(xué)版);2008年06期

3 甘克勤;叢超;張寶林;孫旭凱;;基于劃分的文本聚類算法在標(biāo)準(zhǔn)文獻(xiàn)中的試驗與對比研究[J];標(biāo)準(zhǔn)科學(xué);2013年10期

4 莫紫娟;;試論短文本聚類算法在微博的應(yīng)用[J];科技致富向?qū)?2014年09期

5 史夢潔;;文本聚類算法綜述[J];現(xiàn)代計算機(專業(yè)版);2014年03期

6 張書敏;;短文本聚類算法研究[J];科技致富向?qū)?2013年09期

7 朱君;曲超;湯庸;;利用單詞超團的二分圖文本聚類算法[J];電子科技大學(xué)學(xué)報;2008年03期

8 石曉敬;韓燮;;文本聚類算法的設(shè)計與實現(xiàn)[J];計算機工程與設(shè)計;2010年09期

9 殷風(fēng)景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計算機應(yīng)用研究;2011年01期

10 李巖;婁云;;文本聚類算法在輿情監(jiān)控中的應(yīng)用分析[J];電子設(shè)計工程;2013年01期

中國重要會議論文全文數(shù)據(jù)庫 前1條

1 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 程楊;中文短文本聚類算法的研究[D];吉林大學(xué);2016年

2 汪丹丹;中文文本聚類算法研究[D];蘇州大學(xué);2016年

3 馬文超;基于2度頻繁詞序列的文本聚類算法研究[D];河南大學(xué);2009年

4 劉龍海;基于成對約束的半監(jiān)督文本聚類算法研究[D];重慶大學(xué);2011年

5 黃文江;中文文本聚類算法分析與研究[D];上海交通大學(xué);2010年

6 潘啟蒙;文本聚類算法的研究與實現(xiàn)[D];吉林大學(xué);2008年

7 郭增新;基于語義的文本聚類算法研究[D];西安電子科技大學(xué);2012年

8 高利波;文本聚類算法的研究及應(yīng)用[D];電子科技大學(xué);2013年

9 馬素琴;基于相似度的文本聚類算法研究及應(yīng)用[D];江蘇大學(xué);2010年

10 翟獻(xiàn)民;維吾爾語文本聚類算法研究[D];新疆大學(xué);2013年


  本文關(guān)鍵詞:中文文本聚類算法研究,,由筆耕文化傳播整理發(fā)布。



本文編號:488020

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/488020.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶77e7c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com