文本聚類中特征選擇方法研究
本文關鍵詞:文本聚類中特征選擇方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展和廣泛普及,網(wǎng)絡上的信息資源日益豐富和龐大,想要合理地有效地管理這些海量繁雜的信息變得越來越困難。大部分數(shù)據(jù)信息被存儲在電子媒體上,其中有許多數(shù)據(jù)都是以非結構化的文本形式存在的,這在數(shù)據(jù)分析和處理方面增加了難度,因此人們很難從中挖掘出有價值的資源。文本聚類技術作為一種重要的技術在數(shù)據(jù)挖掘領域中能夠?qū)崿F(xiàn)這一目標。文本聚類技術通過對大量的非結構化的文本數(shù)據(jù)信息進行組織,使其轉換為少數(shù)有意義的簇,方便用戶發(fā)現(xiàn)其中有價值的信息。因此,文本聚類技術成為了熱點研究。本文對此所做的研究工作具體如下:(1)對文本聚類中的相關的技術做了系統(tǒng)性的介紹,并詳細地闡述了幾種用于文本聚類中的無監(jiān)督的特征選擇方法,以及各自的優(yōu)點和缺點;然后,深入研究了文檔頻數(shù)(DF)算法和單詞貢獻度(TC)算法,對它們各自的優(yōu)點和缺點進行了深入剖析;最后,本文考慮特征詞的語義信息對文本的重要性,引入了詞性權值因子和詞長權值因子對文檔頻數(shù)算法做出改進,并結合了TC算法完成了特征選擇的步驟,提出了基于DF和TC的聯(lián)合特征選擇方法;(2)簡單地闡述了幾類常見的文本聚類算法,并深入研究了K-means聚類算法,分析了它的優(yōu)點和缺點。K-means是一種簡單、高效的聚類算法,但其對于初始聚類中心有著極大的依賴性,當初始聚類中心選擇不當時,最終得到的聚類結果可能是局部最優(yōu)解,而非全局最優(yōu)解。為此,本文結合了“距離優(yōu)化法”和“密度法”選取更優(yōu)的初始聚類中心以提高K-means的文本聚類效果,并提出了改進的K-means方法;(3)設計了一個由文本預處理模塊、文本表示模塊、聚類分析模塊等基本功能模塊組成的中文文本聚類系統(tǒng)實驗平臺,通過實驗將本文提出的改進方法與其原方法進行比較,并利用查準率、查全率、F1值等性能評價指標來評價實驗結果。根據(jù)實驗比較得出,本文的改進方法的聚類效果更優(yōu)。
【關鍵詞】:文本聚類 特征選擇方法 聚類算法
【學位授予單位】:湖北工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-8
- 第1章 引言8-12
- 1.1 研究背景和意義8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9-11
- 1.2.1 國內(nèi)研究現(xiàn)狀9-10
- 1.2.2 國外研究現(xiàn)狀10-11
- 1.3 本文研究內(nèi)容和組織結構11-12
- 1.3.1 本文研究內(nèi)容11
- 1.3.2 本文組織結構11-12
- 第2章 文本聚類概述12-18
- 2.1 文本聚類定義12
- 2.2 文本聚類流程12-13
- 2.3 文本預處理13
- 2.4 文本表示13-15
- 2.5 特征降維15
- 2.6 特征權重計算15-16
- 2.7 文本相似度計算16-17
- 2.8 本章小結17-18
- 第3章 特征選擇方法18-24
- 3.1 無監(jiān)督特征選擇方法18-20
- 3.1.1 文檔頻數(shù)18-19
- 3.1.2 單詞權19
- 3.1.3 單詞熵19-20
- 3.1.4 單詞貢獻度20
- 3.2 基于DF和TC的聯(lián)合特征選擇方法20-23
- 3.2.1 DF和TC算法分析20-21
- 3.2.2 改進的DF算法21-23
- 3.2.3 聯(lián)合特征選擇方法23
- 3.3 本章小結23-24
- 第4章 文本聚類算法24-31
- 4.1 常用的文本聚類算法24-26
- 4.1.1 劃分聚類法24
- 4.1.2 層次聚類法24-25
- 4.1.3 基于密度的聚類方法25-26
- 4.1.4 基于網(wǎng)格的聚類方法26
- 4.2 K-MEANS算法分析26-28
- 4.2.1 K-means算法描述26-27
- 4.2.2 K-means算法的優(yōu)缺點27-28
- 4.3 改進的K-MEANS算法28-30
- 4.3.1 目前已有的初始聚類中心選擇方法28
- 4.3.2 優(yōu)化初始聚類中心選擇方法28-30
- 4.3.3 改進的K-means算法30
- 4.4 本章小結30-31
- 第5章 實驗方法與實驗結果分析31-42
- 5.1 實驗方法31-36
- 5.1.1 中文文本聚類系統(tǒng)實驗流程31-33
- 5.1.2 系統(tǒng)基本功能實現(xiàn)33-35
- 5.1.3 實驗數(shù)據(jù)集35
- 5.1.4 實驗采用的評價指標35-36
- 5.2 實驗結果分析36-40
- 5.2.1 特征選擇方法的對比實驗及結果分析36-39
- 5.2.2 聚類算法的對比實驗及結果分析39-40
- 5.3 本章小結40-42
- 第6章 總結與展望42-43
- 6.1 總結42
- 6.2 展望42-43
- 參考文獻43-46
- 致謝46
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 趙亞琴;周獻中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計算機工程;2006年06期
2 劉務華;羅鐵堅;王文杰;;文本聚類技術的有效性驗證[J];計算機工程;2007年01期
3 丁X;許侃;;基于文本聚類方法的我國科技管理研究領域的計量研究[J];科學學研究;2007年S1期
4 孫愛香;楊鑫華;;關于文本聚類有效性評價的研究[J];山東理工大學學報(自然科學版);2007年05期
5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學報;2007年06期
6 吳啟明;易云飛;;文本聚類綜述[J];河池學院學報;2008年02期
7 李江華;楊書新;劉利峰;;基于概念格的文本聚類[J];計算機應用;2008年09期
8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期
9 章成志;;文本聚類結果描述研究綜述[J];現(xiàn)代圖書情報技術;2009年02期
10 馬娜;;文本聚類研究[J];電腦知識與技術;2009年20期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學生計算語言學研討會論文集[C];2006年
2 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學術會議(NCIRCS-2005)論文集[C];2005年
3 胡吉祥;許洪波;劉悅;王斌;程學旗;;基于重復串的短文本聚類研究[A];全國第八屆計算語言學聯(lián)合學術會議(JSCL-2005)論文集[C];2005年
4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應用[A];第三屆全國信息檢索與內(nèi)容安全學術會議論文集[C];2007年
5 王明文;付劍波;羅遠勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國信息檢索與內(nèi)容安全學術會議論文集(上)[C];2008年
6 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年
7 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2007年
8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學術交流會通信與信息技術論文集[C];2009年
9 張寶艷;王慶輝;;中文文本聚類的研究與實現(xiàn)[A];第一屆學生計算語言學研討會論文集[C];2002年
10 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學基金委員會管理科學部宏觀管理與政策學科青年基金獲得者交流研討會論文集[C];2010年
中國博士學位論文全文數(shù)據(jù)庫 前3條
1 徐森;文本聚類集成關鍵技術研究[D];哈爾濱工程大學;2010年
2 高茂庭;文本聚類分析若干問題研究[D];天津大學;2007年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術研究[D];哈爾濱工業(yè)大學;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡輿情管理研究[D];西南交通大學;2015年
2 張培偉;基于改進Single-Pass算法的熱點話題發(fā)現(xiàn)系統(tǒng)的設計與實現(xiàn)[D];華中師范大學;2015年
3 郭士串;結合權重因子與特征向量的文本聚類研究與應用[D];江西理工大學;2015年
4 邵明來;中文文本聚類關鍵技術研究[D];廣西大學;2015年
5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學;2015年
6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學;2015年
7 樊兆欣;個性化新聞推薦系統(tǒng)關鍵技術研究與實現(xiàn)[D];北京理工大學;2015年
8 蘇圣瞳;微博熱點話題發(fā)現(xiàn)系統(tǒng)的設計與實現(xiàn)[D];復旦大學;2014年
9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學;2015年
10 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡輿情分析系統(tǒng)設計與實現(xiàn)[D];電子科技大學;2014年
本文關鍵詞:文本聚類中特征選擇方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號:374756
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/374756.html