天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

模糊譜聚類分割策略在文本聚類中的應(yīng)用研究

發(fā)布時間:2017-09-24 04:34

  本文關(guān)鍵詞:模糊譜聚類分割策略在文本聚類中的應(yīng)用研究


  更多相關(guān)文章: 文本聚類 模糊譜聚類 噪聲數(shù)據(jù) 自動確定聚類數(shù)


【摘要】:文本聚類作為一種無監(jiān)督的機器學(xué)習(xí)方法,近年來已成為自然語言處理領(lǐng)域中研究的熱點,傳統(tǒng)的聚類算法只能將一個樣本點劃分到一個聚類中,但現(xiàn)實生活中,很多事物的歸屬并沒有特別明確,模糊聚類(Fuzzy Clustering,FC)算法的出現(xiàn)為解決這些問題提供了新的思路,實現(xiàn)了對樣本集合的模糊劃分,模糊聚類中使用的最廣泛的是FCM(Fuzzy C-means)算法。FCM屬于分割聚類算法的一種,它存在著分割聚類算法普遍存在的缺點,如算法易陷入局部最優(yōu)、對噪聲數(shù)據(jù)敏感、需要事先指定聚類個數(shù)等問題。譜聚類算法(Spectral Clustering,SC)可以實現(xiàn)對任意形狀的樣本空間聚類,且得到全局最優(yōu)解,本文通過將SC算法和FCM算法相結(jié)合,給出一種模糊譜聚類分割策略,即模糊譜聚類分割算法(Fuzzy Spectral Clustering,FSC),該算法實現(xiàn)了對任意形狀樣本空間的聚類;通過分析FSC中噪聲點的隸屬度,發(fā)現(xiàn)隸屬度歸一化約束條件存在的問題,并提出對該隸屬度約束條件進行改進的方法,對FSC算法進行改進,進而得出改進隸屬度的模糊譜聚類分割算法(Improved Membership Degree FSC,IMD-FSC),解決了噪聲數(shù)據(jù)問題;根據(jù)拉普拉斯矩陣的特征值差異和聚類數(shù)目之間的關(guān)系,提出了一種自動確定聚類數(shù)目的方法,將其用于IMD-FSC算法中,得出了自適應(yīng)的模糊譜聚類算法(Adaptive IMD-FSC,AIMD-FSC),實現(xiàn)了聚類數(shù)目的自動確定。本文給出了詳細的實驗步驟,將以上三種方法分別應(yīng)用于文本聚類中,實現(xiàn)了對文本集合的模糊劃分,使用準確率、召回率對實驗的結(jié)果進行分析。實驗結(jié)果表明,本文提出的AIMD-FSC算法的聚類效果得到了很大的提升,具備一定的應(yīng)用價值。
【關(guān)鍵詞】:文本聚類 模糊譜聚類 噪聲數(shù)據(jù) 自動確定聚類數(shù)
【學(xué)位授予單位】:貴州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 摘要5-6
  • Abstract6-8
  • 第1章 緒論8-13
  • 1.1 研究背景及意義8-9
  • 1.2 國內(nèi)外研究現(xiàn)狀9-11
  • 1.2.1 文本聚類國內(nèi)外研究現(xiàn)狀9-10
  • 1.2.2 模糊聚類國內(nèi)外研究現(xiàn)狀10-11
  • 1.3 論文主要研究工作11-12
  • 1.4 論文組織結(jié)構(gòu)12-13
  • 第2章 文本聚類概述13-21
  • 2.1 文本聚類概念13
  • 2.2 文本聚類過程13-14
  • 2.3 文本聚類常用算法14-19
  • 2.3.1 分割聚類算法15-16
  • 2.3.2 層次聚類算法16-17
  • 2.3.3 基于密度的聚類算法17-18
  • 2.3.4 基于網(wǎng)格的聚類算法18-19
  • 2.3.5 基于模型的聚類算法19
  • 2.4 文本聚類效果評價19-20
  • 2.5 本章小結(jié)20-21
  • 第3章 相關(guān)理論介紹21-33
  • 3.1 譜聚類算法概述21-27
  • 3.1.1 譜聚類算法的數(shù)學(xué)基礎(chǔ)21-25
  • 3.1.2 譜圖劃分理論25-26
  • 3.1.3 譜聚類算法過程26-27
  • 3.2 模糊聚類算法概述27-32
  • 3.2.1 模糊理論概念及其發(fā)展27-28
  • 3.2.2 模糊理論用于聚類28
  • 3.2.3 聚類問題的數(shù)學(xué)表示28-30
  • 3.2.4 FCM算法30-32
  • 3.3 本章小結(jié)32-33
  • 第4章 模糊譜聚類分割算法及改進33-43
  • 4.1 模糊譜聚類分割算法FSC33-34
  • 4.2 改進隸屬度的FSC算法IMD-FSC34-38
  • 4.2.1 噪聲數(shù)據(jù)問題34-35
  • 4.2.2 問題分析35-37
  • 4.2.3 算法改進37-38
  • 4.3 自適應(yīng)的IMD-FSC算法AIMD-FSC38-42
  • 4.3.1 確定聚類數(shù)目問題38
  • 4.3.2 問題分析38-39
  • 4.3.3 算法改進39-42
  • 4.4 本章小結(jié)42-43
  • 第5章 實驗及結(jié)果分析43-55
  • 5.1 實驗語料庫選擇43-44
  • 5.2 實驗環(huán)境44
  • 5.3 實驗過程44-50
  • 5.3.1 分詞及去停用詞45-46
  • 5.3.2 特征選擇46
  • 5.3.3 構(gòu)造特征向量46-47
  • 5.3.4 計算文本間相似度47-48
  • 5.3.5 聚類48-49
  • 5.3.6 評價聚類結(jié)果49-50
  • 5.4 實驗結(jié)果及分析50-54
  • 5.4.1 本文算法實驗對比50-52
  • 5.4.2 IMD-FSC處理噪聲數(shù)據(jù)實驗52-53
  • 5.4.3 AIMD-FSC算法自動確定聚類數(shù)目實驗53-54
  • 5.5 本章小結(jié)54-55
  • 第6章 總結(jié)與展望55-57
  • 6.1 本文工作總結(jié)55-56
  • 6.2 展望56-57
  • 致謝57-58
  • 參考文獻58-60
  • 附錄60-61
  • 圖版61-62

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 趙亞琴;周獻中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計算機工程;2006年06期

2 劉務(wù)華;羅鐵堅;王文杰;;文本聚類技術(shù)的有效性驗證[J];計算機工程;2007年01期

3 丁X;許侃;;基于文本聚類方法的我國科技管理研究領(lǐng)域的計量研究[J];科學(xué)學(xué)研究;2007年S1期

4 孫愛香;楊鑫華;;關(guān)于文本聚類有效性評價的研究[J];山東理工大學(xué)學(xué)報(自然科學(xué)版);2007年05期

5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報;2007年06期

6 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報;2008年02期

7 李江華;楊書新;劉利峰;;基于概念格的文本聚類[J];計算機應(yīng)用;2008年09期

8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期

9 章成志;;文本聚類結(jié)果描述研究綜述[J];現(xiàn)代圖書情報技術(shù);2009年02期

10 馬娜;;文本聚類研究[J];電腦知識與技術(shù);2009年20期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年

2 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議(NCIRCS-2005)論文集[C];2005年

3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年

4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

5 王明文;付劍波;羅遠勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年

6 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年

7 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2007年

8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年

9 張寶艷;王慶輝;;中文文本聚類的研究與實現(xiàn)[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年

10 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學(xué)基金委員會管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會論文集[C];2010年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前3條

1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

2 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年

3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年

2 張培偉;基于改進Single-Pass算法的熱點話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];華中師范大學(xué);2015年

3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年

4 邵明來;中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年

5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年

6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年

7 樊兆欣;個性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實現(xiàn)[D];北京理工大學(xué);2015年

8 蘇圣瞳;微博熱點話題發(fā)現(xiàn)系統(tǒng)的設(shè)計與實現(xiàn)[D];復(fù)旦大學(xué);2014年

9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年

10 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年



本文編號:909384

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/909384.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶91f5a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com