天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于語義的中文短文本模糊譜聚類

發(fā)布時間:2018-02-26 16:00

  本文關(guān)鍵詞: 短文本 文本聚類 知網(wǎng) 語義 譜聚類 出處:《華東師范大學(xué)》2015年碩士論文 論文類型:學(xué)位論文


【摘要】:隨著互聯(lián)網(wǎng)的不斷發(fā)展和移動互聯(lián)網(wǎng)的出現(xiàn),電腦和移動通訊設(shè)備日益普及,微信、微博等各類應(yīng)用也大量涌現(xiàn),人們接觸并產(chǎn)生了大量的短文本信息。這些文本信息雖然內(nèi)容較少,但是卻覆蓋了政治、經(jīng)濟、娛樂、教育等各個領(lǐng)域,對這些信息進行有效分析和管理具有重要的參考和實用價值。文本聚類是對信息進行分析和管理的重要技術(shù)支撐,所謂文本聚類就是根據(jù)文檔之間的相似度將文檔數(shù)據(jù)集分成若干個簇或類,使同一簇或類的文檔間相似度較大,不同簇或類的文檔間相似度較小。其中文本聚類主要包含兩個方面的內(nèi)容:文本相似度計算和聚類算法。在本文中,首先對文本聚類進行了詳細的描述,然后基于知網(wǎng)對文本相似度計算方法進行了改進,最后將根據(jù)改進方法得到的文本相似度結(jié)果應(yīng)用到譜聚類算法中,同時對譜聚類算法進行了進一步改進,使最終的聚類效果更加準確。針對文本相似度計算,本文基于知網(wǎng)已有的文本相似度計算方法,在計算義原相似度時加入了義原節(jié)點區(qū)域密度因素;在計算詞語相似度時充分考慮第一獨立義原、其他獨立義原和跟隨義原的關(guān)系,并提出了動態(tài)詞語相似度計算方法,同時動態(tài)化了各義原部分的權(quán)重分配;在計算文本相似度時根據(jù)短文本的文本特性,簡化了文本相似度計算過程。同時在將根據(jù)改進的文本相似度計算方法得到的結(jié)果應(yīng)用到譜聚類算法時,本文針對譜聚類的不足也提出了改進方法。為了得到更加精確的數(shù)據(jù)集相似度矩陣,本文引入數(shù)據(jù)集密度因素來構(gòu)造新的相似度矩陣;針對譜聚類處理海量數(shù)據(jù)的短板,本文將數(shù)據(jù)集進行分塊聚類,降低了譜聚類的計算復(fù)雜度;同時對于分塊聚類導(dǎo)致的模糊隸屬數(shù)據(jù),本文對這些數(shù)據(jù)進行重新劃分,提高了聚類準確度。本文最后對提出的改進進行了實驗對比和分析,結(jié)果表明,本文針對短文本聚類兩個方面的改進具有較好的效果。
[Abstract]:......
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 王娜;杜海峰;莊健;余進濤;王孫安;;三種典型的基于圖分割的譜聚類方法比較[J];系統(tǒng)仿真學(xué)報;2009年11期

2 王會青;陳俊杰;;基于圖劃分的譜聚類方法的研究[J];計算機工程與設(shè)計;2011年01期

3 王春騰;符傳誼;邢潔清;;基于非負約束的譜聚類方法[J];電腦知識與技術(shù);2011年17期

4 何飛;王曉晨;馬粹;梁治國;;生產(chǎn)狀態(tài)的測地距離譜聚類分析[J];計算機工程與應(yīng)用;2012年24期

5 薛寧靜;;生產(chǎn)狀態(tài)的熵值評估譜聚類分析[J];計算機工程與應(yīng)用;2012年19期

6 管濤;王杰;;譜聚類的算子理論研究進展[J];計算機科學(xué);2013年S1期

7 周文剛;陳雷霆;董仕;;基于譜聚類的網(wǎng)絡(luò)流量分類識別算法[J];電子測量與儀器學(xué)報;2013年12期

8 王玲;薄列峰;焦李成;;密度敏感的半監(jiān)督譜聚類[J];軟件學(xué)報;2007年10期

9 林立;胡俠;朱俊彥;;基于譜聚類的多文檔摘要新方法[J];計算機工程;2010年22期

10 劉馨月;李靜偉;于紅;尤全增;林鴻飛;;基于共享近鄰的自適應(yīng)譜聚類[J];小型微型計算機系統(tǒng);2011年09期

相關(guān)博士學(xué)位論文 前1條

1 孔敏;關(guān)聯(lián)圖的譜分析及譜聚類方法研究[D];安徽大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 何心琪;基于譜聚類的水聲圖像分割技術(shù)研究[D];哈爾濱工程大學(xué);2013年

2 趙冬琴;基于譜聚類的MCI影像學(xué)分類特征研究與應(yīng)用[D];太原理工大學(xué);2014年

3 張俊英;基于譜聚類的圖書目錄重構(gòu)[D];浙江大學(xué);2010年

4 張?zhí)鞆?基于譜聚類的親友通話圈挖掘[D];華南理工大學(xué);2013年

5 鄭偉;基于核與特征選擇的譜聚類社區(qū)檢測算法[D];西安電子科技大學(xué);2013年

6 朱正偉;譜聚類研究及其在入侵檢測中的應(yīng)用[D];重慶大學(xué);2010年

7 由里;基于譜聚類的圖像分割方法研究[D];國防科學(xué)技術(shù)大學(xué);2011年

8 張洪;結(jié)合概率潛在語義分析的文本譜聚類研究[D];重慶大學(xué);2012年

9 陳志豪;基于阻尼距離的譜聚類集成算法研究與實現(xiàn)[D];華南理工大學(xué);2013年

10 鄧小燕;譜聚類在基因表達數(shù)據(jù)分析中的應(yīng)用與研究[D];重慶大學(xué);2010年



本文編號:1538687

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/zhengzhijingjixuelunwen/1538687.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶906c8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com