天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

結(jié)合概率潛在語義分析的文本譜聚類研究

發(fā)布時間:2018-06-14 22:33

  本文選題:聚類分析 + 譜聚類; 參考:《重慶大學》2012年碩士論文


【摘要】:聚類分析是當前數(shù)據(jù)挖掘領(lǐng)域中一個研究熱點,已經(jīng)被廣泛應(yīng)用于搜索引擎、科學數(shù)據(jù)探測、信息過濾、Web分析、圖像處理等領(lǐng)域。譜聚類算法作為一種新穎的聚類分析算法,與傳統(tǒng)的聚類方法相比,該方法不僅可以處理復(fù)雜的數(shù)據(jù)類型,將聚類問題轉(zhuǎn)換為代數(shù)問題進行求解;而且它簡單易實現(xiàn),可以在任意形狀簇的樣本空間上進行聚類,具有辨別非凸組合的能力并能在全局上獲取最優(yōu)解。 然而,,譜聚類算法也存在一些不足。譜聚類中的相似矩陣一般建立在向量空間模型之上,該模型忽略了詞的同義、多義的問題,造成了信息的大量冗余;此外,譜聚類對高斯函數(shù)中的尺度參數(shù)十分敏感,使得譜聚類的性能很不穩(wěn)定。 為了解決上述問題,本文首先用概率潛在語義分析方法提取潛藏語義信息,以彌補向量空間模型中缺乏語義信息描述的缺陷;然后,利用夾角余弦計算相似度的方法構(gòu)造相似矩陣,以消除尺度參數(shù)對譜聚類的影響。最后,將改進后的方法運用到文本譜聚類上。在此過程中,本文主要研究工作如下: ①分析了當前向量空間模型中存在的不足:一是該模型忽略了詞語之間存在的多義性和同義性的問題,造成了特征冗余;二是由于文本特征項的高維性,在對文本數(shù)據(jù)的處理時就需要消耗大量時間;針對這些問題,提出結(jié)合概率潛在語義分析的譜聚類算法。 ②研究了譜聚類算法的有關(guān)背景理論知識和方法,并總結(jié)了譜聚類算法的一般處理過程,深入分析了譜聚類中相似矩陣的構(gòu)造問題。 ③傳統(tǒng)譜聚類算法中相似度的計算采用的是高斯函數(shù),該方法需要根據(jù)經(jīng)驗人為初始化尺度參數(shù),使得該函數(shù)具有一定的局限性,影響譜聚類的性能。本文沒有專門研究對尺度參數(shù)的優(yōu)化,而是用夾角余弦方法計算文本之間的相似度,來避免尺度參數(shù)人為選擇引起的不足,提高譜聚類的性能。 最后,在重新構(gòu)造的相似矩陣上進行文本譜聚類,并進行實驗分析,采用聚類準確度和互信息指標評價實驗結(jié)果,在該評價指標上,本文提出的在語義空間上采用夾角余弦計算文本之間相似度的方法相比于原來的方法,得到的譜聚類效果更好、性能更穩(wěn)定。結(jié)果表明本文提出的改進方法是可行性的。
[Abstract]:Clustering analysis is a research hotspot in the field of data mining, which has been widely used in search engine, scientific data detection, information filtering Web analysis, image processing and other fields. Spectral clustering algorithm is a novel clustering analysis algorithm. Compared with the traditional clustering method, this method can not only deal with complex data types and transform the clustering problem into algebraic problems, but also be simple and easy to implement. Clustering can be carried out on the sample space of arbitrary shape clusters, which has the ability to distinguish non-convex combinations and to obtain the optimal solution globally. However, the spectral clustering algorithm also has some shortcomings. The similarity matrix in spectral clustering is generally based on the vector space model, which neglects the synonyms and polysemes of words, resulting in a great deal of redundancy of information. In addition, spectral clustering is very sensitive to the scale parameters in Gao Si function. The performance of spectral clustering is unstable. In order to solve the above problems, this paper firstly uses probabilistic latent semantic analysis method to extract latent semantic information to make up for the lack of semantic information description in vector space model. In order to eliminate the influence of scale parameters on spectral clustering, the similarity matrix is constructed by using angle cosine to calculate similarity. Finally, the improved method is applied to text spectral clustering. In this process, the main work of this paper is as follows: 1. The shortcomings of the current vector space model are analyzed. One is that the model ignores the problems of polysemy and synonym between words, resulting in feature redundancy; Second, because of the high dimension of text feature, it takes a lot of time to process text data. A spectral clustering algorithm based on probabilistic latent semantic analysis is proposed. 2 the background theoretical knowledge and methods of spectral clustering algorithm are studied, and the general processing process of spectral clustering algorithm is summarized. In this paper, the problem of constructing similarity matrix in spectral clustering is deeply analyzed. (3) in the traditional spectral clustering algorithm, the similarity is calculated by Gao Si function, which needs to initialize the scale parameters according to the experience. This function has some limitations and affects the performance of spectral clustering. This paper does not focus on the optimization of scale parameters, but uses the angle cosine method to calculate the similarity between texts to avoid the shortcomings caused by the artificial selection of scale parameters and to improve the performance of spectral clustering. Finally, the text spectrum clustering is carried out on the reconstructed similarity matrix, and the experimental analysis is carried out. The experimental results are evaluated by clustering accuracy and mutual information index. Compared with the original method, the proposed method using angle cosine to calculate the similarity of text in semantic space has better spectral clustering effect and more stable performance. The results show that the improved method proposed in this paper is feasible.
【學位授予單位】:重慶大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 張婧;李玨峰;;數(shù)據(jù)挖掘技術(shù)在BBS管理中的應(yīng)用[J];福建電腦;2008年04期

2 大魚兒;;自動擴展大小的TEdit[J];軟件;2001年07期

3 趙春紅;劉國華;王檸;何玲玲;;外包數(shù)據(jù)庫模型中文本數(shù)據(jù)的完整性檢測方案[J];小型微型計算機系統(tǒng);2010年09期

4 仲志平;劉渝妍;翟從鴻;;基于BWC的XML文本數(shù)據(jù)索引技術(shù)[J];安徽師范大學學報(自然科學版);2011年03期

5 仲志平;劉渝妍;孫建洪;;基于BWC的XML文本數(shù)據(jù)索引技術(shù)研究[J];昆明學院學報;2011年03期

6 杜德生;田小軍;;Lucene應(yīng)用中Pdf文檔文本數(shù)據(jù)提取方法研究[J];自動化技術(shù)與應(yīng)用;2009年03期

7 王成強;;基于不平衡數(shù)據(jù)集的文本分類技術(shù)[J];電腦知識與技術(shù);2009年36期

8 孫開放;使用通信控件實現(xiàn)字節(jié)通信方式[J];微計算機信息;2002年03期

9 薛冰冰,普杰信;數(shù)據(jù)挖掘技術(shù)及其在電子郵件中的應(yīng)用[J];信息技術(shù);2003年07期

10 崔時珍;;純文本數(shù)據(jù)在VFP中導(dǎo)入導(dǎo)出[J];電腦學習;2009年01期

相關(guān)會議論文 前10條

1 宋曉雷;王素格;李紅霞;;基于概率潛在語義分析的詞匯情感傾向判別[A];第五屆全國青年計算語言學研討會論文集[C];2010年

2 陳光強;楊樹強;張曉輝;李潤恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實現(xiàn)[A];第15屆全國信息存儲技術(shù)學術(shù)會議論文集[C];2008年

3 劉昌鈺;郭穎;唐常杰;翟靜;李海宏;;基于潛在語義分析與Bayes分類的BBS文檔鑒別[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2001年

4 丁兆云;賈焰;周斌;;基于文本數(shù)據(jù)的多維層次式輿情計算模型的研究與實現(xiàn)[A];第二十五屆中國數(shù)據(jù)庫學術(shù)會議論文集(一)[C];2008年

5 龍長江;萬鵬;;近紅外檢測技術(shù)在中藥研究中的應(yīng)用[A];中國農(nóng)業(yè)工程學會2011年學術(shù)年會論文集[C];2011年

6 任紀生;王作英;趙敏;;基于潛在語義信息的漢語語音識別方法[A];中文信息處理技術(shù)研討會論文集[C];2004年

7 耿煥同;吳祥;畢碩本;;基于潛在語義分析的BBS主題發(fā)現(xiàn)算法研究[A];計算機技術(shù)與應(yīng)用進展·2007——全國第18屆計算機技術(shù)與應(yīng)用(CACIS)學術(shù)會議論文集[C];2007年

8 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

9 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2006年

10 楊艷;李巍;玄萍;;數(shù)字圖書館中基于Ontology的文本模型[A];黑龍江省計算機學會2009年學術(shù)交流年會論文集[C];2010年

相關(guān)重要報紙文章 前10條

1 曾華q

本文編號:2019200


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2019200.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶db89f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com