天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于語(yǔ)義相似度的群智能文本聚類(lèi)方法研究

發(fā)布時(shí)間:2018-04-13 09:19

  本文選題:文本聚類(lèi) + 語(yǔ)義相似度。 參考:《江蘇科技大學(xué)》2012年碩士論文


【摘要】:當(dāng)今世界正處于一個(gè)信息爆炸的時(shí)代,用戶查詢信息時(shí)常常被信息淹沒(méi),迷失在信息中,這大大降低了檢索的效率。如何快速高效的進(jìn)行信息的分類(lèi)管理,為用戶提供準(zhǔn)確有用的信息,是一個(gè)需要迫切解決的問(wèn)題。在這樣的背景下,,文本挖掘技術(shù)正受到越來(lái)越多的關(guān)注。文本聚類(lèi)是文本挖掘的一個(gè)重要組成部分,它是聚類(lèi)方法在文本處理領(lǐng)域的重要應(yīng)用。 文本聚類(lèi)由于不需要類(lèi)別的信息,能自動(dòng)完成文本分組,已經(jīng)得到廣泛應(yīng)用,如多文檔自動(dòng)文摘系統(tǒng)、搜索引擎、數(shù)字圖書(shū)館等。目前大部分聚類(lèi)算法是基于向量空間模型的,這使得文本聚類(lèi)面臨高維性、高稀疏性和忽略語(yǔ)義信息的問(wèn)題,影響了算法的性能和準(zhǔn)確性。 本文首先介紹了文本聚類(lèi)中一些概念和方法,包括文本間距離計(jì)算、文本表示模型、文本預(yù)處理過(guò)程、聚類(lèi)效果評(píng)價(jià)和常用的聚類(lèi)算法等;接著介紹了《知網(wǎng)》的組織結(jié)構(gòu)、相關(guān)概念和語(yǔ)義相似度的計(jì)算方法,同時(shí)也提出了一種改進(jìn)的文本間相似度計(jì)算方法,將其和K-均值算法結(jié)合,通過(guò)實(shí)驗(yàn)數(shù)據(jù),證明了該方法的正確性;最后介紹了本文的兩種群智能算法,并提出了本文的基于語(yǔ)義相似度的群智能文本聚類(lèi)算法。 在文本預(yù)處理的特征提取階段計(jì)算權(quán)重時(shí),既考慮了詞頻和文檔頻率,也結(jié)合了詞的詞性和詞在文本中的位置這兩個(gè)因素;針對(duì)向量空間模型忽略了詞的語(yǔ)義信息的問(wèn)題,本文利用《知網(wǎng)》,通過(guò)詞的語(yǔ)義信息,來(lái)計(jì)算文本相似度;針對(duì)前人研究的成果,提出了本文的算法,它是在文本相似度的基礎(chǔ)上,融合了K-均值算法、蟻群算法和模擬退火算法,利用了它們各自的優(yōu)點(diǎn),避免了各自的缺點(diǎn),通過(guò)實(shí)驗(yàn)數(shù)據(jù),可以看出該算法的有效性。
[Abstract]:Nowadays, the world is in an era of information explosion, when users search for information, they are often submerged by information and lost in information, which greatly reduces the efficiency of retrieval.How to manage information quickly and efficiently and provide users with accurate and useful information is an urgent problem.In this context, text mining technology is getting more and more attention.Text clustering is an important part of text mining, it is an important application of clustering method in the field of text processing.Text clustering has been widely used in many fields, such as multi-document automatic abstracting system, search engine, digital library and so on.At present, most clustering algorithms are based on vector space model, which makes text clustering face the problems of high dimension, high sparsity and neglecting semantic information, which affects the performance and accuracy of the algorithm.This paper first introduces some concepts and methods of text clustering, including text distance calculation, text representation model, text preprocessing process, clustering effect evaluation and common clustering algorithms, etc.At the same time, an improved method for calculating the similarity between texts is proposed, which is combined with the K-means algorithm. The experimental data show that the method is correct.Finally, this paper introduces two kinds of intelligent algorithms, and proposes a text clustering algorithm based on semantic similarity.When calculating the weight in the feature extraction stage of text preprocessing, we not only consider the word frequency and document frequency, but also combine the word's part of speech and the word's position in the text, and ignore the semantic information of the word in the vector space model.In this paper, the text similarity is calculated by the semantic information of words, and the algorithm of this paper is proposed, which is based on the similarity of the text, and combines the K-means algorithm, which is based on the text similarity.Ant colony algorithm and simulated annealing algorithm take advantage of their respective advantages and avoid their shortcomings. The validity of the algorithm can be seen from the experimental data.
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類(lèi)號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 熊忠陽(yáng);暴自強(qiáng);李智星;張玉芳;;結(jié)合LSA的中文譜聚類(lèi)算法研究[J];計(jì)算機(jī)應(yīng)用研究;2010年03期

2 姜寧,史忠植;文本聚類(lèi)中的貝葉斯后驗(yàn)?zāi)P瓦x擇方法[J];計(jì)算機(jī)研究與發(fā)展;2002年05期

3 韓臘萍,余雪麗;一個(gè)分布式入侵檢測(cè)系統(tǒng)框架設(shè)計(jì)[J];計(jì)算機(jī)工程;2004年13期

4 郭慶琳,樊孝忠;基于文本聚類(lèi)和NLU的自動(dòng)文摘系統(tǒng)的研究與實(shí)現(xiàn)[J];現(xiàn)代電力;2004年04期

5 郭慶琳,樊孝忠,柳長(zhǎng)安;基于文本聚類(lèi)和NLU的自動(dòng)文摘研究[J];北京理工大學(xué)學(xué)報(bào);2005年08期

6 郭慶琳;樊孝忠;柳長(zhǎng)安;;基于文本聚類(lèi)的自動(dòng)文摘系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2006年04期

7 鞏知樂(lè);張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期

8 姚清耘;劉功申;李翔;;基于向量空間模型的文本聚類(lèi)算法[J];計(jì)算機(jī)工程;2008年18期

9 門(mén)國(guó)尊;;用于信息檢索的文本聚類(lèi)技術(shù)[J];今日科苑;2008年20期

10 李眾;梁志劍;;一種改進(jìn)的文本聚類(lèi)算法[J];陜西科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年06期

相關(guān)會(huì)議論文 前10條

1 張猛;王大玲;于戈;;一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類(lèi)方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

2 關(guān)毅;王曉龍;;基于統(tǒng)計(jì)的漢語(yǔ)詞匯間語(yǔ)義相似度計(jì)算[A];語(yǔ)言計(jì)算與基于內(nèi)容的文本處理——全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

3 董婧靈;李芳;何婷婷;涂新輝;萬(wàn)劍;;基于LDA模型的文本聚類(lèi)研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年

4 王樂(lè);田李;賈焰;韓偉紅;;一個(gè)并行的文本聚類(lèi)混合算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年

5 張寶艷;王慶輝;;中文文本聚類(lèi)的研究與實(shí)現(xiàn)[A];第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2002年

6 黃佳來(lái);王立波;袁道敏;;基于語(yǔ)義相似度的查詢擴(kuò)展研究[A];浙江省電子學(xué)會(huì)2008年學(xué)術(shù)年會(huì)論文集[C];2008年

7 劉曉平;沈冠町;;協(xié)同討論觀點(diǎn)影響度分析方法及其應(yīng)用[A];全國(guó)第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2011)暨全國(guó)第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會(huì)議論文摘要集[C];2011年

8 張剛;周昭濤;王斌;;基于主題的分布式信息檢索研究[A];NCIRCS2004第一屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年

9 劉立;余正濤;王蒙;毛存禮;郭劍毅;;結(jié)合詞相關(guān)特征與流行學(xué)習(xí)的中文問(wèn)句分類(lèi)[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

10 劉寒磊;關(guān)毅;徐永東;;多文檔文摘中基于語(yǔ)義相似度的最大邊緣相關(guān)技術(shù)研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

相關(guān)重要報(bào)紙文章 前2條

1 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 王 斌;內(nèi)容為王[N];計(jì)算機(jī)世界;2004年

2 王培森;從Web挖到競(jìng)爭(zhēng)情報(bào)[N];中國(guó)計(jì)算機(jī)報(bào);2003年

相關(guān)博士學(xué)位論文 前10條

1 劉宏哲;文本語(yǔ)義相似度計(jì)算方法研究[D];北京交通大學(xué);2012年

2 宋玲;語(yǔ)義相似度計(jì)算及其應(yīng)用研究[D];山東大學(xué);2009年

3 徐森;文本聚類(lèi)集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

4 孟憲軍;互聯(lián)網(wǎng)文本聚類(lèi)與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

5 郝立麗;漢語(yǔ)文本數(shù)據(jù)挖掘[D];吉林大學(xué);2009年

6 倪興良;問(wèn)答系統(tǒng)中的短文本聚類(lèi)研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年

7 劉向威;NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年

8 高茂庭;文本聚類(lèi)分析若干問(wèn)題研究[D];天津大學(xué);2007年

9 胡佳妮;文本挖掘中若干關(guān)鍵問(wèn)題的研究[D];北京郵電大學(xué);2008年

10 宣照國(guó);文本挖掘算法及其在知識(shí)管理中的應(yīng)用研究[D];大連理工大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 尹睿;基于語(yǔ)義相似度的論文文本聚類(lèi)算法研究[D];大連理工大學(xué);2009年

2 王曙光;基于蟻群的文本聚類(lèi)算法的改進(jìn)研究[D];大連理工大學(xué);2006年

3 孫爽;基于語(yǔ)義相似度的文本聚類(lèi)算法的研究[D];南京航空航天大學(xué);2007年

4 孔靜;基于語(yǔ)義和領(lǐng)域相關(guān)的文本聚類(lèi)研究[D];中國(guó)石油大學(xué);2009年

5 何晏成;基于近鄰傳播和凝聚層次的文本聚類(lèi)方法[D];哈爾濱工業(yè)大學(xué);2010年

6 張金;個(gè)性化信息檢索系統(tǒng)中文本聚類(lèi)的研究[D];東北師范大學(xué);2010年

7 龐俊;基于確定話題和情感極性的博客文本聚類(lèi)研究[D];武漢理工大學(xué);2010年

8 李梅;改進(jìn)的K均值算法在中文文本聚類(lèi)中的研究[D];安徽大學(xué);2010年

9 王飛;基于蟻群優(yōu)化的模糊文本聚類(lèi)算法研究[D];河南工業(yè)大學(xué);2010年

10 趙穎;基于Ontology的Web文本聚類(lèi)研究[D];西華大學(xué);2011年



本文編號(hào):1743872

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1743872.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dc1e8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com