一種中文文本聚類方法的研究.pdf 全文 文檔投稿網(wǎng)
本文關(guān)鍵詞:一種中文文本聚類方法的研究,由筆耕文化傳播整理發(fā)布。
密級(jí):??
編號(hào):??
工學(xué)碩士學(xué)位論文
一種中文文本聚類方法的研究
碩士研究生
:張麗
指導(dǎo)教師
:劉杰教授
學(xué)位級(jí)別 :工學(xué)碩士
學(xué)科、專業(yè)
:計(jì)算機(jī)應(yīng)用技術(shù)
所在單位
:計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院
論文提交日期:年月日
論文答辯日期:年月日
學(xué)位授予單位:哈爾濱工程大學(xué)哈爾濱工程大學(xué)碩士學(xué)位論文
摘 要
世紀(jì)年代以來,隨著信息技術(shù)和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,人們可
以非常方便地獲取和存儲(chǔ)大量數(shù)據(jù)。數(shù)據(jù)大多以文本形式存在。如何從大規(guī)
模的文本中快速獲取所需要的信息呢文本挖掘就是加工和處理這些文本,
從而為人類提供更多的信息。作為文本挖掘的重要分支,文本聚類技術(shù)的研
究有著重要的意義。
本文主要是針對(duì)文本聚類中的經(jīng)典算法.算法給出兩點(diǎn)改進(jìn),使
算法能夠適合大規(guī)模文本聚類。首先,本文針對(duì).算法中初
始點(diǎn)的選擇問題進(jìn)行深入的研究,同時(shí)指出:初始點(diǎn)的選擇對(duì).算法
的影響較大。本文結(jié)合文本矩陣的特點(diǎn),給出一種應(yīng)用算法來改進(jìn)初
始點(diǎn)選擇的算法,通過去掉增長較慢的樣本點(diǎn)和小類的方式,減少孤立點(diǎn)對(duì)
聚類中心形成的影響。其次,對(duì)文本聚類中的特征選擇也給出改進(jìn)算法。改
進(jìn)后的算法將動(dòng)態(tài)和局部思想引入了算法。在聚類開始時(shí),保
留更多的文本信息?特征詞語。在迭代過程中,利用算法選出能標(biāo)明
具體類的特征詞語,從而動(dòng)態(tài)地利用這些特征詞語進(jìn)行聚類,加速迭代的收
斂。改進(jìn)后的算法在一定程度上提高了.算法的精度。
最后,本文通過實(shí)驗(yàn)對(duì)改進(jìn)后的算法進(jìn)行驗(yàn)證,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,
說明了算法的優(yōu)點(diǎn)和不足。
關(guān)鍵詞:文本聚類;算法:算法:主成分分析哈爾濱工程大學(xué)碩士學(xué)位論文. .
“. 、, Ⅱ
.,.?
. .
?
,
,
.
. ,
.,
. . .
,
, . . ,
,.,
;
: ; ;哈爾濱工程大學(xué)
學(xué)位論文原創(chuàng)性聲明
本人
本文關(guān)鍵詞:一種中文文本聚類方法的研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):147605
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/147605.html