一種中文文本聚類方法的研究.pdf 全文文檔投稿網(wǎng)

發(fā)布時(shí)間：2016-10-21 07:48

本文關(guān)鍵詞：一種中文文本聚類方法的研究，由筆耕文化傳播整理發(fā)布。

密級(jí):?? 編號(hào):?? 工學(xué)碩士學(xué)位論文 一種中文文本聚類方法的研究 碩士研究生 :張麗指導(dǎo)教師 :劉杰教授學(xué)位級(jí)別 :工學(xué)碩士學(xué)科、專業(yè) :計(jì)算機(jī)應(yīng)用技術(shù) 所在單位 :計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院論文提交日期:年月日論文答辯日期:年月日學(xué)位授予單位:哈爾濱工程大學(xué)哈爾濱工程大學(xué)碩士學(xué)位論文摘要世紀(jì)年代以來,隨著信息技術(shù)和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,人們可以非常方便地獲取和存儲(chǔ)大量數(shù)據(jù)。數(shù)據(jù)大多以文本形式存在。如何從大規(guī) 模的文本中快速獲取所需要的信息呢文本挖掘就是加工和處理這些文本, 從而為人類提供更多的信息。作為文本挖掘的重要分支,文本聚類技術(shù)的研究有著重要的意義。本文主要是針對(duì)文本聚類中的經(jīng)典算法.算法給出兩點(diǎn)改進(jìn),使算法能夠適合大規(guī)模文本聚類。首先,本文針對(duì).算法中初始點(diǎn)的選擇問題進(jìn)行深入的研究,同時(shí)指出:初始點(diǎn)的選擇對(duì).算法的影響較大。本文結(jié)合文本矩陣的特點(diǎn),給出一種應(yīng)用算法來改進(jìn)初始點(diǎn)選擇的算法,通過去掉增長較慢的樣本點(diǎn)和小類的方式,減少孤立點(diǎn)對(duì) 聚類中心形成的影響。其次,對(duì)文本聚類中的特征選擇也給出改進(jìn)算法。改進(jìn)后的算法將動(dòng)態(tài)和局部思想引入了算法。在聚類開始時(shí),保留更多的文本信息?特征詞語。在迭代過程中,利用算法選出能標(biāo)明具體類的特征詞語,從而動(dòng)態(tài)地利用這些特征詞語進(jìn)行聚類,加速迭代的收斂。改進(jìn)后的算法在一定程度上提高了.算法的精度。最后,本文通過實(shí)驗(yàn)對(duì)改進(jìn)后的算法進(jìn)行驗(yàn)證,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析, 說明了算法的優(yōu)點(diǎn)和不足。關(guān)鍵詞:文本聚類;算法:算法:主成分分析哈爾濱工程大學(xué)碩士學(xué)位論文. . “. 、, Ⅱ .,.? . . ? , , . . , ., . . . , , . . , ,., ; : ; ;哈爾濱工程大學(xué) 學(xué)位論文原創(chuàng)性聲明本人

本文關(guān)鍵詞：一種中文文本聚類方法的研究，，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：147605

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/xinxigongchenglunwen/147605.html

上一篇：中國系統(tǒng)工程學(xué)會(huì)第十屆年會(huì)論文集》1998年
下一篇：項(xiàng)目相關(guān)文獻(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種中文文本聚類方法的研究.pdf 全文 文檔投稿網(wǎng)

一種中文文本聚類方法的研究.pdf 全文文檔投稿網(wǎng)