基于改進(jìn)K-Means的新聞聚類算法研究
發(fā)布時間:2021-04-10 18:35
隨著各種網(wǎng)絡(luò)媒體的迅猛發(fā)展,獲取新聞信息愈發(fā)便捷,但是這也造成了數(shù)據(jù)積累。如何在海量數(shù)據(jù)發(fā)掘潛在信息并有效利用成為現(xiàn)今重點研究領(lǐng)域。聚類分析是數(shù)據(jù)挖掘重要方法之一,被廣泛應(yīng)用在生物信息、金融、醫(yī)療等領(lǐng)域中。本文主要對新聞文本聚類進(jìn)行研究,提出了基于改進(jìn)K-Means的新聞聚類算法。首先,結(jié)合新聞文本的結(jié)構(gòu)特征提出了TI值概念。TI值是基于正文特征詞的詞頻-逆向文本頻率(Term Frequency-Inverse Document Frequency,TF-IDF)值,結(jié)合了新聞的標(biāo)題與導(dǎo)語兩個重要因素產(chǎn)生的,用于文本特征向量的提取,以便使文本特征向量具有代表性,提高聚類效果。其次,針對最大距離算法時間復(fù)雜度高,聚類效果不穩(wěn)定等問題,對其進(jìn)行了優(yōu)化,并結(jié)合TI值形成TIMK-Means算法。該算法將TI值用于構(gòu)造文本特征向量,并且改變了最大距離算法中距離的計算方式,從而降低算法的時間復(fù)雜度。此外還在初始中心選擇過程中加入了孤立點檢測,以便能夠在迭代過程中去除孤立點,得到更加合理的初始聚類中心。再次,為了應(yīng)對算法在處理海量數(shù)據(jù)耗時嚴(yán)重的問題,對算法進(jìn)行了并行化改造。...
【文章來源】:燕山大學(xué)河北省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
聚類理想效果圖
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)相似度與類中心向量的半監(jiān)督短文本聚類算法[J]. 李曉紅,冉宏艷,龔繼恒,顏麗,馬慧芳. 計算機工程與科學(xué). 2018(09)
[2]基于用戶行為特征的多維度文本聚類[J]. 黎萬英,黃瑞章,丁志遠(yuǎn),陳艷平,徐立洋. 計算機應(yīng)用. 2018(11)
[3]基于余弦距離選取初始簇中心的文本聚類研究[J]. 王彬宇,劉文芬,胡學(xué)先,魏江宏. 計算機工程與應(yīng)用. 2018(10)
[4]IO dependent SSD cache allocation for elastic Hadoop applications[J]. Zhen TANG,Wei WANG,Lei SUN,Yu HUANG,Heng WU,Jun WEI,Tao HUANG. Science China(Information Sciences). 2018(05)
[5]基于改進(jìn)k-means算法的文本聚類[J]. 蔣麗,薛善良. 計算機與現(xiàn)代化. 2018(04)
[6]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計算機研究與發(fā)展. 2018(01)
[7]具有詞判別力學(xué)習(xí)能力的短文本聚類概率模型研究[J]. 牛亞男. 計算機應(yīng)用研究. 2018(12)
[8]基于特征空間的文本聚類[J]. 黃建宇,周愛武,肖云,譚天誠. 計算機技術(shù)與發(fā)展. 2017(09)
[9]Tag clustering algorithm LMMSK: improved K-means algorithm based on latent semantic analysis[J]. Jing Yang,Jun Wang. Journal of Systems Engineering and Electronics. 2017(02)
[10]基于Multi-Agent的分布式文本聚類模型[J]. 喬少杰,韓楠,金澈清,高云君,李天瑞,唐常杰,康健. 計算機學(xué)報. 2018(08)
本文編號:3130136
【文章來源】:燕山大學(xué)河北省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
聚類理想效果圖
【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)相似度與類中心向量的半監(jiān)督短文本聚類算法[J]. 李曉紅,冉宏艷,龔繼恒,顏麗,馬慧芳. 計算機工程與科學(xué). 2018(09)
[2]基于用戶行為特征的多維度文本聚類[J]. 黎萬英,黃瑞章,丁志遠(yuǎn),陳艷平,徐立洋. 計算機應(yīng)用. 2018(11)
[3]基于余弦距離選取初始簇中心的文本聚類研究[J]. 王彬宇,劉文芬,胡學(xué)先,魏江宏. 計算機工程與應(yīng)用. 2018(10)
[4]IO dependent SSD cache allocation for elastic Hadoop applications[J]. Zhen TANG,Wei WANG,Lei SUN,Yu HUANG,Heng WU,Jun WEI,Tao HUANG. Science China(Information Sciences). 2018(05)
[5]基于改進(jìn)k-means算法的文本聚類[J]. 蔣麗,薛善良. 計算機與現(xiàn)代化. 2018(04)
[6]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計算機研究與發(fā)展. 2018(01)
[7]具有詞判別力學(xué)習(xí)能力的短文本聚類概率模型研究[J]. 牛亞男. 計算機應(yīng)用研究. 2018(12)
[8]基于特征空間的文本聚類[J]. 黃建宇,周愛武,肖云,譚天誠. 計算機技術(shù)與發(fā)展. 2017(09)
[9]Tag clustering algorithm LMMSK: improved K-means algorithm based on latent semantic analysis[J]. Jing Yang,Jun Wang. Journal of Systems Engineering and Electronics. 2017(02)
[10]基于Multi-Agent的分布式文本聚類模型[J]. 喬少杰,韓楠,金澈清,高云君,李天瑞,唐常杰,康健. 計算機學(xué)報. 2018(08)
本文編號:3130136
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3130136.html
最近更新
教材專著