基于機器學(xué)習(xí)的短文本聚類算法研究
發(fā)布時間:2021-08-26 02:44
如何快速、準確地從海量網(wǎng)絡(luò)數(shù)據(jù)中找到有用的信息,已經(jīng)成為必須面臨的一個重要問題。短文本聚類作為一種信息處理方法,成為挖掘數(shù)據(jù)信息的重要手段之一。針對傳統(tǒng)聚類算法處理具有“長尾現(xiàn)象”的短文本時存在特征信息不足,特征維度高,小類別信息丟失的問題和針對如何解決傳統(tǒng)聚類算法在處理網(wǎng)絡(luò)短文本時嚴重忽略短文本的外在特征導(dǎo)致聚類結(jié)果精度不高的問題,提出了兩個不同類型的短文本聚類算法:(1)針對“長尾現(xiàn)象”短文本的頻繁項協(xié)同剪枝迭代聚類算法(Frequent itemsets collaborative pruning iteration clustering framework,FIPC);(2)考慮短文本外在特征的基于二元異質(zhì)網(wǎng)絡(luò)與標簽傳播的短文本聚類算法(Short text clustering algorithm for binary heterogeneous networks and label propagation,HINLP)。主要工作如下:(1)分析總結(jié)了近年來國內(nèi)外傳統(tǒng)算法在短文本聚類領(lǐng)域的研究現(xiàn)狀。分別從短文本特征擴展算法、短文本特征選擇算法、短文本聚類算法三個方面對短文本聚...
【文章來源】:中南民族大學(xué)湖北省
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
頻繁項協(xié)同剪枝迭代聚類算法步驟圖
【參考文獻】:
期刊論文
[1]一種元路徑下基于頻繁模式的實體集擴展方法[J]. 鄭玉艷,田瑩,石川. 軟件學(xué)報. 2018(10)
[2]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計算機研究與發(fā)展. 2018(01)
[3]基于動態(tài)主題模型融合多維數(shù)據(jù)的微博社區(qū)發(fā)現(xiàn)算法[J]. 劉冰玉,王翠榮,王聰,王軍偉,王興偉,黃敏. 軟件學(xué)報. 2017(02)
[4]微博文本聚類中特征擴展策略研究[J]. 段旭磊,張仰森,郭正斌. 計算機工程與應(yīng)用. 2017(13)
[5]基于頻繁項集的海量短文本聚類與主題抽取[J]. 彭敏,黃佳佳,朱佳暉,黃濟民,劉紀平. 計算機研究與發(fā)展. 2015(09)
[6]一種面向醫(yī)學(xué)短文本的自適應(yīng)聚類方法[J]. 栗偉,許洪濤,趙大哲,劉積仁. 東北大學(xué)學(xué)報(自然科學(xué)版). 2015(01)
[7]稀疏近似最近特征空間嵌入標簽傳播[J]. 陶劍文,Fu-Lai CHUNG,王士同,姚奇富. 軟件學(xué)報. 2014(06)
[8]基于子樹匹配的文本相似度算法[J]. 張佩云,陳傳明,黃波. 模式識別與人工智能. 2014(03)
[9]社會媒體用戶標簽的分析與推薦[J]. 涂存超,劉知遠,孫茂松. 圖書情報工作. 2013(23)
[10]基于DBSCAN的最優(yōu)密度文本聚類算法[J]. 李群,袁津生. 計算機工程與設(shè)計. 2012(04)
碩士論文
[1]領(lǐng)域?qū)嶓w關(guān)系及語義標簽抽取研究[D]. 趙君.昆明理工大學(xué) 2013
本文編號:3363384
【文章來源】:中南民族大學(xué)湖北省
【文章頁數(shù)】:53 頁
【學(xué)位級別】:碩士
【部分圖文】:
頻繁項協(xié)同剪枝迭代聚類算法步驟圖
【參考文獻】:
期刊論文
[1]一種元路徑下基于頻繁模式的實體集擴展方法[J]. 鄭玉艷,田瑩,石川. 軟件學(xué)報. 2018(10)
[2]一種基于頻繁詞集表示的新文本聚類方法[J]. 張雪松,賈彩燕. 計算機研究與發(fā)展. 2018(01)
[3]基于動態(tài)主題模型融合多維數(shù)據(jù)的微博社區(qū)發(fā)現(xiàn)算法[J]. 劉冰玉,王翠榮,王聰,王軍偉,王興偉,黃敏. 軟件學(xué)報. 2017(02)
[4]微博文本聚類中特征擴展策略研究[J]. 段旭磊,張仰森,郭正斌. 計算機工程與應(yīng)用. 2017(13)
[5]基于頻繁項集的海量短文本聚類與主題抽取[J]. 彭敏,黃佳佳,朱佳暉,黃濟民,劉紀平. 計算機研究與發(fā)展. 2015(09)
[6]一種面向醫(yī)學(xué)短文本的自適應(yīng)聚類方法[J]. 栗偉,許洪濤,趙大哲,劉積仁. 東北大學(xué)學(xué)報(自然科學(xué)版). 2015(01)
[7]稀疏近似最近特征空間嵌入標簽傳播[J]. 陶劍文,Fu-Lai CHUNG,王士同,姚奇富. 軟件學(xué)報. 2014(06)
[8]基于子樹匹配的文本相似度算法[J]. 張佩云,陳傳明,黃波. 模式識別與人工智能. 2014(03)
[9]社會媒體用戶標簽的分析與推薦[J]. 涂存超,劉知遠,孫茂松. 圖書情報工作. 2013(23)
[10]基于DBSCAN的最優(yōu)密度文本聚類算法[J]. 李群,袁津生. 計算機工程與設(shè)計. 2012(04)
碩士論文
[1]領(lǐng)域?qū)嶓w關(guān)系及語義標簽抽取研究[D]. 趙君.昆明理工大學(xué) 2013
本文編號:3363384
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3363384.html
最近更新
教材專著