基于Word Embedding的短文本聚類算法研究及應(yīng)用
發(fā)布時間:2022-08-02 19:46
隨著移動互聯(lián)網(wǎng)的高速發(fā)展,搜索引擎、博客、微信等應(yīng)用使得人們的生活和工作變得更加簡單、高效,這些應(yīng)用平臺每天都會產(chǎn)生海量的短文本數(shù)據(jù),因此如何從這些數(shù)據(jù)中挖掘出有價值的信息具有很高的研究意義。短文本聚類可以有效地對海量數(shù)據(jù)進(jìn)行處理,旨在通過聚類分析挖掘出短文本間的內(nèi)在聯(lián)系。此外,短文本聚類還為信息檢索、用戶畫像、個性化推薦等研究領(lǐng)域提供了技術(shù)基礎(chǔ)。由于短文本具有詞少低頻、特征稀疏和表述隨意等特點,傳統(tǒng)的文本聚類算法在短文本上的表現(xiàn)效果較差。本文通過研究發(fā)現(xiàn)Word Embedding具有特征稠密、簡單易用的特點,將Word Embedding這一技術(shù)應(yīng)用到短文本聚類中,將對聚類效果帶來很大的提升。本文的研究工作如下:基于Word Embedding和EWMA(Exponentially Weighted Moving Average)的短文本聚類。采用Word Embedding進(jìn)行文本表示可以很好的獲取文本的語義特征,但是短文本中包含的詞語數(shù)量極少,每個詞語對文本表示的影響都至關(guān)重要,直接以句子中所有詞語的平均向量來表示文本,常常受那些“異常詞”的影響,效果并不十分理想。針對這一問題...
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 本文組織架構(gòu)
1.5 本章小結(jié)
第2章 相關(guān)技術(shù)
2.1 文本聚類概述
2.2 文本預(yù)處理
2.2.1 清洗數(shù)據(jù)
2.2.2 中文分詞技術(shù)
2.2.3 去停用詞
2.3 文本表示模型
2.3.1 向量空間模型
2.3.2 LDA主題模型
2.3.3 Doc2Vec
2.4 聚類算法
2.4.1 K-Means++聚類算法
2.4.2 DBSCAN聚類算法
2.5 本章小結(jié)
第3章 基于Word Embedding和EWMA的短文本聚類
3.1 Word Embedding
3.1.1 基于Hierarchical Softmax的CBOW模型
3.1.2 基于Negative Sampling的Skip-gram模型
3.2 EWMA簡介
3.3 基于Word Embedding和EWMA的短文本聚類
3.4 實驗與結(jié)果分析
3.4.1 數(shù)據(jù)集介紹
3.4.2 訓(xùn)練詞向量
3.4.3 聚類效果評測
3.5 本章小結(jié)
第4章 基于Word Embedding和改進(jìn)的WMD距離的短文本聚類
4.1 常用的距離度量方法
4.2 WMD介紹及其改進(jìn)
4.3 基于Word Embedding和SSWMD距離的短文本聚類
4.4 實驗與結(jié)果分析
4.4.1 數(shù)據(jù)集介紹
4.4.2 聚類效果評測
4.5 本章小結(jié)
第5章 基于聚類的短文本特征挖掘的應(yīng)用
5.1 背景介紹
5.2 問題引出
5.3 特征工程
5.3.1 用戶特征
5.3.2 博文時間特征
5.3.3 博文的文本特征
5.4 實驗與結(jié)果分析
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
個人簡歷
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合語義和結(jié)構(gòu)的短文本相似度計算[J]. 倪高偉,李濤,劉崢. 計算機(jī)技術(shù)與發(fā)展. 2018(08)
[2]文本分類中信息增益特征選擇算法的改進(jìn)[J]. 郭頌,馬飛. 計算機(jī)應(yīng)用與軟件. 2013(08)
[3]中文數(shù)據(jù)清洗研究綜述[J]. 葉鷗,張璟,李軍懷. 計算機(jī)工程與應(yīng)用. 2012(14)
博士論文
[1]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學(xué) 2013
碩士論文
[1]基于Word2Vec的中文短文本聚類算法研究與應(yīng)用[D]. 馬存.中國科學(xué)院大學(xué)(中國科學(xué)院沈陽計算技術(shù)研究所) 2018
[2]基于語義的文本聚類算法研究[D]. 馬瓊瓊.北京交通大學(xué) 2017
[3]基于Word Embedding的短文本特征擴(kuò)展方法研究[D]. 孟欣.吉林大學(xué) 2017
[4]基于word2vec詞向量的文本分類研究[D]. 朱磊.西南大學(xué) 2017
[5]基于主題模型的話題聚類算法的研究[D]. 張丹.北京郵電大學(xué) 2017
[6]基于密度峰值的一種文本聚類優(yōu)化算法的研究與實現(xiàn)[D]. 蘭旭.國防科學(xué)技術(shù)大學(xué) 2016
[7]基于詞向量的短文本聚類研究與應(yīng)用[D]. 黃棟.大連理工大學(xué) 2017
[8]基于詞嵌入文本聚類技術(shù)的研究與實現(xiàn)[D]. 朱德超.東華大學(xué) 2016
[9]一種利用TF-IDF方法結(jié)合詞匯語義信息的文本相似度量方法研究[D]. 王子慕.吉林大學(xué) 2015
[10]短文本聚類及聚類結(jié)果描述方法研究[D]. 邵洪雨.大連理工大學(xué) 2014
本文編號:3669133
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文主要研究內(nèi)容
1.4 本文組織架構(gòu)
1.5 本章小結(jié)
第2章 相關(guān)技術(shù)
2.1 文本聚類概述
2.2 文本預(yù)處理
2.2.1 清洗數(shù)據(jù)
2.2.2 中文分詞技術(shù)
2.2.3 去停用詞
2.3 文本表示模型
2.3.1 向量空間模型
2.3.2 LDA主題模型
2.3.3 Doc2Vec
2.4 聚類算法
2.4.1 K-Means++聚類算法
2.4.2 DBSCAN聚類算法
2.5 本章小結(jié)
第3章 基于Word Embedding和EWMA的短文本聚類
3.1 Word Embedding
3.1.1 基于Hierarchical Softmax的CBOW模型
3.1.2 基于Negative Sampling的Skip-gram模型
3.2 EWMA簡介
3.3 基于Word Embedding和EWMA的短文本聚類
3.4 實驗與結(jié)果分析
3.4.1 數(shù)據(jù)集介紹
3.4.2 訓(xùn)練詞向量
3.4.3 聚類效果評測
3.5 本章小結(jié)
第4章 基于Word Embedding和改進(jìn)的WMD距離的短文本聚類
4.1 常用的距離度量方法
4.2 WMD介紹及其改進(jìn)
4.3 基于Word Embedding和SSWMD距離的短文本聚類
4.4 實驗與結(jié)果分析
4.4.1 數(shù)據(jù)集介紹
4.4.2 聚類效果評測
4.5 本章小結(jié)
第5章 基于聚類的短文本特征挖掘的應(yīng)用
5.1 背景介紹
5.2 問題引出
5.3 特征工程
5.3.1 用戶特征
5.3.2 博文時間特征
5.3.3 博文的文本特征
5.4 實驗與結(jié)果分析
5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
個人簡歷
【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合語義和結(jié)構(gòu)的短文本相似度計算[J]. 倪高偉,李濤,劉崢. 計算機(jī)技術(shù)與發(fā)展. 2018(08)
[2]文本分類中信息增益特征選擇算法的改進(jìn)[J]. 郭頌,馬飛. 計算機(jī)應(yīng)用與軟件. 2013(08)
[3]中文數(shù)據(jù)清洗研究綜述[J]. 葉鷗,張璟,李軍懷. 計算機(jī)工程與應(yīng)用. 2012(14)
博士論文
[1]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學(xué) 2013
碩士論文
[1]基于Word2Vec的中文短文本聚類算法研究與應(yīng)用[D]. 馬存.中國科學(xué)院大學(xué)(中國科學(xué)院沈陽計算技術(shù)研究所) 2018
[2]基于語義的文本聚類算法研究[D]. 馬瓊瓊.北京交通大學(xué) 2017
[3]基于Word Embedding的短文本特征擴(kuò)展方法研究[D]. 孟欣.吉林大學(xué) 2017
[4]基于word2vec詞向量的文本分類研究[D]. 朱磊.西南大學(xué) 2017
[5]基于主題模型的話題聚類算法的研究[D]. 張丹.北京郵電大學(xué) 2017
[6]基于密度峰值的一種文本聚類優(yōu)化算法的研究與實現(xiàn)[D]. 蘭旭.國防科學(xué)技術(shù)大學(xué) 2016
[7]基于詞向量的短文本聚類研究與應(yīng)用[D]. 黃棟.大連理工大學(xué) 2017
[8]基于詞嵌入文本聚類技術(shù)的研究與實現(xiàn)[D]. 朱德超.東華大學(xué) 2016
[9]一種利用TF-IDF方法結(jié)合詞匯語義信息的文本相似度量方法研究[D]. 王子慕.吉林大學(xué) 2015
[10]短文本聚類及聚類結(jié)果描述方法研究[D]. 邵洪雨.大連理工大學(xué) 2014
本文編號:3669133
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3669133.html
最近更新
教材專著