天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于Word Embedding的短文本聚類算法研究及應用

發(fā)布時間:2022-08-02 19:46
  隨著移動互聯(lián)網(wǎng)的高速發(fā)展,搜索引擎、博客、微信等應用使得人們的生活和工作變得更加簡單、高效,這些應用平臺每天都會產(chǎn)生海量的短文本數(shù)據(jù),因此如何從這些數(shù)據(jù)中挖掘出有價值的信息具有很高的研究意義。短文本聚類可以有效地對海量數(shù)據(jù)進行處理,旨在通過聚類分析挖掘出短文本間的內(nèi)在聯(lián)系。此外,短文本聚類還為信息檢索、用戶畫像、個性化推薦等研究領域提供了技術基礎。由于短文本具有詞少低頻、特征稀疏和表述隨意等特點,傳統(tǒng)的文本聚類算法在短文本上的表現(xiàn)效果較差。本文通過研究發(fā)現(xiàn)Word Embedding具有特征稠密、簡單易用的特點,將Word Embedding這一技術應用到短文本聚類中,將對聚類效果帶來很大的提升。本文的研究工作如下:基于Word Embedding和EWMA(Exponentially Weighted Moving Average)的短文本聚類。采用Word Embedding進行文本表示可以很好的獲取文本的語義特征,但是短文本中包含的詞語數(shù)量極少,每個詞語對文本表示的影響都至關重要,直接以句子中所有詞語的平均向量來表示文本,常常受那些“異常詞”的影響,效果并不十分理想。針對這一問題... 

【文章頁數(shù)】:66 頁

【學位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究背景和意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文主要研究內(nèi)容
    1.4 本文組織架構
    1.5 本章小結
第2章 相關技術
    2.1 文本聚類概述
    2.2 文本預處理
        2.2.1 清洗數(shù)據(jù)
        2.2.2 中文分詞技術
        2.2.3 去停用詞
    2.3 文本表示模型
        2.3.1 向量空間模型
        2.3.2 LDA主題模型
        2.3.3 Doc2Vec
    2.4 聚類算法
        2.4.1 K-Means++聚類算法
        2.4.2 DBSCAN聚類算法
    2.5 本章小結
第3章 基于Word Embedding和EWMA的短文本聚類
    3.1 Word Embedding
        3.1.1 基于Hierarchical Softmax的CBOW模型
        3.1.2 基于Negative Sampling的Skip-gram模型
    3.2 EWMA簡介
    3.3 基于Word Embedding和EWMA的短文本聚類
    3.4 實驗與結果分析
        3.4.1 數(shù)據(jù)集介紹
        3.4.2 訓練詞向量
        3.4.3 聚類效果評測
    3.5 本章小結
第4章 基于Word Embedding和改進的WMD距離的短文本聚類
    4.1 常用的距離度量方法
    4.2 WMD介紹及其改進
    4.3 基于Word Embedding和SSWMD距離的短文本聚類
    4.4 實驗與結果分析
        4.4.1 數(shù)據(jù)集介紹
        4.4.2 聚類效果評測
    4.5 本章小結
第5章 基于聚類的短文本特征挖掘的應用
    5.1 背景介紹
    5.2 問題引出
    5.3 特征工程
        5.3.1 用戶特征
        5.3.2 博文時間特征
        5.3.3 博文的文本特征
    5.4 實驗與結果分析
    5.5 本章小結
結論
參考文獻
攻讀碩士學位期間發(fā)表的論文及其它成果
致謝
個人簡歷


【參考文獻】:
期刊論文
[1]結合語義和結構的短文本相似度計算[J]. 倪高偉,李濤,劉崢.  計算機技術與發(fā)展. 2018(08)
[2]文本分類中信息增益特征選擇算法的改進[J]. 郭頌,馬飛.  計算機應用與軟件. 2013(08)
[3]中文數(shù)據(jù)清洗研究綜述[J]. 葉鷗,張璟,李軍懷.  計算機工程與應用. 2012(14)

博士論文
[1]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學 2013

碩士論文
[1]基于Word2Vec的中文短文本聚類算法研究與應用[D]. 馬存.中國科學院大學(中國科學院沈陽計算技術研究所) 2018
[2]基于語義的文本聚類算法研究[D]. 馬瓊瓊.北京交通大學 2017
[3]基于Word Embedding的短文本特征擴展方法研究[D]. 孟欣.吉林大學 2017
[4]基于word2vec詞向量的文本分類研究[D]. 朱磊.西南大學 2017
[5]基于主題模型的話題聚類算法的研究[D]. 張丹.北京郵電大學 2017
[6]基于密度峰值的一種文本聚類優(yōu)化算法的研究與實現(xiàn)[D]. 蘭旭.國防科學技術大學 2016
[7]基于詞向量的短文本聚類研究與應用[D]. 黃棟.大連理工大學 2017
[8]基于詞嵌入文本聚類技術的研究與實現(xiàn)[D]. 朱德超.東華大學 2016
[9]一種利用TF-IDF方法結合詞匯語義信息的文本相似度量方法研究[D]. 王子慕.吉林大學 2015
[10]短文本聚類及聚類結果描述方法研究[D]. 邵洪雨.大連理工大學 2014



本文編號:3669133

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3669133.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶61f43***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com