天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于Word Embedding的短文本聚類算法研究及應(yīng)用

發(fā)布時間:2022-08-02 19:46
  隨著移動互聯(lián)網(wǎng)的高速發(fā)展,搜索引擎、博客、微信等應(yīng)用使得人們的生活和工作變得更加簡單、高效,這些應(yīng)用平臺每天都會產(chǎn)生海量的短文本數(shù)據(jù),因此如何從這些數(shù)據(jù)中挖掘出有價值的信息具有很高的研究意義。短文本聚類可以有效地對海量數(shù)據(jù)進(jìn)行處理,旨在通過聚類分析挖掘出短文本間的內(nèi)在聯(lián)系。此外,短文本聚類還為信息檢索、用戶畫像、個性化推薦等研究領(lǐng)域提供了技術(shù)基礎(chǔ)。由于短文本具有詞少低頻、特征稀疏和表述隨意等特點,傳統(tǒng)的文本聚類算法在短文本上的表現(xiàn)效果較差。本文通過研究發(fā)現(xiàn)Word Embedding具有特征稠密、簡單易用的特點,將Word Embedding這一技術(shù)應(yīng)用到短文本聚類中,將對聚類效果帶來很大的提升。本文的研究工作如下:基于Word Embedding和EWMA(Exponentially Weighted Moving Average)的短文本聚類。采用Word Embedding進(jìn)行文本表示可以很好的獲取文本的語義特征,但是短文本中包含的詞語數(shù)量極少,每個詞語對文本表示的影響都至關(guān)重要,直接以句子中所有詞語的平均向量來表示文本,常常受那些“異常詞”的影響,效果并不十分理想。針對這一問題... 

【文章頁數(shù)】:66 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第1章 緒論
    1.1 研究背景和意義
    1.2 國內(nèi)外研究現(xiàn)狀
    1.3 本文主要研究內(nèi)容
    1.4 本文組織架構(gòu)
    1.5 本章小結(jié)
第2章 相關(guān)技術(shù)
    2.1 文本聚類概述
    2.2 文本預(yù)處理
        2.2.1 清洗數(shù)據(jù)
        2.2.2 中文分詞技術(shù)
        2.2.3 去停用詞
    2.3 文本表示模型
        2.3.1 向量空間模型
        2.3.2 LDA主題模型
        2.3.3 Doc2Vec
    2.4 聚類算法
        2.4.1 K-Means++聚類算法
        2.4.2 DBSCAN聚類算法
    2.5 本章小結(jié)
第3章 基于Word Embedding和EWMA的短文本聚類
    3.1 Word Embedding
        3.1.1 基于Hierarchical Softmax的CBOW模型
        3.1.2 基于Negative Sampling的Skip-gram模型
    3.2 EWMA簡介
    3.3 基于Word Embedding和EWMA的短文本聚類
    3.4 實驗與結(jié)果分析
        3.4.1 數(shù)據(jù)集介紹
        3.4.2 訓(xùn)練詞向量
        3.4.3 聚類效果評測
    3.5 本章小結(jié)
第4章 基于Word Embedding和改進(jìn)的WMD距離的短文本聚類
    4.1 常用的距離度量方法
    4.2 WMD介紹及其改進(jìn)
    4.3 基于Word Embedding和SSWMD距離的短文本聚類
    4.4 實驗與結(jié)果分析
        4.4.1 數(shù)據(jù)集介紹
        4.4.2 聚類效果評測
    4.5 本章小結(jié)
第5章 基于聚類的短文本特征挖掘的應(yīng)用
    5.1 背景介紹
    5.2 問題引出
    5.3 特征工程
        5.3.1 用戶特征
        5.3.2 博文時間特征
        5.3.3 博文的文本特征
    5.4 實驗與結(jié)果分析
    5.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
個人簡歷


【參考文獻(xiàn)】:
期刊論文
[1]結(jié)合語義和結(jié)構(gòu)的短文本相似度計算[J]. 倪高偉,李濤,劉崢.  計算機(jī)技術(shù)與發(fā)展. 2018(08)
[2]文本分類中信息增益特征選擇算法的改進(jìn)[J]. 郭頌,馬飛.  計算機(jī)應(yīng)用與軟件. 2013(08)
[3]中文數(shù)據(jù)清洗研究綜述[J]. 葉鷗,張璟,李軍懷.  計算機(jī)工程與應(yīng)用. 2012(14)

博士論文
[1]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學(xué) 2013

碩士論文
[1]基于Word2Vec的中文短文本聚類算法研究與應(yīng)用[D]. 馬存.中國科學(xué)院大學(xué)(中國科學(xué)院沈陽計算技術(shù)研究所) 2018
[2]基于語義的文本聚類算法研究[D]. 馬瓊瓊.北京交通大學(xué) 2017
[3]基于Word Embedding的短文本特征擴(kuò)展方法研究[D]. 孟欣.吉林大學(xué) 2017
[4]基于word2vec詞向量的文本分類研究[D]. 朱磊.西南大學(xué) 2017
[5]基于主題模型的話題聚類算法的研究[D]. 張丹.北京郵電大學(xué) 2017
[6]基于密度峰值的一種文本聚類優(yōu)化算法的研究與實現(xiàn)[D]. 蘭旭.國防科學(xué)技術(shù)大學(xué) 2016
[7]基于詞向量的短文本聚類研究與應(yīng)用[D]. 黃棟.大連理工大學(xué) 2017
[8]基于詞嵌入文本聚類技術(shù)的研究與實現(xiàn)[D]. 朱德超.東華大學(xué) 2016
[9]一種利用TF-IDF方法結(jié)合詞匯語義信息的文本相似度量方法研究[D]. 王子慕.吉林大學(xué) 2015
[10]短文本聚類及聚類結(jié)果描述方法研究[D]. 邵洪雨.大連理工大學(xué) 2014



本文編號:3669133

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3669133.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶61f43***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产福利一区二区三区四区| 久久亚洲精品成人国产| 日韩一区二区三区嘿嘿| 日韩欧美三级中文字幕| 国产精品亚洲综合色区韩国| 亚洲色图欧美另类人妻| 亚洲熟女精品一区二区成人| 欧美日韩国产一级91| 激情五月综五月综合网| 91人妻丝袜一区二区三区| 国产麻豆视频一二三区| 极品少妇一区二区三区精品视频| 日韩欧美一区二区不卡视频| 伊人网免费在线观看高清版| 亚洲av成人一区二区三区在线| 免费黄色一区二区三区| 亚洲精品中文字幕欧美| 91播色在线免费播放| 国产不卡一区二区四区| 国产男女激情在线视频| 日韩偷拍精品一区二区三区| 免费精品一区二区三区| 日韩人妻av中文字幕| 91日韩欧美在线视频| 色婷婷日本视频在线观看| 欧美日韩一级aa大片| 欧美整片精品日韩综合| 麻豆精品在线一区二区三区| 深夜视频在线观看免费你懂| 五月天综合网五月天综合网| 内用黄老外示儒术出处| 欧美午夜国产在线观看| 午夜久久精品福利视频| av免费视屏在线观看| 亚洲av在线视频一区| 日韩亚洲激情在线观看| 国产一区欧美午夜福利| 老熟妇2久久国内精品| 亚洲最大的中文字幕在线视频| 午夜国产福利在线播放| 亚洲熟妇中文字幕五十路|