基于文本聚類的用戶評論熱點挖掘——以筆記本電腦評論為例
發(fā)布時間:2023-08-18 18:32
在大數(shù)據(jù)時代的背景下,文本數(shù)據(jù)每天呈現(xiàn)爆發(fā)式增長趨勢,對于構(gòu)建一套能夠高效地提取文本價值信息的方法體系這一需求突顯出來。本文試圖將文本挖掘技術(shù)應(yīng)用于筆記本電腦銷售領(lǐng)域,通過對用戶關(guān)于筆記本電腦評論信息的挖掘,以便發(fā)現(xiàn)用戶在選購不同品牌的筆記本電腦時的主要關(guān)注熱點。本文的研究主要分為三大部分來進(jìn)行,第一部分是獲取數(shù)據(jù)與數(shù)據(jù)預(yù)處理,第二部分是基于核心算法的實證分析,第三部分是對本文研究的總結(jié)與展望。在數(shù)據(jù)獲取與數(shù)據(jù)預(yù)處理部分中,首先探討與介紹了目前比較常用的網(wǎng)絡(luò)爬蟲技術(shù),主要包括通用網(wǎng)絡(luò)爬蟲、主題網(wǎng)絡(luò)爬蟲以及增量式網(wǎng)絡(luò)爬蟲等。通過采用Python爬蟲技術(shù)將京東商城中與筆記本電腦相關(guān)的評論爬取下來,依次完成文本數(shù)據(jù)清洗、文本分詞、去停用詞、高頻詞統(tǒng)計、文本空間向量表示等一系列文本預(yù)處理相關(guān)工作,這為后續(xù)模型實證分析工作做了充足的準(zhǔn)備。在文本數(shù)據(jù)的實證分析部分中,首先對用戶評論進(jìn)行了描述性統(tǒng)計分析,在此基礎(chǔ)上,通過構(gòu)建LDA主題模型對華為與蘋果兩大筆記本電腦品牌的用戶評論進(jìn)行了主題提取。LDA主題提取結(jié)果表明,對于華為用戶評論,抽取出的五大主題分別為硬件配置、物流、客服、外觀顏值以及筆記本電腦...
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
第一節(jié) 研究背景及意義
一、研究背景
二、研究意義
第二節(jié) 國內(nèi)外研究現(xiàn)狀
一、用戶評論挖掘的研究現(xiàn)狀
二、LDA主題模型的研究現(xiàn)狀
三、高斯混合模型的研究現(xiàn)狀
第三節(jié) 研究思路與框架
一、研究目標(biāo)與思路
二、研究內(nèi)容與框架
第四節(jié) 研究創(chuàng)新與不足
一、研究的創(chuàng)新
二、研究的不足
第二章 數(shù)據(jù)獲取與預(yù)處理技術(shù)
第一節(jié) 數(shù)據(jù)的獲取
一、網(wǎng)絡(luò)爬蟲的基礎(chǔ)技術(shù)
二、常見的網(wǎng)絡(luò)爬蟲技術(shù)
第二節(jié) 數(shù)據(jù)的預(yù)處理
一、文本預(yù)處理概念
二、文本預(yù)處理步驟
第三章 相關(guān)聚類算法的介紹
第一節(jié) 聚類算法介紹
一、基于劃分的聚類算法
二、基于層次的聚類算法
三、基于密度的聚類算法
四、基于模型的聚類算法
第二節(jié) LDA主題模型介紹
第三節(jié) 聚類模型的評估
第四章 描述性統(tǒng)計分析
第一節(jié) 數(shù)據(jù)獲取與清洗
第二節(jié) 基于總體評論的描述分析
第三節(jié) 基于詞云圖的特征分析
一、基于品牌類型的總評分析
二、基于品牌類型的差評分析
第五章 基于LDA與 GMM模型的實證分析
第一節(jié) 基于LDA模型的主題提取
一、華為用戶評論分析
二、蘋果用戶評論分析
三、主題模型的評價
第二節(jié) 基于GMM模型的聚類分析
一、華為用戶評論分析
二、蘋果用戶評論分析
三、聚類模型的評價
總結(jié)與展望
參考文獻(xiàn)
附錄
致謝
本文編號:3842724
【文章頁數(shù)】:76 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
第一節(jié) 研究背景及意義
一、研究背景
二、研究意義
第二節(jié) 國內(nèi)外研究現(xiàn)狀
一、用戶評論挖掘的研究現(xiàn)狀
二、LDA主題模型的研究現(xiàn)狀
三、高斯混合模型的研究現(xiàn)狀
第三節(jié) 研究思路與框架
一、研究目標(biāo)與思路
二、研究內(nèi)容與框架
第四節(jié) 研究創(chuàng)新與不足
一、研究的創(chuàng)新
二、研究的不足
第二章 數(shù)據(jù)獲取與預(yù)處理技術(shù)
第一節(jié) 數(shù)據(jù)的獲取
一、網(wǎng)絡(luò)爬蟲的基礎(chǔ)技術(shù)
二、常見的網(wǎng)絡(luò)爬蟲技術(shù)
第二節(jié) 數(shù)據(jù)的預(yù)處理
一、文本預(yù)處理概念
二、文本預(yù)處理步驟
第三章 相關(guān)聚類算法的介紹
第一節(jié) 聚類算法介紹
一、基于劃分的聚類算法
二、基于層次的聚類算法
三、基于密度的聚類算法
四、基于模型的聚類算法
第二節(jié) LDA主題模型介紹
第三節(jié) 聚類模型的評估
第四章 描述性統(tǒng)計分析
第一節(jié) 數(shù)據(jù)獲取與清洗
第二節(jié) 基于總體評論的描述分析
第三節(jié) 基于詞云圖的特征分析
一、基于品牌類型的總評分析
二、基于品牌類型的差評分析
第五章 基于LDA與 GMM模型的實證分析
第一節(jié) 基于LDA模型的主題提取
一、華為用戶評論分析
二、蘋果用戶評論分析
三、主題模型的評價
第二節(jié) 基于GMM模型的聚類分析
一、華為用戶評論分析
二、蘋果用戶評論分析
三、聚類模型的評價
總結(jié)與展望
參考文獻(xiàn)
附錄
致謝
本文編號:3842724
本文鏈接:http://sikaile.net/shoufeilunwen/jjglss/3842724.html
最近更新
教材專著