天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 碩博論文 > 經管碩士論文 >

基于文本聚類的用戶評論熱點挖掘——以筆記本電腦評論為例

發(fā)布時間:2023-08-18 18:32
  在大數(shù)據(jù)時代的背景下,文本數(shù)據(jù)每天呈現(xiàn)爆發(fā)式增長趨勢,對于構建一套能夠高效地提取文本價值信息的方法體系這一需求突顯出來。本文試圖將文本挖掘技術應用于筆記本電腦銷售領域,通過對用戶關于筆記本電腦評論信息的挖掘,以便發(fā)現(xiàn)用戶在選購不同品牌的筆記本電腦時的主要關注熱點。本文的研究主要分為三大部分來進行,第一部分是獲取數(shù)據(jù)與數(shù)據(jù)預處理,第二部分是基于核心算法的實證分析,第三部分是對本文研究的總結與展望。在數(shù)據(jù)獲取與數(shù)據(jù)預處理部分中,首先探討與介紹了目前比較常用的網絡爬蟲技術,主要包括通用網絡爬蟲、主題網絡爬蟲以及增量式網絡爬蟲等。通過采用Python爬蟲技術將京東商城中與筆記本電腦相關的評論爬取下來,依次完成文本數(shù)據(jù)清洗、文本分詞、去停用詞、高頻詞統(tǒng)計、文本空間向量表示等一系列文本預處理相關工作,這為后續(xù)模型實證分析工作做了充足的準備。在文本數(shù)據(jù)的實證分析部分中,首先對用戶評論進行了描述性統(tǒng)計分析,在此基礎上,通過構建LDA主題模型對華為與蘋果兩大筆記本電腦品牌的用戶評論進行了主題提取。LDA主題提取結果表明,對于華為用戶評論,抽取出的五大主題分別為硬件配置、物流、客服、外觀顏值以及筆記本電腦...

【文章頁數(shù)】:76 頁

【學位級別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    第一節(jié) 研究背景及意義
        一、研究背景
        二、研究意義
    第二節(jié) 國內外研究現(xiàn)狀
        一、用戶評論挖掘的研究現(xiàn)狀
        二、LDA主題模型的研究現(xiàn)狀
        三、高斯混合模型的研究現(xiàn)狀
    第三節(jié) 研究思路與框架
        一、研究目標與思路
        二、研究內容與框架
    第四節(jié) 研究創(chuàng)新與不足
        一、研究的創(chuàng)新
        二、研究的不足
第二章 數(shù)據(jù)獲取與預處理技術
    第一節(jié) 數(shù)據(jù)的獲取
        一、網絡爬蟲的基礎技術
        二、常見的網絡爬蟲技術
    第二節(jié) 數(shù)據(jù)的預處理
        一、文本預處理概念
        二、文本預處理步驟
第三章 相關聚類算法的介紹
    第一節(jié) 聚類算法介紹
        一、基于劃分的聚類算法
        二、基于層次的聚類算法
        三、基于密度的聚類算法
        四、基于模型的聚類算法
    第二節(jié) LDA主題模型介紹
    第三節(jié) 聚類模型的評估
第四章 描述性統(tǒng)計分析
    第一節(jié) 數(shù)據(jù)獲取與清洗
    第二節(jié) 基于總體評論的描述分析
    第三節(jié) 基于詞云圖的特征分析
        一、基于品牌類型的總評分析
        二、基于品牌類型的差評分析
第五章 基于LDA與 GMM模型的實證分析
    第一節(jié) 基于LDA模型的主題提取
        一、華為用戶評論分析
        二、蘋果用戶評論分析
        三、主題模型的評價
    第二節(jié) 基于GMM模型的聚類分析
        一、華為用戶評論分析
        二、蘋果用戶評論分析
        三、聚類模型的評價
總結與展望
參考文獻
附錄
致謝



本文編號:3842724

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/jjglss/3842724.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶0cb0e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com