基于文本挖掘的在線評(píng)論應(yīng)用研究
發(fā)布時(shí)間:2023-03-11 14:27
近年來,快速發(fā)展的互聯(lián)網(wǎng)能夠使消費(fèi)者在不受任何時(shí)間、空間地域限制的情況下選擇購買商品。電商平臺(tái)在互聯(lián)網(wǎng)上提供各種商品的同時(shí),也提供了關(guān)于共享信息的渠道,因此產(chǎn)生了在線評(píng)論,在線評(píng)論指的是網(wǎng)絡(luò)消費(fèi)者在電子商務(wù)平臺(tái)或者其他評(píng)論網(wǎng)站上發(fā)表商品或者服務(wù)等觀點(diǎn),F(xiàn)如今電商平臺(tái)上消費(fèi)者眾多,所以產(chǎn)生的評(píng)價(jià)數(shù)據(jù)也是雜亂無章的,而當(dāng)消費(fèi)者選擇網(wǎng)上購物時(shí),依據(jù)網(wǎng)絡(luò)上的評(píng)論很難有正確的抉擇,同時(shí)廠家根據(jù)消費(fèi)者的網(wǎng)絡(luò)評(píng)價(jià)信息也不容易做出準(zhǔn)確的調(diào)整。因此如何從大量的信息中獲取有價(jià)值性的信息成為目前文本挖掘的研究方向。本文基于文本挖掘的相關(guān)理論,以華為榮耀Magic Book2019筆記本電腦價(jià)格在4000-6000元為研究對(duì)象,利用網(wǎng)頁爬取和八爪魚數(shù)據(jù)采集器兩種模式采集數(shù)據(jù),不同于以往的單一模式,這樣采集到的數(shù)據(jù)會(huì)更全面準(zhǔn)確。接著對(duì)采集到的筆記本評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理,包括中文文本分詞處理、特殊字符處理以及分詞處理,其中分詞處理主要利用jieba分詞實(shí)現(xiàn),從而保證處理后的數(shù)據(jù)能夠順利進(jìn)行模型的訓(xùn)練,為接下來的構(gòu)建模型奠定數(shù)據(jù)基礎(chǔ)。通過構(gòu)建情感詞典,對(duì)于所得到的好評(píng)集和差評(píng)集再利用樸素貝葉斯算法對(duì)其進(jìn)行實(shí)驗(yàn)?zāi)P陀?xùn)練...
【文章頁數(shù)】:49 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題的研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀及文獻(xiàn)綜述
1.2.1 文本情感分類研究
1.2.2 文本挖掘技術(shù)研究
1.2.3 文獻(xiàn)綜述
1.3 研究?jī)?nèi)容及方法
第2章 文本挖掘相關(guān)技術(shù)與理論介紹
2.1 網(wǎng)絡(luò)爬蟲
2.2 文本預(yù)處理
2.2.1 中文文本分詞
2.2.2 停用詞過濾
2.2.3 詞性標(biāo)注
2.2.4 文本的表示
2.3 文本挖掘技術(shù)
2.3.1 特征選擇
2.3.2 文本表示模型
2.3.3 特征權(quán)重計(jì)算
2.4 樸素貝葉斯
2.5 LDA主題模型
第3章 筆記本評(píng)論數(shù)據(jù)的采集與預(yù)處理
3.1 數(shù)據(jù)的選取與采集
3.1.1 數(shù)據(jù)的選取
3.1.2 數(shù)據(jù)的采集
3.2 數(shù)據(jù)的預(yù)處理
3.2.1 數(shù)據(jù)的清洗
3.2.2 中文分詞與去停用詞
3.2.3 詞頻統(tǒng)計(jì)
第4章 評(píng)論數(shù)據(jù)的情感傾向分析
4.1 基于詞典的情感分類
4.1.1 基于詞典的構(gòu)建
4.1.2 否定詞典
4.1.3 情感分類結(jié)果
4.2 樸素貝葉斯文本分類
4.2.1 訓(xùn)練語料收集
4.2.2 實(shí)驗(yàn)步驟設(shè)計(jì)
4.2.3 實(shí)驗(yàn)步驟設(shè)計(jì)
第5章 消費(fèi)者評(píng)論特征分析
5.1 基于詞云圖的可視化
5.2 LDA主題模型分析
5.2.1 LDA最優(yōu)主題個(gè)數(shù)的確定
5.2.2 LDA主題模型分析過程
5.2.3 LDA主題模型結(jié)果分析
第6章 結(jié)論與展望
6.1 主要結(jié)論與建議
6.2 不足與展望
參考文獻(xiàn)
附錄
附錄一 數(shù)據(jù)采集代碼
附錄二 數(shù)據(jù)清洗代碼
附錄三 文本分詞代碼
附錄四 文本分詞高頻統(tǒng)計(jì)代碼
附錄五 情感分析代碼
附錄六 繪制詞云圖代碼
附錄七 樸素貝葉斯代碼
附錄八 LDA模型主題提取代碼
攻讀碩士學(xué)位期間論文發(fā)表及參加科研情況
致謝
本文編號(hào):3759687
【文章頁數(shù)】:49 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題的研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀及文獻(xiàn)綜述
1.2.1 文本情感分類研究
1.2.2 文本挖掘技術(shù)研究
1.2.3 文獻(xiàn)綜述
1.3 研究?jī)?nèi)容及方法
第2章 文本挖掘相關(guān)技術(shù)與理論介紹
2.1 網(wǎng)絡(luò)爬蟲
2.2 文本預(yù)處理
2.2.1 中文文本分詞
2.2.2 停用詞過濾
2.2.3 詞性標(biāo)注
2.2.4 文本的表示
2.3 文本挖掘技術(shù)
2.3.1 特征選擇
2.3.2 文本表示模型
2.3.3 特征權(quán)重計(jì)算
2.4 樸素貝葉斯
2.5 LDA主題模型
第3章 筆記本評(píng)論數(shù)據(jù)的采集與預(yù)處理
3.1 數(shù)據(jù)的選取與采集
3.1.1 數(shù)據(jù)的選取
3.1.2 數(shù)據(jù)的采集
3.2 數(shù)據(jù)的預(yù)處理
3.2.1 數(shù)據(jù)的清洗
3.2.2 中文分詞與去停用詞
3.2.3 詞頻統(tǒng)計(jì)
第4章 評(píng)論數(shù)據(jù)的情感傾向分析
4.1 基于詞典的情感分類
4.1.1 基于詞典的構(gòu)建
4.1.2 否定詞典
4.1.3 情感分類結(jié)果
4.2 樸素貝葉斯文本分類
4.2.1 訓(xùn)練語料收集
4.2.2 實(shí)驗(yàn)步驟設(shè)計(jì)
4.2.3 實(shí)驗(yàn)步驟設(shè)計(jì)
第5章 消費(fèi)者評(píng)論特征分析
5.1 基于詞云圖的可視化
5.2 LDA主題模型分析
5.2.1 LDA最優(yōu)主題個(gè)數(shù)的確定
5.2.2 LDA主題模型分析過程
5.2.3 LDA主題模型結(jié)果分析
第6章 結(jié)論與展望
6.1 主要結(jié)論與建議
6.2 不足與展望
參考文獻(xiàn)
附錄
附錄一 數(shù)據(jù)采集代碼
附錄二 數(shù)據(jù)清洗代碼
附錄三 文本分詞代碼
附錄四 文本分詞高頻統(tǒng)計(jì)代碼
附錄五 情感分析代碼
附錄六 繪制詞云圖代碼
附錄七 樸素貝葉斯代碼
附錄八 LDA模型主題提取代碼
攻讀碩士學(xué)位期間論文發(fā)表及參加科研情況
致謝
本文編號(hào):3759687
本文鏈接:http://sikaile.net/jingjilunwen/xmjj/3759687.html
最近更新
教材專著