統(tǒng)計學習算法在民宿評論情感分析中的應用
發(fā)布時間:2024-03-20 21:38
隨著互聯(lián)網的更新迭代,無形中帶動了民宿業(yè)往更加多元化的方向迅速發(fā)展,因此也產生了許多專門經營民宿的網絡平臺,與此同時,許多單一經營酒店業(yè)務的網絡平臺也發(fā)現(xiàn)了這一商機,紛紛開發(fā)了民宿業(yè)務。在這些民宿平臺中積累了許多住客在線評論的文本數(shù)據(jù),住客會針對各個方面給出自己的租住反饋,這些文本評論數(shù)據(jù)中蘊藏了許多潛在的商業(yè)價值,對其做情感分類及LDA主題挖掘對民宿平臺、房東和住客都具有著重要的參考意義。本文評論文本的情感分析以愛彼迎平臺青島地區(qū)的住客為研究對象,通過人工標注并分割評論內容以獲取更清晰的情感偏好,進而更好的挖掘出民宿住客評論文本中的反饋信息,為分類算法的算法對比和LDA主題模型的主題提取提供了更優(yōu)質的原始文本數(shù)據(jù)支持。本文綜述了目前關于民宿的研究與文本情感研究的相關文獻和書籍,將民宿評論情感分析分三部分進行研究:機器學習分類法、深度學習分類法、LDA文本主題聚類,并且對這三部分的文本預處理技術、工具方法、相關理論基礎進行整理和總結。然后爬取了愛彼迎民宿平臺的住客評論文本數(shù)據(jù),基于前兩部分的方法分別對評論文本做情感分類,并對比這兩部分分類算法的分類效果,在第三部分,對文本評論挖掘出積極...
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 引言
1.1 研究背景及意義
1.2 國內外研究綜述
1.3 研究思路及內容
2 文本數(shù)據(jù)處理及原理
2.1 數(shù)據(jù)爬取
2.2 數(shù)據(jù)預處理
2.2.1 文本清洗
2.2.2 文本分詞
2.3 關鍵詞提取
2.3.1 詞頻統(tǒng)計
2.3.2 TF-IDF
2.3.3 TextRank
2.3.4 Word2vec詞向量模型
2.4 分類器分類效果指標
2.4.1 混淆矩陣
2.4.2 精確率
2.4.3 召回率
2.4.4 F1值
3 基于機器學習方法的文本分類
3.1 機器學習分類方法
3.1.1 樸素貝葉斯分類器
3.1.2 支持向量機分類器
3.1.3 K-近鄰分類器
3.1.4 隨機森林分類器
3.2 分類及結果分析
3.2.1 分類流程
3.2.2 分類結果
4 基于XGBoost與深度學習方法的文本分類
4.1 深度學習分類方法
4.1.1 卷積神經網絡
4.1.2 XGBoost算法
4.2 分類及結果分析
4.2.1 分類流程
4.2.2 分類結果
5 LDA主題模型
5.1 LDA主題文本聚類
5.1.1 LDA模型
5.1.2 詞袋模型
5.1.3 困惑度與一致性
5.2 主題提取及可視化
5.2.1 提取過程
5.2.2 提取主題可視化
5.2.3 提取結果
6 結論與展望
6.1 結論
6.2 展望
參考文獻
后記
本文編號:3933342
【文章頁數(shù)】:58 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 引言
1.1 研究背景及意義
1.2 國內外研究綜述
1.3 研究思路及內容
2 文本數(shù)據(jù)處理及原理
2.1 數(shù)據(jù)爬取
2.2 數(shù)據(jù)預處理
2.2.1 文本清洗
2.2.2 文本分詞
2.3 關鍵詞提取
2.3.1 詞頻統(tǒng)計
2.3.2 TF-IDF
2.3.3 TextRank
2.3.4 Word2vec詞向量模型
2.4 分類器分類效果指標
2.4.1 混淆矩陣
2.4.2 精確率
2.4.3 召回率
2.4.4 F1值
3 基于機器學習方法的文本分類
3.1 機器學習分類方法
3.1.1 樸素貝葉斯分類器
3.1.2 支持向量機分類器
3.1.3 K-近鄰分類器
3.1.4 隨機森林分類器
3.2 分類及結果分析
3.2.1 分類流程
3.2.2 分類結果
4 基于XGBoost與深度學習方法的文本分類
4.1 深度學習分類方法
4.1.1 卷積神經網絡
4.1.2 XGBoost算法
4.2 分類及結果分析
4.2.1 分類流程
4.2.2 分類結果
5 LDA主題模型
5.1 LDA主題文本聚類
5.1.1 LDA模型
5.1.2 詞袋模型
5.1.3 困惑度與一致性
5.2 主題提取及可視化
5.2.1 提取過程
5.2.2 提取主題可視化
5.2.3 提取結果
6 結論與展望
6.1 結論
6.2 展望
參考文獻
后記
本文編號:3933342
本文鏈接:http://sikaile.net/jingjilunwen/hongguanjingjilunwen/3933342.html
最近更新
教材專著