基于分布式爬蟲的游戲輿情監(jiān)測系統(tǒng)設計與實現(xiàn)
發(fā)布時間:2022-08-11 09:34
隨著游戲市場的崛起,游戲相關從業(yè)人員亟需了解玩家對游戲的實際體驗,以便有針對性地指導游戲運營與開發(fā)。與此同時,在輿情信息監(jiān)測的實際業(yè)務中,也存在著手動收集評論信息范圍過窄、信息處理效率過低以及分析結果過為主觀等問題。因此,為了滿足業(yè)務需求,本文設計并實現(xiàn)了一個基于分布式爬蟲的游戲輿情監(jiān)測系統(tǒng)。該輿情監(jiān)測系統(tǒng)將高效分布式爬蟲與輿情分析系統(tǒng)結合,可以實時高效地進行游戲評論數(shù)據(jù)獲取和分析并通過可視化圖表直觀地進行展示。文本主要工作如下:1.分布式游戲主題增量爬蟲。為解決游戲評價數(shù)量大、更新快、分布散的問題,本文設計了一個基于Master-Slave架構的分布式網(wǎng)絡增量數(shù)據(jù)獲取系統(tǒng),以實時、高效地收集信息,同時設計了一個進行信息抽取的通用論壇信息抽取算法。此外,利用redis實現(xiàn)了一個高效的分布式Bloom Filter,極大提升了分布式環(huán)境下URL去重的效率。2.游戲評論數(shù)據(jù)分析。本文設計了包含網(wǎng)絡新詞發(fā)現(xiàn)、游戲熱點追蹤和游戲情感分析的游戲評論數(shù)據(jù)分析系統(tǒng)。針對游戲評論數(shù)據(jù)中新詞、專有名詞多的問題,使用左右熵和互信息結合游戲知識庫實現(xiàn)了Tire樹加速的游戲專有新詞發(fā)現(xiàn)算法;針對從業(yè)人員自動探...
【文章頁數(shù)】:88 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 項目背景
1.2 項目目的與意義
1.3 國內外發(fā)展與研究現(xiàn)狀
1.3.1 分布式爬蟲
1.3.2 情感傾向分析
1.3.3 輿情監(jiān)測系統(tǒng)
1.4 論文主要工作
1.5 論文組織結構
第二章 相關技術
2.1 分布式網(wǎng)絡爬蟲
2.1.1 爬蟲基本知識
2.1.2 Bloom Filter
2.1.3 Master-Slave分布式架構
2.1.4 信息抽取策略
2.2 文本數(shù)據(jù)處理
2.2.1 中文分詞技術
2.2.2 CBOW與 Skip-Gram模型
2.2.3 LSTM模型
2.3 系統(tǒng)實現(xiàn)相關框架結構
2.3.1 Flask框架
2.3.2 Angular JS
2.3.3 Chart.js圖表庫
2.4 本章小結
第三章 游戲輿情監(jiān)測系統(tǒng)總體架構
3.1 游戲輿情監(jiān)測系統(tǒng)整體結構
3.1.1 游戲輿情監(jiān)測系統(tǒng)整體層次結構設計
3.1.2 游戲輿情監(jiān)測系統(tǒng)整體模塊設計
3.2 游戲輿情監(jiān)測系統(tǒng)詳細功能設計
3.2.1 系統(tǒng)后臺監(jiān)控
3.2.2 自動處理任務
3.2.3 數(shù)據(jù)可視化前端
3.3 網(wǎng)絡拓撲設計
3.4 數(shù)據(jù)庫設計
3.5 本章小結
第四章 分布式增量爬蟲子系統(tǒng)
4.1 論壇信息抽取模塊
4.1.1 CPEA論壇信息通用抽取算法
4.1.2 其他關鍵信息提取
4.1.3 手動抽取標準接口設計
4.2 基于Redis的 Bloom Filter
4.2.1 基于Redis的 Bloom Filter設計原理
4.2.2 基于Redis的 Bloom Filter算法實現(xiàn)
4.3 分布式增量爬蟲子系統(tǒng)整體結構
4.3.1 分布式增量爬蟲子系統(tǒng)流程設計
4.3.2 分布式增量爬蟲支撐性組件
4.3.3 分布式增量爬蟲增量策略設計
4.3.4 分布式增量爬蟲架構設計
4.4 本章小結
第五章 游戲評論數(shù)據(jù)分析子系統(tǒng)
5.1 游戲評論數(shù)據(jù)預處理
5.1.1 游戲評論數(shù)據(jù)清洗
5.2 游戲評論數(shù)據(jù)新詞發(fā)現(xiàn)GCD算法
5.2.1 GCD算法設計
5.2.2 Tire樹加速的GCD算法實現(xiàn)
5.2.3 游戲評論數(shù)據(jù)知識GCD詞典生成
5.3 游戲熱點挖掘
5.4 GCSC游戲評論數(shù)據(jù)情感傾向分類器
5.4.1 Emotion-Skip Gram詞向量模型
5.4.2 GCSC情感傾向分類器設計
5.5 本章小結
第六章 游戲輿情監(jiān)測系統(tǒng)實現(xiàn)與測試
6.1 總體實現(xiàn)框架
6.2 重點模塊實現(xiàn)
6.2.1 系統(tǒng)監(jiān)測模塊實現(xiàn)
6.2.2 游戲輿情可視化模塊實現(xiàn)
6.2.3 分布式增量爬蟲監(jiān)控模塊實現(xiàn)
6.3 系統(tǒng)測試
6.3.1 測試環(huán)境
6.3.2 測試用例
6.3.3 系統(tǒng)性能測試
6.4 算法效果測試
6.4.1 Tire樹加速的GCD算法效果測試
6.4.2 GCSC情感傾向分類器效果測試
6.5 本章小結
第七章 結論與展望
參考文獻
攻讀碩士學位期間取得的研究成果
致謝
附件
【參考文獻】:
期刊論文
[1]基于公眾情緒上下文的LSTM情感分析研究——以臺風“利奇馬”為例[J]. 陳凌,宋衍欣. 現(xiàn)代情報. 2020(06)
[2]基于事理圖譜的網(wǎng)絡輿情事件預測方法研究[J]. 單曉紅,龐世紅,劉曉燕,楊娟. 情報理論與實踐. 2020(10)
[3]淺析三層架構的組成及優(yōu)勢[J]. 陳敏. 信息通信. 2020(01)
[4]基于TOPSIS的社交網(wǎng)絡輿情事件綜合評價研究[J]. 趙慶亮,王培勇,劉佳欣,侯亞文,吳靖. 情報探索. 2019(12)
[5]Python最新Web編程框架Flask研究[J]. 葉鋒. 電腦編程技巧與維護. 2015(15)
[6]網(wǎng)絡輿情熱點話題聚類方法研究[J]. 張壽華,劉振鵬. 小型微型計算機系統(tǒng). 2013(03)
[7]基于話題檢測與聚類的內部輿情監(jiān)測系統(tǒng)[J]. 李忠俊. 計算機科學. 2012(12)
[8]如何開發(fā)輿情監(jiān)測產品?——人民網(wǎng)輿情監(jiān)測室的運作模式[J]. 羅婷,李成. 中國記者. 2010(06)
[9]網(wǎng)絡輿情熱點信息自動發(fā)現(xiàn)方法[J]. 鄭魁,疏學明,袁宏永. 計算機工程. 2010(03)
[10]網(wǎng)絡輿情突發(fā)事件預警系統(tǒng)、指標與機制[J]. 曾潤喜,徐曉林. 情報雜志. 2009(11)
本文編號:3674416
【文章頁數(shù)】:88 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 項目背景
1.2 項目目的與意義
1.3 國內外發(fā)展與研究現(xiàn)狀
1.3.1 分布式爬蟲
1.3.2 情感傾向分析
1.3.3 輿情監(jiān)測系統(tǒng)
1.4 論文主要工作
1.5 論文組織結構
第二章 相關技術
2.1 分布式網(wǎng)絡爬蟲
2.1.1 爬蟲基本知識
2.1.2 Bloom Filter
2.1.3 Master-Slave分布式架構
2.1.4 信息抽取策略
2.2 文本數(shù)據(jù)處理
2.2.1 中文分詞技術
2.2.2 CBOW與 Skip-Gram模型
2.2.3 LSTM模型
2.3 系統(tǒng)實現(xiàn)相關框架結構
2.3.1 Flask框架
2.3.2 Angular JS
2.3.3 Chart.js圖表庫
2.4 本章小結
第三章 游戲輿情監(jiān)測系統(tǒng)總體架構
3.1 游戲輿情監(jiān)測系統(tǒng)整體結構
3.1.1 游戲輿情監(jiān)測系統(tǒng)整體層次結構設計
3.1.2 游戲輿情監(jiān)測系統(tǒng)整體模塊設計
3.2 游戲輿情監(jiān)測系統(tǒng)詳細功能設計
3.2.1 系統(tǒng)后臺監(jiān)控
3.2.2 自動處理任務
3.2.3 數(shù)據(jù)可視化前端
3.3 網(wǎng)絡拓撲設計
3.4 數(shù)據(jù)庫設計
3.5 本章小結
第四章 分布式增量爬蟲子系統(tǒng)
4.1 論壇信息抽取模塊
4.1.1 CPEA論壇信息通用抽取算法
4.1.2 其他關鍵信息提取
4.1.3 手動抽取標準接口設計
4.2 基于Redis的 Bloom Filter
4.2.1 基于Redis的 Bloom Filter設計原理
4.2.2 基于Redis的 Bloom Filter算法實現(xiàn)
4.3 分布式增量爬蟲子系統(tǒng)整體結構
4.3.1 分布式增量爬蟲子系統(tǒng)流程設計
4.3.2 分布式增量爬蟲支撐性組件
4.3.3 分布式增量爬蟲增量策略設計
4.3.4 分布式增量爬蟲架構設計
4.4 本章小結
第五章 游戲評論數(shù)據(jù)分析子系統(tǒng)
5.1 游戲評論數(shù)據(jù)預處理
5.1.1 游戲評論數(shù)據(jù)清洗
5.2 游戲評論數(shù)據(jù)新詞發(fā)現(xiàn)GCD算法
5.2.1 GCD算法設計
5.2.2 Tire樹加速的GCD算法實現(xiàn)
5.2.3 游戲評論數(shù)據(jù)知識GCD詞典生成
5.3 游戲熱點挖掘
5.4 GCSC游戲評論數(shù)據(jù)情感傾向分類器
5.4.1 Emotion-Skip Gram詞向量模型
5.4.2 GCSC情感傾向分類器設計
5.5 本章小結
第六章 游戲輿情監(jiān)測系統(tǒng)實現(xiàn)與測試
6.1 總體實現(xiàn)框架
6.2 重點模塊實現(xiàn)
6.2.1 系統(tǒng)監(jiān)測模塊實現(xiàn)
6.2.2 游戲輿情可視化模塊實現(xiàn)
6.2.3 分布式增量爬蟲監(jiān)控模塊實現(xiàn)
6.3 系統(tǒng)測試
6.3.1 測試環(huán)境
6.3.2 測試用例
6.3.3 系統(tǒng)性能測試
6.4 算法效果測試
6.4.1 Tire樹加速的GCD算法效果測試
6.4.2 GCSC情感傾向分類器效果測試
6.5 本章小結
第七章 結論與展望
參考文獻
攻讀碩士學位期間取得的研究成果
致謝
附件
【參考文獻】:
期刊論文
[1]基于公眾情緒上下文的LSTM情感分析研究——以臺風“利奇馬”為例[J]. 陳凌,宋衍欣. 現(xiàn)代情報. 2020(06)
[2]基于事理圖譜的網(wǎng)絡輿情事件預測方法研究[J]. 單曉紅,龐世紅,劉曉燕,楊娟. 情報理論與實踐. 2020(10)
[3]淺析三層架構的組成及優(yōu)勢[J]. 陳敏. 信息通信. 2020(01)
[4]基于TOPSIS的社交網(wǎng)絡輿情事件綜合評價研究[J]. 趙慶亮,王培勇,劉佳欣,侯亞文,吳靖. 情報探索. 2019(12)
[5]Python最新Web編程框架Flask研究[J]. 葉鋒. 電腦編程技巧與維護. 2015(15)
[6]網(wǎng)絡輿情熱點話題聚類方法研究[J]. 張壽華,劉振鵬. 小型微型計算機系統(tǒng). 2013(03)
[7]基于話題檢測與聚類的內部輿情監(jiān)測系統(tǒng)[J]. 李忠俊. 計算機科學. 2012(12)
[8]如何開發(fā)輿情監(jiān)測產品?——人民網(wǎng)輿情監(jiān)測室的運作模式[J]. 羅婷,李成. 中國記者. 2010(06)
[9]網(wǎng)絡輿情熱點信息自動發(fā)現(xiàn)方法[J]. 鄭魁,疏學明,袁宏永. 計算機工程. 2010(03)
[10]網(wǎng)絡輿情突發(fā)事件預警系統(tǒng)、指標與機制[J]. 曾潤喜,徐曉林. 情報雜志. 2009(11)
本文編號:3674416
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3674416.html
最近更新
教材專著