基于分布式爬蟲的游戲輿情監(jiān)測系統(tǒng)設(shè)計與實現(xiàn)
發(fā)布時間:2022-08-11 09:34
隨著游戲市場的崛起,游戲相關(guān)從業(yè)人員亟需了解玩家對游戲的實際體驗,以便有針對性地指導(dǎo)游戲運營與開發(fā)。與此同時,在輿情信息監(jiān)測的實際業(yè)務(wù)中,也存在著手動收集評論信息范圍過窄、信息處理效率過低以及分析結(jié)果過為主觀等問題。因此,為了滿足業(yè)務(wù)需求,本文設(shè)計并實現(xiàn)了一個基于分布式爬蟲的游戲輿情監(jiān)測系統(tǒng)。該輿情監(jiān)測系統(tǒng)將高效分布式爬蟲與輿情分析系統(tǒng)結(jié)合,可以實時高效地進行游戲評論數(shù)據(jù)獲取和分析并通過可視化圖表直觀地進行展示。文本主要工作如下:1.分布式游戲主題增量爬蟲。為解決游戲評價數(shù)量大、更新快、分布散的問題,本文設(shè)計了一個基于Master-Slave架構(gòu)的分布式網(wǎng)絡(luò)增量數(shù)據(jù)獲取系統(tǒng),以實時、高效地收集信息,同時設(shè)計了一個進行信息抽取的通用論壇信息抽取算法。此外,利用redis實現(xiàn)了一個高效的分布式Bloom Filter,極大提升了分布式環(huán)境下URL去重的效率。2.游戲評論數(shù)據(jù)分析。本文設(shè)計了包含網(wǎng)絡(luò)新詞發(fā)現(xiàn)、游戲熱點追蹤和游戲情感分析的游戲評論數(shù)據(jù)分析系統(tǒng)。針對游戲評論數(shù)據(jù)中新詞、專有名詞多的問題,使用左右熵和互信息結(jié)合游戲知識庫實現(xiàn)了Tire樹加速的游戲?qū)S行略~發(fā)現(xiàn)算法;針對從業(yè)人員自動探...
【文章頁數(shù)】:88 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 項目背景
1.2 項目目的與意義
1.3 國內(nèi)外發(fā)展與研究現(xiàn)狀
1.3.1 分布式爬蟲
1.3.2 情感傾向分析
1.3.3 輿情監(jiān)測系統(tǒng)
1.4 論文主要工作
1.5 論文組織結(jié)構(gòu)
第二章 相關(guān)技術(shù)
2.1 分布式網(wǎng)絡(luò)爬蟲
2.1.1 爬蟲基本知識
2.1.2 Bloom Filter
2.1.3 Master-Slave分布式架構(gòu)
2.1.4 信息抽取策略
2.2 文本數(shù)據(jù)處理
2.2.1 中文分詞技術(shù)
2.2.2 CBOW與 Skip-Gram模型
2.2.3 LSTM模型
2.3 系統(tǒng)實現(xiàn)相關(guān)框架結(jié)構(gòu)
2.3.1 Flask框架
2.3.2 Angular JS
2.3.3 Chart.js圖表庫
2.4 本章小結(jié)
第三章 游戲輿情監(jiān)測系統(tǒng)總體架構(gòu)
3.1 游戲輿情監(jiān)測系統(tǒng)整體結(jié)構(gòu)
3.1.1 游戲輿情監(jiān)測系統(tǒng)整體層次結(jié)構(gòu)設(shè)計
3.1.2 游戲輿情監(jiān)測系統(tǒng)整體模塊設(shè)計
3.2 游戲輿情監(jiān)測系統(tǒng)詳細(xì)功能設(shè)計
3.2.1 系統(tǒng)后臺監(jiān)控
3.2.2 自動處理任務(wù)
3.2.3 數(shù)據(jù)可視化前端
3.3 網(wǎng)絡(luò)拓?fù)湓O(shè)計
3.4 數(shù)據(jù)庫設(shè)計
3.5 本章小結(jié)
第四章 分布式增量爬蟲子系統(tǒng)
4.1 論壇信息抽取模塊
4.1.1 CPEA論壇信息通用抽取算法
4.1.2 其他關(guān)鍵信息提取
4.1.3 手動抽取標(biāo)準(zhǔn)接口設(shè)計
4.2 基于Redis的 Bloom Filter
4.2.1 基于Redis的 Bloom Filter設(shè)計原理
4.2.2 基于Redis的 Bloom Filter算法實現(xiàn)
4.3 分布式增量爬蟲子系統(tǒng)整體結(jié)構(gòu)
4.3.1 分布式增量爬蟲子系統(tǒng)流程設(shè)計
4.3.2 分布式增量爬蟲支撐性組件
4.3.3 分布式增量爬蟲增量策略設(shè)計
4.3.4 分布式增量爬蟲架構(gòu)設(shè)計
4.4 本章小結(jié)
第五章 游戲評論數(shù)據(jù)分析子系統(tǒng)
5.1 游戲評論數(shù)據(jù)預(yù)處理
5.1.1 游戲評論數(shù)據(jù)清洗
5.2 游戲評論數(shù)據(jù)新詞發(fā)現(xiàn)GCD算法
5.2.1 GCD算法設(shè)計
5.2.2 Tire樹加速的GCD算法實現(xiàn)
5.2.3 游戲評論數(shù)據(jù)知識GCD詞典生成
5.3 游戲熱點挖掘
5.4 GCSC游戲評論數(shù)據(jù)情感傾向分類器
5.4.1 Emotion-Skip Gram詞向量模型
5.4.2 GCSC情感傾向分類器設(shè)計
5.5 本章小結(jié)
第六章 游戲輿情監(jiān)測系統(tǒng)實現(xiàn)與測試
6.1 總體實現(xiàn)框架
6.2 重點模塊實現(xiàn)
6.2.1 系統(tǒng)監(jiān)測模塊實現(xiàn)
6.2.2 游戲輿情可視化模塊實現(xiàn)
6.2.3 分布式增量爬蟲監(jiān)控模塊實現(xiàn)
6.3 系統(tǒng)測試
6.3.1 測試環(huán)境
6.3.2 測試用例
6.3.3 系統(tǒng)性能測試
6.4 算法效果測試
6.4.1 Tire樹加速的GCD算法效果測試
6.4.2 GCSC情感傾向分類器效果測試
6.5 本章小結(jié)
第七章 結(jié)論與展望
參考文獻
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
【參考文獻】:
期刊論文
[1]基于公眾情緒上下文的LSTM情感分析研究——以臺風(fēng)“利奇馬”為例[J]. 陳凌,宋衍欣. 現(xiàn)代情報. 2020(06)
[2]基于事理圖譜的網(wǎng)絡(luò)輿情事件預(yù)測方法研究[J]. 單曉紅,龐世紅,劉曉燕,楊娟. 情報理論與實踐. 2020(10)
[3]淺析三層架構(gòu)的組成及優(yōu)勢[J]. 陳敏. 信息通信. 2020(01)
[4]基于TOPSIS的社交網(wǎng)絡(luò)輿情事件綜合評價研究[J]. 趙慶亮,王培勇,劉佳欣,侯亞文,吳靖. 情報探索. 2019(12)
[5]Python最新Web編程框架Flask研究[J]. 葉鋒. 電腦編程技巧與維護. 2015(15)
[6]網(wǎng)絡(luò)輿情熱點話題聚類方法研究[J]. 張壽華,劉振鵬. 小型微型計算機系統(tǒng). 2013(03)
[7]基于話題檢測與聚類的內(nèi)部輿情監(jiān)測系統(tǒng)[J]. 李忠俊. 計算機科學(xué). 2012(12)
[8]如何開發(fā)輿情監(jiān)測產(chǎn)品?——人民網(wǎng)輿情監(jiān)測室的運作模式[J]. 羅婷,李成. 中國記者. 2010(06)
[9]網(wǎng)絡(luò)輿情熱點信息自動發(fā)現(xiàn)方法[J]. 鄭魁,疏學(xué)明,袁宏永. 計算機工程. 2010(03)
[10]網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警系統(tǒng)、指標(biāo)與機制[J]. 曾潤喜,徐曉林. 情報雜志. 2009(11)
本文編號:3674416
【文章頁數(shù)】:88 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 項目背景
1.2 項目目的與意義
1.3 國內(nèi)外發(fā)展與研究現(xiàn)狀
1.3.1 分布式爬蟲
1.3.2 情感傾向分析
1.3.3 輿情監(jiān)測系統(tǒng)
1.4 論文主要工作
1.5 論文組織結(jié)構(gòu)
第二章 相關(guān)技術(shù)
2.1 分布式網(wǎng)絡(luò)爬蟲
2.1.1 爬蟲基本知識
2.1.2 Bloom Filter
2.1.3 Master-Slave分布式架構(gòu)
2.1.4 信息抽取策略
2.2 文本數(shù)據(jù)處理
2.2.1 中文分詞技術(shù)
2.2.2 CBOW與 Skip-Gram模型
2.2.3 LSTM模型
2.3 系統(tǒng)實現(xiàn)相關(guān)框架結(jié)構(gòu)
2.3.1 Flask框架
2.3.2 Angular JS
2.3.3 Chart.js圖表庫
2.4 本章小結(jié)
第三章 游戲輿情監(jiān)測系統(tǒng)總體架構(gòu)
3.1 游戲輿情監(jiān)測系統(tǒng)整體結(jié)構(gòu)
3.1.1 游戲輿情監(jiān)測系統(tǒng)整體層次結(jié)構(gòu)設(shè)計
3.1.2 游戲輿情監(jiān)測系統(tǒng)整體模塊設(shè)計
3.2 游戲輿情監(jiān)測系統(tǒng)詳細(xì)功能設(shè)計
3.2.1 系統(tǒng)后臺監(jiān)控
3.2.2 自動處理任務(wù)
3.2.3 數(shù)據(jù)可視化前端
3.3 網(wǎng)絡(luò)拓?fù)湓O(shè)計
3.4 數(shù)據(jù)庫設(shè)計
3.5 本章小結(jié)
第四章 分布式增量爬蟲子系統(tǒng)
4.1 論壇信息抽取模塊
4.1.1 CPEA論壇信息通用抽取算法
4.1.2 其他關(guān)鍵信息提取
4.1.3 手動抽取標(biāo)準(zhǔn)接口設(shè)計
4.2 基于Redis的 Bloom Filter
4.2.1 基于Redis的 Bloom Filter設(shè)計原理
4.2.2 基于Redis的 Bloom Filter算法實現(xiàn)
4.3 分布式增量爬蟲子系統(tǒng)整體結(jié)構(gòu)
4.3.1 分布式增量爬蟲子系統(tǒng)流程設(shè)計
4.3.2 分布式增量爬蟲支撐性組件
4.3.3 分布式增量爬蟲增量策略設(shè)計
4.3.4 分布式增量爬蟲架構(gòu)設(shè)計
4.4 本章小結(jié)
第五章 游戲評論數(shù)據(jù)分析子系統(tǒng)
5.1 游戲評論數(shù)據(jù)預(yù)處理
5.1.1 游戲評論數(shù)據(jù)清洗
5.2 游戲評論數(shù)據(jù)新詞發(fā)現(xiàn)GCD算法
5.2.1 GCD算法設(shè)計
5.2.2 Tire樹加速的GCD算法實現(xiàn)
5.2.3 游戲評論數(shù)據(jù)知識GCD詞典生成
5.3 游戲熱點挖掘
5.4 GCSC游戲評論數(shù)據(jù)情感傾向分類器
5.4.1 Emotion-Skip Gram詞向量模型
5.4.2 GCSC情感傾向分類器設(shè)計
5.5 本章小結(jié)
第六章 游戲輿情監(jiān)測系統(tǒng)實現(xiàn)與測試
6.1 總體實現(xiàn)框架
6.2 重點模塊實現(xiàn)
6.2.1 系統(tǒng)監(jiān)測模塊實現(xiàn)
6.2.2 游戲輿情可視化模塊實現(xiàn)
6.2.3 分布式增量爬蟲監(jiān)控模塊實現(xiàn)
6.3 系統(tǒng)測試
6.3.1 測試環(huán)境
6.3.2 測試用例
6.3.3 系統(tǒng)性能測試
6.4 算法效果測試
6.4.1 Tire樹加速的GCD算法效果測試
6.4.2 GCSC情感傾向分類器效果測試
6.5 本章小結(jié)
第七章 結(jié)論與展望
參考文獻
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
【參考文獻】:
期刊論文
[1]基于公眾情緒上下文的LSTM情感分析研究——以臺風(fēng)“利奇馬”為例[J]. 陳凌,宋衍欣. 現(xiàn)代情報. 2020(06)
[2]基于事理圖譜的網(wǎng)絡(luò)輿情事件預(yù)測方法研究[J]. 單曉紅,龐世紅,劉曉燕,楊娟. 情報理論與實踐. 2020(10)
[3]淺析三層架構(gòu)的組成及優(yōu)勢[J]. 陳敏. 信息通信. 2020(01)
[4]基于TOPSIS的社交網(wǎng)絡(luò)輿情事件綜合評價研究[J]. 趙慶亮,王培勇,劉佳欣,侯亞文,吳靖. 情報探索. 2019(12)
[5]Python最新Web編程框架Flask研究[J]. 葉鋒. 電腦編程技巧與維護. 2015(15)
[6]網(wǎng)絡(luò)輿情熱點話題聚類方法研究[J]. 張壽華,劉振鵬. 小型微型計算機系統(tǒng). 2013(03)
[7]基于話題檢測與聚類的內(nèi)部輿情監(jiān)測系統(tǒng)[J]. 李忠俊. 計算機科學(xué). 2012(12)
[8]如何開發(fā)輿情監(jiān)測產(chǎn)品?——人民網(wǎng)輿情監(jiān)測室的運作模式[J]. 羅婷,李成. 中國記者. 2010(06)
[9]網(wǎng)絡(luò)輿情熱點信息自動發(fā)現(xiàn)方法[J]. 鄭魁,疏學(xué)明,袁宏永. 計算機工程. 2010(03)
[10]網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警系統(tǒng)、指標(biāo)與機制[J]. 曾潤喜,徐曉林. 情報雜志. 2009(11)
本文編號:3674416
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3674416.html
最近更新
教材專著