基于新浪新聞數(shù)據(jù)分析的新聞熱度預(yù)測方法研究
發(fā)布時間:2022-08-12 15:34
我們身處在信息爆炸式增長的時代,有數(shù)據(jù)顯示,截止到2018年6月,我國擁有的手機網(wǎng)民數(shù)量已經(jīng)高達7.88億人次,這個龐大的用戶群體在新聞網(wǎng)站、微博、Facebook、微信等不同的社交平臺上制造著大量的網(wǎng)絡(luò)數(shù)據(jù)。目前針對新聞及其評論數(shù)據(jù)的研究比較少,缺乏量化分析。對于網(wǎng)絡(luò)新聞而言,新聞評論是其傳播、發(fā)酵的重要組成,從另外一個角度來說,與以往的傳統(tǒng)媒體相比,網(wǎng)絡(luò)媒體的傳播深度和廣度是極快極廣泛的,容易形成民眾熱議的輿論事件,導(dǎo)致一些事件的解決難度增加,所以,提前發(fā)現(xiàn)可能成為熱議事件的新聞可以幫助相關(guān)監(jiān)管部門監(jiān)測網(wǎng)絡(luò)輿情的發(fā)展,避免網(wǎng)絡(luò)暴力事件的發(fā)生,利于維護社會的安定。本文首先抓取了新浪新聞娛樂、科技、體育、財經(jīng)、軍事、收藏六個類別的116595條新聞數(shù)據(jù)以及對應(yīng)的4926412條評論數(shù)據(jù),對數(shù)據(jù)進行清洗并入庫。針對不同類別的新聞,利用NumPy、Pandas、Matplotlib等工具分析了新聞評論的空間分布特征,包括新聞類別、參與討論人數(shù)、新聞發(fā)布時間等因素,從時間上分析評論數(shù)據(jù)的產(chǎn)生過程得到其時間分布特征。接下來以評論數(shù)和點贊數(shù)加權(quán)之和作為新聞的熱度值,從小時和周天兩個維度再次分析了...
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 網(wǎng)絡(luò)爬蟲技術(shù)
1.2.2 集成學(xué)習(xí)
1.2.3 新聞熱度預(yù)測
1.3 論文主要研究內(nèi)容
1.4 論文結(jié)構(gòu)安排
2 理論基礎(chǔ)概述
2.1 網(wǎng)絡(luò)爬蟲概述
2.1.1 網(wǎng)絡(luò)爬蟲的定義
2.1.2 網(wǎng)絡(luò)爬蟲的分類
2.2 回歸算法
2.2.1 機器學(xué)習(xí)概述
2.2.2 常用回歸算法簡介
2.3 集成學(xué)習(xí)
2.3.1 集成學(xué)習(xí)簡介
2.3.2 集成學(xué)習(xí)方法介紹
2.4 算法評價指標(biāo)
2.4.1 均方根誤差
2.4.2 平均絕對誤差
2.4.3 決定系數(shù)
2.5 本章小結(jié)
3 網(wǎng)絡(luò)新聞數(shù)據(jù)獲取及預(yù)處理
3.1 網(wǎng)絡(luò)新聞數(shù)據(jù)獲取及存儲
3.1.1 數(shù)據(jù)獲取總體設(shè)計
3.1.2 數(shù)據(jù)獲取實現(xiàn)
3.1.3 數(shù)據(jù)存儲設(shè)計
3.2 數(shù)據(jù)清洗
3.3 本章小結(jié)
4 網(wǎng)絡(luò)新聞數(shù)據(jù)分析
4.1 數(shù)據(jù)分析工具介紹
4.2 實驗數(shù)據(jù)構(gòu)成
4.3 新聞評論分布特征分析
4.3.1 新聞評論空間分布特征
4.3.2 新聞評論時間分布特征
4.4 新聞熱度相關(guān)分析
4.4.1 新聞熱度定義
4.4.2 以小時為單位分析發(fā)布時間與新聞熱度關(guān)系
4.4.3 以周天為單位分析發(fā)布時間與新聞熱度關(guān)系
4.5 本章小結(jié)
5 新聞熱度預(yù)測方法研究及實驗分析
5.1 多元線性回歸算法
5.1.1 算法原理
5.1.2 算法實戰(zhàn)
5.2 KNN算法
5.2.1 算法原理
5.2.2 算法實踐
5.3 梯度提升決策樹算法
5.3.1 算法原理
5.3.2 算法實踐
5.4 改進的集成學(xué)習(xí)算法
5.5 實驗結(jié)果分析
5.5.1 實驗環(huán)境
5.5.2 實驗數(shù)據(jù)
5.5.3 特征提取
5.5.4 實驗結(jié)果評價指標(biāo)
5.5.5 算法實驗結(jié)果分析
5.6 本章小結(jié)
6 總結(jié)與展望
6.1 論文研究成果
6.2 論文中存在的不足
6.3 未來工作展望
致謝
參考文獻
研究成果及發(fā)表的學(xué)術(shù)論文
本文編號:3676136
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 網(wǎng)絡(luò)爬蟲技術(shù)
1.2.2 集成學(xué)習(xí)
1.2.3 新聞熱度預(yù)測
1.3 論文主要研究內(nèi)容
1.4 論文結(jié)構(gòu)安排
2 理論基礎(chǔ)概述
2.1 網(wǎng)絡(luò)爬蟲概述
2.1.1 網(wǎng)絡(luò)爬蟲的定義
2.1.2 網(wǎng)絡(luò)爬蟲的分類
2.2 回歸算法
2.2.1 機器學(xué)習(xí)概述
2.2.2 常用回歸算法簡介
2.3 集成學(xué)習(xí)
2.3.1 集成學(xué)習(xí)簡介
2.3.2 集成學(xué)習(xí)方法介紹
2.4 算法評價指標(biāo)
2.4.1 均方根誤差
2.4.2 平均絕對誤差
2.4.3 決定系數(shù)
2.5 本章小結(jié)
3 網(wǎng)絡(luò)新聞數(shù)據(jù)獲取及預(yù)處理
3.1 網(wǎng)絡(luò)新聞數(shù)據(jù)獲取及存儲
3.1.1 數(shù)據(jù)獲取總體設(shè)計
3.1.2 數(shù)據(jù)獲取實現(xiàn)
3.1.3 數(shù)據(jù)存儲設(shè)計
3.2 數(shù)據(jù)清洗
3.3 本章小結(jié)
4 網(wǎng)絡(luò)新聞數(shù)據(jù)分析
4.1 數(shù)據(jù)分析工具介紹
4.2 實驗數(shù)據(jù)構(gòu)成
4.3 新聞評論分布特征分析
4.3.1 新聞評論空間分布特征
4.3.2 新聞評論時間分布特征
4.4 新聞熱度相關(guān)分析
4.4.1 新聞熱度定義
4.4.2 以小時為單位分析發(fā)布時間與新聞熱度關(guān)系
4.4.3 以周天為單位分析發(fā)布時間與新聞熱度關(guān)系
4.5 本章小結(jié)
5 新聞熱度預(yù)測方法研究及實驗分析
5.1 多元線性回歸算法
5.1.1 算法原理
5.1.2 算法實戰(zhàn)
5.2 KNN算法
5.2.1 算法原理
5.2.2 算法實踐
5.3 梯度提升決策樹算法
5.3.1 算法原理
5.3.2 算法實踐
5.4 改進的集成學(xué)習(xí)算法
5.5 實驗結(jié)果分析
5.5.1 實驗環(huán)境
5.5.2 實驗數(shù)據(jù)
5.5.3 特征提取
5.5.4 實驗結(jié)果評價指標(biāo)
5.5.5 算法實驗結(jié)果分析
5.6 本章小結(jié)
6 總結(jié)與展望
6.1 論文研究成果
6.2 論文中存在的不足
6.3 未來工作展望
致謝
參考文獻
研究成果及發(fā)表的學(xué)術(shù)論文
本文編號:3676136
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3676136.html
最近更新
教材專著