基于特征識別與實(shí)證分析的熱點(diǎn)事件識別技術(shù)研究
發(fā)布時間:2024-04-23 00:35
網(wǎng)絡(luò)熱點(diǎn)事件反映了社會動態(tài)、民生意愿,受到社會各界廣泛關(guān)注,但是新聞門戶網(wǎng)站中存在大量冗余的信息,人工的方式難以有效獲取網(wǎng)絡(luò)熱點(diǎn)事件相關(guān)信息,且部分網(wǎng)絡(luò)熱點(diǎn)事件爆發(fā)迅速、影響巨大,人們需要及時了解事件發(fā)展態(tài)勢。因此人們需要計算機(jī)能夠在大量的新聞信息中自動發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)事件,甚至在網(wǎng)絡(luò)事件的早期對熱點(diǎn)事件進(jìn)行識別。網(wǎng)絡(luò)熱點(diǎn)事件識別技術(shù)受到研究者們的廣泛關(guān)注,很多研究者使用不同的文本表示模型提升了熱點(diǎn)事件識別的效果,根據(jù)已發(fā)生事件和新發(fā)生事件之間的相似性預(yù)測新發(fā)生事件的熱度。但是在新聞領(lǐng)域中,提升網(wǎng)絡(luò)熱點(diǎn)事件識別效率的研究較少,網(wǎng)絡(luò)熱點(diǎn)事件早期識別方法的研究還有所欠缺。本文實(shí)證分析網(wǎng)絡(luò)熱點(diǎn)事件特征及網(wǎng)絡(luò)事件早期特征,基于網(wǎng)絡(luò)熱點(diǎn)事件特征改進(jìn)文本表示方法從而提升網(wǎng)絡(luò)熱點(diǎn)事件的識別效率,同時基于網(wǎng)絡(luò)事件早期特征提出網(wǎng)絡(luò)熱點(diǎn)事件早期識別方法。本文的研究內(nèi)容及貢獻(xiàn)如下所示:(1)提出了KSSP網(wǎng)絡(luò)熱點(diǎn)事件識別方法。本文基于多源新聞爬蟲系統(tǒng)采集的新聞數(shù)據(jù),實(shí)證分析了網(wǎng)絡(luò)熱點(diǎn)事件的特征。研究發(fā)現(xiàn)網(wǎng)絡(luò)熱點(diǎn)事件討論的話題不止一個,在話題偏移的過程中,新話題的部分文本會在文本的開頭對其他話題進(jìn)行簡短的闡述。根...
【文章頁數(shù)】:93 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 網(wǎng)絡(luò)熱點(diǎn)事件識別技術(shù)
1.2.2 網(wǎng)絡(luò)熱點(diǎn)事件早期識別技術(shù)
1.3 論文研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)理論和技術(shù)
2.1 網(wǎng)絡(luò)爬蟲技術(shù)
2.1.1 網(wǎng)絡(luò)爬蟲概述
2.1.2 網(wǎng)絡(luò)爬蟲的分類
2.1.3 網(wǎng)絡(luò)爬蟲原理
2.2 文本預(yù)處理技術(shù)
2.2.1 文本分詞
2.2.2 文本表示
2.2.3 常用向量距離計算公式
2.3 機(jī)器學(xué)習(xí)聚類方法簡介
2.3.1 K-Means
2.3.2 Mini Batch KMeans
2.3.3 DBSCAN
2.3.4 Single-Pass
2.4 網(wǎng)絡(luò)熱點(diǎn)事件定義
2.4.1 二八定律
2.4.2 網(wǎng)絡(luò)熱點(diǎn)事件
2.5 機(jī)器學(xué)習(xí)分類方法簡介
2.5.1 邏輯回歸
2.5.2 決策樹
2.5.3 SVM
2.5.4 K近鄰
2.5.5 樸素貝葉斯
2.6 本章小結(jié)
第三章 KSSP網(wǎng)絡(luò)熱點(diǎn)事件識別方法
3.1 網(wǎng)絡(luò)熱點(diǎn)事件特征
3.1.1 網(wǎng)絡(luò)熱點(diǎn)事件話題數(shù)量
3.1.2 網(wǎng)絡(luò)熱點(diǎn)事件話題間的聯(lián)系
3.2 KSSP網(wǎng)絡(luò)熱點(diǎn)事件識別方法
3.2.1 新聞文本表示及相似度計算方法
3.2.2 KSSP網(wǎng)絡(luò)熱點(diǎn)事件識別方法描述
3.3 實(shí)驗(yàn)設(shè)計與結(jié)果分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
3.3.2 實(shí)驗(yàn)評價指標(biāo)
3.3.3 實(shí)驗(yàn)平臺
3.3.4 實(shí)驗(yàn)結(jié)果與分析
3.4 本章小結(jié)
第四章 基于網(wǎng)絡(luò)事件早期特征的熱點(diǎn)事件早期識別方法
4.1 數(shù)據(jù)準(zhǔn)備
4.1.1 數(shù)據(jù)采集與篩選
4.1.2 網(wǎng)絡(luò)事件熱度計算公式
4.2 網(wǎng)絡(luò)事件早期定義
4.2.1 網(wǎng)絡(luò)熱點(diǎn)事件生命周期
4.2.2 網(wǎng)絡(luò)事件早期定義
4.3 網(wǎng)絡(luò)事件熱度影響因素表現(xiàn)特征
4.3.1 媒體發(fā)布的新聞數(shù)均值
4.3.2 媒體關(guān)注度
4.3.3 極端情緒占比
4.3.4 用戶關(guān)注度
4.4 網(wǎng)絡(luò)熱點(diǎn)事件特征有效性驗(yàn)證
4.4.1 網(wǎng)絡(luò)熱點(diǎn)事件特征中的異常值
4.4.2 差異顯著性檢驗(yàn)
4.5 網(wǎng)絡(luò)事件早期特征
4.5.1 網(wǎng)絡(luò)事件早期特征研究數(shù)據(jù)集
4.5.2 網(wǎng)絡(luò)事件早期特征
4.6 基于網(wǎng)絡(luò)事件早期特征的熱點(diǎn)事件早期識別方法
4.7 實(shí)驗(yàn)設(shè)置與實(shí)驗(yàn)結(jié)果分析
4.7.1 實(shí)驗(yàn)數(shù)據(jù)集
4.7.2 實(shí)驗(yàn)對比方法
4.7.3 實(shí)驗(yàn)評估方法
4.7.4 實(shí)驗(yàn)結(jié)果與分析
4.8 本章小結(jié)
第五章 網(wǎng)絡(luò)熱點(diǎn)事件識別技術(shù)的應(yīng)用
5.1 基于大規(guī)模新聞數(shù)據(jù)的輿情定制系統(tǒng)
5.1.1 系統(tǒng)開發(fā)背景介紹
5.1.2 輿情定制系統(tǒng)功能介紹
5.1.3 系統(tǒng)難點(diǎn)
5.2 成果應(yīng)用及系統(tǒng)功能展示
5.2.1 成果應(yīng)用
5.2.2 系統(tǒng)功能展示
5.3 本章小結(jié)
第六章 總結(jié)和展望
6.1 工作總結(jié)
6.2 未來工作展望
致謝
參考文獻(xiàn)
附錄 作者在讀期間發(fā)表的學(xué)術(shù)論文及參加的科研項(xiàng)目
詳細(xì)摘要
本文編號:3962359
【文章頁數(shù)】:93 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 網(wǎng)絡(luò)熱點(diǎn)事件識別技術(shù)
1.2.2 網(wǎng)絡(luò)熱點(diǎn)事件早期識別技術(shù)
1.3 論文研究內(nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)理論和技術(shù)
2.1 網(wǎng)絡(luò)爬蟲技術(shù)
2.1.1 網(wǎng)絡(luò)爬蟲概述
2.1.2 網(wǎng)絡(luò)爬蟲的分類
2.1.3 網(wǎng)絡(luò)爬蟲原理
2.2 文本預(yù)處理技術(shù)
2.2.1 文本分詞
2.2.2 文本表示
2.2.3 常用向量距離計算公式
2.3 機(jī)器學(xué)習(xí)聚類方法簡介
2.3.1 K-Means
2.3.2 Mini Batch KMeans
2.3.3 DBSCAN
2.3.4 Single-Pass
2.4 網(wǎng)絡(luò)熱點(diǎn)事件定義
2.4.1 二八定律
2.4.2 網(wǎng)絡(luò)熱點(diǎn)事件
2.5 機(jī)器學(xué)習(xí)分類方法簡介
2.5.1 邏輯回歸
2.5.2 決策樹
2.5.3 SVM
2.5.4 K近鄰
2.5.5 樸素貝葉斯
2.6 本章小結(jié)
第三章 KSSP網(wǎng)絡(luò)熱點(diǎn)事件識別方法
3.1 網(wǎng)絡(luò)熱點(diǎn)事件特征
3.1.1 網(wǎng)絡(luò)熱點(diǎn)事件話題數(shù)量
3.1.2 網(wǎng)絡(luò)熱點(diǎn)事件話題間的聯(lián)系
3.2 KSSP網(wǎng)絡(luò)熱點(diǎn)事件識別方法
3.2.1 新聞文本表示及相似度計算方法
3.2.2 KSSP網(wǎng)絡(luò)熱點(diǎn)事件識別方法描述
3.3 實(shí)驗(yàn)設(shè)計與結(jié)果分析
3.3.1 實(shí)驗(yàn)數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置
3.3.2 實(shí)驗(yàn)評價指標(biāo)
3.3.3 實(shí)驗(yàn)平臺
3.3.4 實(shí)驗(yàn)結(jié)果與分析
3.4 本章小結(jié)
第四章 基于網(wǎng)絡(luò)事件早期特征的熱點(diǎn)事件早期識別方法
4.1 數(shù)據(jù)準(zhǔn)備
4.1.1 數(shù)據(jù)采集與篩選
4.1.2 網(wǎng)絡(luò)事件熱度計算公式
4.2 網(wǎng)絡(luò)事件早期定義
4.2.1 網(wǎng)絡(luò)熱點(diǎn)事件生命周期
4.2.2 網(wǎng)絡(luò)事件早期定義
4.3 網(wǎng)絡(luò)事件熱度影響因素表現(xiàn)特征
4.3.1 媒體發(fā)布的新聞數(shù)均值
4.3.2 媒體關(guān)注度
4.3.3 極端情緒占比
4.3.4 用戶關(guān)注度
4.4 網(wǎng)絡(luò)熱點(diǎn)事件特征有效性驗(yàn)證
4.4.1 網(wǎng)絡(luò)熱點(diǎn)事件特征中的異常值
4.4.2 差異顯著性檢驗(yàn)
4.5 網(wǎng)絡(luò)事件早期特征
4.5.1 網(wǎng)絡(luò)事件早期特征研究數(shù)據(jù)集
4.5.2 網(wǎng)絡(luò)事件早期特征
4.6 基于網(wǎng)絡(luò)事件早期特征的熱點(diǎn)事件早期識別方法
4.7 實(shí)驗(yàn)設(shè)置與實(shí)驗(yàn)結(jié)果分析
4.7.1 實(shí)驗(yàn)數(shù)據(jù)集
4.7.2 實(shí)驗(yàn)對比方法
4.7.3 實(shí)驗(yàn)評估方法
4.7.4 實(shí)驗(yàn)結(jié)果與分析
4.8 本章小結(jié)
第五章 網(wǎng)絡(luò)熱點(diǎn)事件識別技術(shù)的應(yīng)用
5.1 基于大規(guī)模新聞數(shù)據(jù)的輿情定制系統(tǒng)
5.1.1 系統(tǒng)開發(fā)背景介紹
5.1.2 輿情定制系統(tǒng)功能介紹
5.1.3 系統(tǒng)難點(diǎn)
5.2 成果應(yīng)用及系統(tǒng)功能展示
5.2.1 成果應(yīng)用
5.2.2 系統(tǒng)功能展示
5.3 本章小結(jié)
第六章 總結(jié)和展望
6.1 工作總結(jié)
6.2 未來工作展望
致謝
參考文獻(xiàn)
附錄 作者在讀期間發(fā)表的學(xué)術(shù)論文及參加的科研項(xiàng)目
詳細(xì)摘要
本文編號:3962359
本文鏈接:http://sikaile.net/tushudanganlunwen/3962359.html
最近更新
教材專著