突發(fā)事件網(wǎng)絡輿情熱點檢測與預測技術研究
發(fā)布時間:2020-08-24 09:56
【摘要】:微博作為網(wǎng)絡輿情的主戰(zhàn)場之一,對微博中的網(wǎng)絡輿情進行研究具有重要意義。而微博中的大部分數(shù)據(jù)都是關于人們的日常生活,只有部分微博含有流行事件信息。因此,面對復雜多樣的微博信息,如何準確地檢測熱點話題并有效地進行預測變得越來越重要。但目前的研究沒有考慮到微博熱點話題度量的復雜性以及其在社交網(wǎng)絡中的傳遞問題,從而導致熱點話題檢測和預測精度偏低,針對突發(fā)性熱點話題時尤為明顯。為此,本文通過引入多維度熱點話題度量模型和優(yōu)化的隨機森林熱點預測方法來解決以上問題,并展開了相應的研究。本文取得的成果包括:1.針對突發(fā)性熱點話題檢測精度低的問題,提出了一種多維度熱點話題度量模型。該模型首先對話題進行篩選,得到一個熱點話題初始集,再融入話題熱度的影響力因子,計算各個話題的綜合權值,將話題的綜合權值按照一定的權重與多維度熱點話題度量模型進行有效的融合,最終得到一種基于微博多維度及綜合權值的熱點話題檢測模型。實驗結果表明本文提出的算法模型在對突發(fā)性熱點話題的檢測中,其檢測準確度相比于傳統(tǒng)算法有了較大提高,整體性能表現(xiàn)穩(wěn)定,從而改善了突發(fā)性熱點話題檢測的質量。2.為提高突發(fā)性熱點話題預測精度,本文采用優(yōu)化的隨機森林預測方法對微博熱點話題進行預測,該方法根據(jù)不同特征的權重來選取特征,微博熱度影響權重越大的特征越容易被抽取到,從而提高預測的準確度。最后,與兩種傳統(tǒng)算法進行了對比實驗,實驗結果表明,相較于其他兩種算法,優(yōu)化的隨機森林預測方法的預測效果有明顯提高。3.本文使用Java Web框架對上述模型進行了原型系統(tǒng)的設計與實現(xiàn),采用Web頁面的方式為熱點檢測與預測用戶展示個性化的檢測與預測結果。
【學位授予單位】:重慶郵電大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP393.092;TP18
【圖文】:
提出了一種改進的單通道聚類技術,該技術使用潛在的狄配(LDA)模型代替?zhèn)鹘y(tǒng)的向量空間模型,可以提取隱藏的微博主題信息ng 等人[17]提出了一種增量聚類框架,該框架可以基于時間特征和一系列內容熱點話題。F. Jafariakinabad 等人[18]采用了一個名為核心項潛在狄利克雷分微博話題檢測模型。Pang Jianhui 等人[19]開發(fā)了一種新穎的主題模型,可以個語料庫中明確建模詞匯共現(xiàn)模式來捕捉短文內的主題。Zhang Chunmei 等了一種高效的熱點話題檢測算法,可以在線處理大量推文。.2 網(wǎng)絡輿情熱點預測1. 網(wǎng)絡輿情預測路線現(xiàn)有的網(wǎng)絡輿情預測分析主要采用數(shù)學方法建立基于時間序列模型分析的,這是一種定量分析方法。網(wǎng)絡輿情預測遵循的主要路線見圖 1.1。
圖 1.2 預測模型分類圖傳統(tǒng)統(tǒng)計學預測模型比較常見的有基于自回歸模型、指數(shù)平滑模型、ARIM型以及移動平均模型等。Yuan Chaoqing 等人[21]利用 ARIMA 模型建立網(wǎng)絡輿情模型,從時間的角度來看,預測結果與整體趨勢吻合良好。然而由于輿情的突發(fā)性,主題的數(shù)量呈現(xiàn)爆發(fā)式增長,基于該模型進行預測,無法準確地預測其趨勢;K. Barrow 等人[22]基于移動平均法理論,根據(jù)微博輿情內部發(fā)展規(guī)律,在礎之上得到了線性修正的微博輿情預測模型;M. Cruz 等人[23]將邏輯曲線模型于網(wǎng)絡輿情預測,獲得了較好的預測結果。但是,網(wǎng)絡輿情的發(fā)展趨勢受到諸素的影響,在復雜和可變的客觀環(huán)境中,不能機械地運用該方法。智能機器算法預測模型是在人工智能技術和時間序列預測兩大技術基礎之上的[24]。相關理論基礎主要包括灰色理論、混沌理論、神經(jīng)網(wǎng)絡、貝葉斯網(wǎng)絡、可夫鏈理論、支持向量機、EM 聚類和群體智能計算等[25]。Liu Yang 等人[26]使
圖 2.1 通用搜索引擎系統(tǒng)結構圖網(wǎng)絡蜘蛛:網(wǎng)絡蜘蛛(亦稱網(wǎng)絡爬蟲)在互聯(lián)網(wǎng)中不斷地搜索(也稱爬行),發(fā)現(xiàn)和采集新的網(wǎng)頁信息,然后將網(wǎng)頁信息存入頁面庫,由索引器建立索引。索引器:索引器將分析網(wǎng)絡蜘蛛所采集的信息,從中抽取出索引項,建立用于檢索頁面的索引表,存入索引庫中。檢索器:檢索器將根據(jù)用戶的查詢請求和條件,從索引庫中快速檢索出網(wǎng)頁信息,并通過網(wǎng)頁相似度評價,對輸出的結果進行排序。用戶接口:用戶接口為用戶提供了一個輸入查詢請求和顯示查詢結果的用戶界面。(3) 通用搜索引擎不足盡管通用搜索引擎已經(jīng)成為搜索互聯(lián)網(wǎng)信息的常用網(wǎng)絡工具,但是它也存在一定的局限性:
【學位授予單位】:重慶郵電大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP393.092;TP18
【圖文】:
提出了一種改進的單通道聚類技術,該技術使用潛在的狄配(LDA)模型代替?zhèn)鹘y(tǒng)的向量空間模型,可以提取隱藏的微博主題信息ng 等人[17]提出了一種增量聚類框架,該框架可以基于時間特征和一系列內容熱點話題。F. Jafariakinabad 等人[18]采用了一個名為核心項潛在狄利克雷分微博話題檢測模型。Pang Jianhui 等人[19]開發(fā)了一種新穎的主題模型,可以個語料庫中明確建模詞匯共現(xiàn)模式來捕捉短文內的主題。Zhang Chunmei 等了一種高效的熱點話題檢測算法,可以在線處理大量推文。.2 網(wǎng)絡輿情熱點預測1. 網(wǎng)絡輿情預測路線現(xiàn)有的網(wǎng)絡輿情預測分析主要采用數(shù)學方法建立基于時間序列模型分析的,這是一種定量分析方法。網(wǎng)絡輿情預測遵循的主要路線見圖 1.1。
圖 1.2 預測模型分類圖傳統(tǒng)統(tǒng)計學預測模型比較常見的有基于自回歸模型、指數(shù)平滑模型、ARIM型以及移動平均模型等。Yuan Chaoqing 等人[21]利用 ARIMA 模型建立網(wǎng)絡輿情模型,從時間的角度來看,預測結果與整體趨勢吻合良好。然而由于輿情的突發(fā)性,主題的數(shù)量呈現(xiàn)爆發(fā)式增長,基于該模型進行預測,無法準確地預測其趨勢;K. Barrow 等人[22]基于移動平均法理論,根據(jù)微博輿情內部發(fā)展規(guī)律,在礎之上得到了線性修正的微博輿情預測模型;M. Cruz 等人[23]將邏輯曲線模型于網(wǎng)絡輿情預測,獲得了較好的預測結果。但是,網(wǎng)絡輿情的發(fā)展趨勢受到諸素的影響,在復雜和可變的客觀環(huán)境中,不能機械地運用該方法。智能機器算法預測模型是在人工智能技術和時間序列預測兩大技術基礎之上的[24]。相關理論基礎主要包括灰色理論、混沌理論、神經(jīng)網(wǎng)絡、貝葉斯網(wǎng)絡、可夫鏈理論、支持向量機、EM 聚類和群體智能計算等[25]。Liu Yang 等人[26]使
圖 2.1 通用搜索引擎系統(tǒng)結構圖網(wǎng)絡蜘蛛:網(wǎng)絡蜘蛛(亦稱網(wǎng)絡爬蟲)在互聯(lián)網(wǎng)中不斷地搜索(也稱爬行),發(fā)現(xiàn)和采集新的網(wǎng)頁信息,然后將網(wǎng)頁信息存入頁面庫,由索引器建立索引。索引器:索引器將分析網(wǎng)絡蜘蛛所采集的信息,從中抽取出索引項,建立用于檢索頁面的索引表,存入索引庫中。檢索器:檢索器將根據(jù)用戶的查詢請求和條件,從索引庫中快速檢索出網(wǎng)頁信息,并通過網(wǎng)頁相似度評價,對輸出的結果進行排序。用戶接口:用戶接口為用戶提供了一個輸入查詢請求和顯示查詢結果的用戶界面。(3) 通用搜索引擎不足盡管通用搜索引擎已經(jīng)成為搜索互聯(lián)網(wǎng)信息的常用網(wǎng)絡工具,但是它也存在一定的局限性:
【相似文獻】
相關期刊論文 前10條
1 李連鐵;鄭雪芳;周姣;;秦皇島網(wǎng)絡輿情監(jiān)測研究[J];環(huán)渤海經(jīng)濟w
本文編號:2802310
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2802310.html
最近更新
教材專著