基于熱量模型的微博輿情實時監(jiān)控系統(tǒng)研究
發(fā)布時間:2021-01-17 23:10
互聯(lián)網(wǎng)技術(shù)的不斷進步,導致人們的交流方式隨之發(fā)生改變,大量的網(wǎng)絡(luò)社交平臺應運而生,其中,微博毫無疑問占據(jù)重要地位。微博,以它的及時、自主和極強的互動性等特點,區(qū)別于傳統(tǒng)媒體,在新時代的互聯(lián)網(wǎng)大潮中得到了迅速的發(fā)展。目前,微博已經(jīng)成為大眾化的互聯(lián)網(wǎng)輿論平臺,是互聯(lián)網(wǎng)用戶發(fā)布分享信息的重要途經(jīng)。而正是因為微博極強的互動性、自主性和快速性,導致其輿情事件的爆發(fā)往往類似于傳染病毒的擴散爆發(fā),這給輿情的監(jiān)控帶來了巨大的挑戰(zhàn)。本文面向微博輿情的實時監(jiān)控問題,主要針對情感分析和用戶影響力分析兩大問題開展研究。首先針對情感分類問題,本文提出了基于集成學習的情感分類算法。該算法首先利用微博爬蟲爬取目標相關(guān)微博信息,獲得原始數(shù)據(jù)。然后對原始數(shù)據(jù)進行分詞,去除停用詞等預處理,再利用TF-IDF方法提取特征向量,并使用SVD方法對特征向量進行降維,最后使用Stacking集成策略集合五個基礎(chǔ)分類器構(gòu)成情感分類模型對數(shù)據(jù)進行情感分類判別。之后針對用戶影響力分析問題,提出了基于Page Rank和HITS的影響力分析算法,在該算法中,首先利用微博爬蟲爬取目標微博用戶關(guān)系網(wǎng)絡(luò),分別用Page Rank算法和HITS...
【文章來源】:濟南大學山東省
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
情感分析整體模型結(jié)構(gòu)圖
濟南大學碩士學位論文203.4集成學習本文利用Stacking的交叉機制,在兼顧計算時間少和準確率高的前提下,將訓練集分為5等分進行5折交叉驗證。這樣做的好處是每次迭代過程中每個樣本點只有一次被劃入訓練集或測試集的機會,易于找到模型泛化能力性能最優(yōu)的超參值,結(jié)合我們數(shù)據(jù)集的大小,我們最終選擇5折交叉驗證法進行實驗。通過多次測試,最終我們在第一層的基分類器中,從諸多分類算法模型中,選取了五個結(jié)果最好的分類模型當作Stacking集成學習的第一層分類模型。在第一層我們將GDBT,RandomForest,Adaboost,KNN,NB等模型進行交叉驗證,利用第一層的訓練模型來訓練四折的訓練集,來預測一折的小數(shù)據(jù)集,步驟重復五次,預測值剛好和訓練數(shù)據(jù)的長度吻合,得到的結(jié)果輸入第二層,作為第二層模型的訓練來源,由邏輯回歸進行融合得到最終的結(jié)果。整體模型融合如圖3.2所示。圖3.2集成模型數(shù)據(jù)訓練模型圖
濟南大學碩士學位論文23場景下可以提取到有效的特征值,并且將融合單模型的Stacking融合方法作為強分類器的方法是可行的。3.6不平衡數(shù)據(jù)在實際生活中,輿情往往具有極端性,網(wǎng)民的情緒的激烈對抗很難能夠出現(xiàn)理智的平衡。從而導致獲取的文本數(shù)據(jù)正負不平衡。考慮這種情況,又對本文提出的方法在不平衡數(shù)據(jù)集上做了相關(guān)實驗。本文在之前的數(shù)據(jù)集中,隨機抽取了1000條正面數(shù)據(jù)和1000條負面數(shù)據(jù)。又將1000條負面數(shù)據(jù)分別隨機抽取200,400,600,800,1000條,混入1000條正面數(shù)據(jù)中,構(gòu)成不平衡數(shù)據(jù)集,用來模擬現(xiàn)實生活中的數(shù)據(jù)不平衡情況。以下分別展示不同情感分類模型5種數(shù)據(jù)不平衡狀況下的分類結(jié)果,可以看出本文提出的基于集成學習的情感分類模型在數(shù)據(jù)不平衡狀況下,表現(xiàn)依然優(yōu)秀。圖3.3正負向數(shù)據(jù)比例為5:1時分類模型結(jié)果圖
【參考文獻】:
期刊論文
[1]基于深度學習和知乎的情感分析系統(tǒng)[J]. 賈宏志,徐亞峰. 軟件. 2019(10)
[2]基于多部情感詞典和規(guī)則集的中文微博情感分析研究[J]. 吳杰勝,陸奎. 計算機應用與軟件. 2019(09)
[3]多維特征融合的網(wǎng)絡(luò)輿情突發(fā)事件演化話題圖譜研究[J]. 劉雅姝,張海濤,徐海玲,魏萍. 情報學報. 2019(08)
[4]大數(shù)據(jù)時代輿情的內(nèi)涵與分析方法[J]. 李彪. 青年記者. 2019(19)
[5]結(jié)合實體詞與句子語義的地理實體關(guān)系抽取[J]. 王海波,王姬卜,黃宗財,牛永勇,吳升. 測繪科學技術(shù)學報. 2018(06)
[6]基于LDA和AdaBoost多特征組合的微博情感分析[J]. 曾子明,楊倩雯. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(08)
[7]MPOPTM:一種基于熱量模型的微博輿情預測模型[J]. 謝凱,梁剛,楊文太,楊進,許春. 現(xiàn)代計算機(專業(yè)版). 2018(09)
[8]Microblog Topic Mining Based on FR-DATM[J]. LIU Bingyu,WANG Cuirong,WANG Yiran,ZHANG Kun,WANG Cong. Chinese Journal of Electronics. 2018(02)
[9]基于XGBoost算法的電商評論文本情感識別模型[J]. 蘇兵杰,周亦鵬,梁勛鴿. 物聯(lián)網(wǎng)技術(shù). 2018(01)
[10]基于SVM的酒店客戶評論情感分析[J]. 石強強,趙應丁,楊紅云. 計算機與現(xiàn)代化. 2017(03)
博士論文
[1]面向文本情感分析的主題建模及應用研究[D]. 張鵬.山西大學 2018
[2]面向微博突發(fā)話題的輿情分析若干關(guān)鍵技術(shù)研究[D]. 董國忠.哈爾濱工程大學 2017
[3]社交網(wǎng)絡(luò)輿情傳播與控制研究[D]. 于淼.哈爾濱工程大學 2016
碩士論文
[1]面向微博電影評論的情感分類研究[D]. 李明.云南財經(jīng)大學 2014
[2]網(wǎng)絡(luò)電影評論的情感挖掘分析[D]. 郭偉.吉林大學 2010
本文編號:2983771
【文章來源】:濟南大學山東省
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【部分圖文】:
情感分析整體模型結(jié)構(gòu)圖
濟南大學碩士學位論文203.4集成學習本文利用Stacking的交叉機制,在兼顧計算時間少和準確率高的前提下,將訓練集分為5等分進行5折交叉驗證。這樣做的好處是每次迭代過程中每個樣本點只有一次被劃入訓練集或測試集的機會,易于找到模型泛化能力性能最優(yōu)的超參值,結(jié)合我們數(shù)據(jù)集的大小,我們最終選擇5折交叉驗證法進行實驗。通過多次測試,最終我們在第一層的基分類器中,從諸多分類算法模型中,選取了五個結(jié)果最好的分類模型當作Stacking集成學習的第一層分類模型。在第一層我們將GDBT,RandomForest,Adaboost,KNN,NB等模型進行交叉驗證,利用第一層的訓練模型來訓練四折的訓練集,來預測一折的小數(shù)據(jù)集,步驟重復五次,預測值剛好和訓練數(shù)據(jù)的長度吻合,得到的結(jié)果輸入第二層,作為第二層模型的訓練來源,由邏輯回歸進行融合得到最終的結(jié)果。整體模型融合如圖3.2所示。圖3.2集成模型數(shù)據(jù)訓練模型圖
濟南大學碩士學位論文23場景下可以提取到有效的特征值,并且將融合單模型的Stacking融合方法作為強分類器的方法是可行的。3.6不平衡數(shù)據(jù)在實際生活中,輿情往往具有極端性,網(wǎng)民的情緒的激烈對抗很難能夠出現(xiàn)理智的平衡。從而導致獲取的文本數(shù)據(jù)正負不平衡。考慮這種情況,又對本文提出的方法在不平衡數(shù)據(jù)集上做了相關(guān)實驗。本文在之前的數(shù)據(jù)集中,隨機抽取了1000條正面數(shù)據(jù)和1000條負面數(shù)據(jù)。又將1000條負面數(shù)據(jù)分別隨機抽取200,400,600,800,1000條,混入1000條正面數(shù)據(jù)中,構(gòu)成不平衡數(shù)據(jù)集,用來模擬現(xiàn)實生活中的數(shù)據(jù)不平衡情況。以下分別展示不同情感分類模型5種數(shù)據(jù)不平衡狀況下的分類結(jié)果,可以看出本文提出的基于集成學習的情感分類模型在數(shù)據(jù)不平衡狀況下,表現(xiàn)依然優(yōu)秀。圖3.3正負向數(shù)據(jù)比例為5:1時分類模型結(jié)果圖
【參考文獻】:
期刊論文
[1]基于深度學習和知乎的情感分析系統(tǒng)[J]. 賈宏志,徐亞峰. 軟件. 2019(10)
[2]基于多部情感詞典和規(guī)則集的中文微博情感分析研究[J]. 吳杰勝,陸奎. 計算機應用與軟件. 2019(09)
[3]多維特征融合的網(wǎng)絡(luò)輿情突發(fā)事件演化話題圖譜研究[J]. 劉雅姝,張海濤,徐海玲,魏萍. 情報學報. 2019(08)
[4]大數(shù)據(jù)時代輿情的內(nèi)涵與分析方法[J]. 李彪. 青年記者. 2019(19)
[5]結(jié)合實體詞與句子語義的地理實體關(guān)系抽取[J]. 王海波,王姬卜,黃宗財,牛永勇,吳升. 測繪科學技術(shù)學報. 2018(06)
[6]基于LDA和AdaBoost多特征組合的微博情感分析[J]. 曾子明,楊倩雯. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(08)
[7]MPOPTM:一種基于熱量模型的微博輿情預測模型[J]. 謝凱,梁剛,楊文太,楊進,許春. 現(xiàn)代計算機(專業(yè)版). 2018(09)
[8]Microblog Topic Mining Based on FR-DATM[J]. LIU Bingyu,WANG Cuirong,WANG Yiran,ZHANG Kun,WANG Cong. Chinese Journal of Electronics. 2018(02)
[9]基于XGBoost算法的電商評論文本情感識別模型[J]. 蘇兵杰,周亦鵬,梁勛鴿. 物聯(lián)網(wǎng)技術(shù). 2018(01)
[10]基于SVM的酒店客戶評論情感分析[J]. 石強強,趙應丁,楊紅云. 計算機與現(xiàn)代化. 2017(03)
博士論文
[1]面向文本情感分析的主題建模及應用研究[D]. 張鵬.山西大學 2018
[2]面向微博突發(fā)話題的輿情分析若干關(guān)鍵技術(shù)研究[D]. 董國忠.哈爾濱工程大學 2017
[3]社交網(wǎng)絡(luò)輿情傳播與控制研究[D]. 于淼.哈爾濱工程大學 2016
碩士論文
[1]面向微博電影評論的情感分類研究[D]. 李明.云南財經(jīng)大學 2014
[2]網(wǎng)絡(luò)電影評論的情感挖掘分析[D]. 郭偉.吉林大學 2010
本文編號:2983771
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2983771.html
最近更新
教材專著