天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

針對微博輿情的采集與分析系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2020-02-04 00:57
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展,微博成為了國內(nèi)分享網(wǎng)絡(luò)信息的主要途徑,微博給人們的生活帶來了方便。但由于缺乏對信息的有效監(jiān)控和管理,為社會帶來了虛假信息和造謠信息,破壞了良好的網(wǎng)絡(luò)輿論,可能危害公眾的生活。因此,我們需要一個針對微博輿情的采集與分析系統(tǒng),來對微博的輿論進行實時有效的監(jiān)控,能夠及時發(fā)現(xiàn)熱點輿情和計算該主題的情感強度,并可對負面消息進行適當(dāng)?shù)囊龑?dǎo)輿論。本文對微博輿情系統(tǒng)的采集技術(shù)和輿情分析技術(shù)進行研究和分析,并對該系統(tǒng)進行了設(shè)計與實現(xiàn),主要工作有:(1)在Scrapy爬蟲的基礎(chǔ)上,本文基于ZeroMq設(shè)計了一個高效的分布式爬蟲系統(tǒng)。該系統(tǒng)結(jié)合了微博的特點,提出了使用位圖法和Hash索引相結(jié)合的方法解決海量的URL沖突問題;同時針對微博對網(wǎng)絡(luò)爬蟲的反爬蟲限制,利用了代理節(jié)點采集和定時采集相結(jié)合的策略來提高爬取數(shù)據(jù)的效率;為提高數(shù)據(jù)量,還結(jié)合了微博提供的開放平臺服務(wù)接口來爬取微博數(shù)據(jù),擴大數(shù)據(jù)量。(2)本文提出了優(yōu)化主題微博情感強度計算的方法。該方法構(gòu)建了情感詞典,然后對主題的評論進行預(yù)處理;同時基于主題微博的評論的情感來計算其情感強度;最后提出了使用微博的認證類型來優(yōu)化情感強度的方法。實驗結(jié)果表明該方法能使主題微博情感強度的準確度提高0.05~0.1。(3)本文實現(xiàn)了微博輿情分析系統(tǒng)并進行了界面展示,通過對微博數(shù)據(jù)進行了微博發(fā)布行為的時間分布、微博轉(zhuǎn)發(fā)延遲的時間分布以及微博輿情熱點等實驗分析。實驗結(jié)果表明該系統(tǒng)結(jié)合代理采集系統(tǒng)可以實時的監(jiān)控微博輿情并使用優(yōu)化主題微博情感強度計算的方法能有效的分析出熱點輿情的情感傾向。
【圖文】:

過程圖,用戶登錄,過程圖,交互過程


才可以下載到網(wǎng)頁的內(nèi)容,因此本文在爬蟲框架中采用了模擬登錄微博帳逡逑號來抓取微博數(shù)據(jù)。本文使用了邋commview這個工具抓包來分析微博登錄的整個逡逑交互過程。如圖2-2所示,新浪微博通過對用戶的帳號和密碼兩者進行驗證來保逡逑證用戶登錄信息的安全性。逡逑其完整的HTTP包交互過程如下:逡逑(1)

過程圖,網(wǎng)頁結(jié)構(gòu),化分,標簽


邐第二章微博輿情系統(tǒng)的相關(guān)技術(shù)逡逑文檔讀入到程序中,依次把標簽都壓入到棧中,然后再依次建立相應(yīng)的標簽樹,逡逑如圖2-3所示。當(dāng)讀到正文“微博輿情監(jiān)控系統(tǒng)”的時候,就把該正文保留到樹逡逑的葉子節(jié)點中。然后繼續(xù)掃描源文檔,,當(dāng)發(fā)現(xiàn)反向標簽時,例如</title>,在與前逡逑面壓棧的內(nèi)容對比,找到與之對應(yīng)的標簽,并把它pop出來,直到掃描到文檔結(jié)逡逑尾為止。逡逑
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.1

【參考文獻】

相關(guān)期刊論文 前9條

1 鐘明翔;唐晉韜;謝松縣;王挺;;一種基于動態(tài)網(wǎng)頁解析的微博數(shù)據(jù)抓取方法[J];艦船電子工程;2015年10期

2 李志明;;知網(wǎng)、萬方、維普論文相似性檢測系統(tǒng)比較研究[J];大學(xué)圖書情報學(xué)刊;2015年01期

3 張宇;呂龍;趙萍;;四川省高校圖書館微博使用現(xiàn)狀的調(diào)查和分析——基于新浪微博認證用戶調(diào)查[J];四川圖書館學(xué)報;2014年03期

4 侯敏;滕永林;李雪燕;陳毓麒;鄭雙美;侯明午;周紅照;;話題型微博語言特點及其情感分析策略研究[J];語言文字應(yīng)用;2013年02期

5 李躍健;朱程榮;;基于Larbin的網(wǎng)絡(luò)爬蟲體系結(jié)構(gòu)的研究與改進[J];計算機技術(shù)與發(fā)展;2012年07期

6 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(自然科學(xué)版);2011年10期

7 姚昱;朱山風(fēng);陳莘萌;;基于投票模型的元搜索排序合成算法[J];計算機工程;2007年22期

8 孫晉眾;陳世權(quán);;網(wǎng)絡(luò)組織拓撲聚類分析[J];太原理工大學(xué)學(xué)報;2007年01期

9 張樹瑜,杜國寧,朱仲英;基于Web的半結(jié)構(gòu)化信息抽取技術(shù)研究[J];系統(tǒng)工程與電子技術(shù);2004年05期

相關(guān)碩士學(xué)位論文 前5條

1 耿大偉;基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計與實現(xiàn)[D];燕山大學(xué);2015年

2 胡偉;基于Nutch的分布式爬蟲研究與優(yōu)化[D];上海師范大學(xué);2015年

3 藍天廣;電子商務(wù)產(chǎn)品在線評論的細粒度情感強度分析[D];北京郵電大學(xué);2015年

4 單月光;基于微博的網(wǎng)絡(luò)輿情關(guān)鍵技術(shù)的研究與實現(xiàn)[D];電子科技大學(xué);2013年

5 周麗;我國政務(wù)微博的現(xiàn)狀、問題與對策研究[D];江西財經(jīng)大學(xué);2012年



本文編號:2576175

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2576175.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶38161***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com