天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博輿情信息傳播分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-01-10 00:31
  隨著技術(shù)的進(jìn)步,互聯(lián)網(wǎng)對(duì)人類生活的影響不斷的加強(qiáng)。微博、論壇、博客這類社交媒體的普及也使得越來越多的人可以通過互聯(lián)網(wǎng)表達(dá)自己在政治、經(jīng)濟(jì)、商業(yè)等各個(gè)領(lǐng)域的想法。從《2017中國網(wǎng)絡(luò)輿情指數(shù)年度報(bào)告》可以發(fā)現(xiàn),微博已經(jīng)成為了僅次于傳統(tǒng)媒體的的第二大輿情源。微博用戶主要通過評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā)等行為參與互動(dòng)。民意負(fù)面情緒激化、意見領(lǐng)袖過度扭曲、主流媒體引導(dǎo)后勁不足等行為都會(huì)對(duì)維穩(wěn)工作造成影響。因?yàn)榫W(wǎng)絡(luò)輿情和大數(shù)據(jù)高度契合,傳統(tǒng)的信息處理技術(shù)并不能有效的分析大規(guī)模的輿情網(wǎng)絡(luò)數(shù)據(jù),如何快速準(zhǔn)確地分析輿情網(wǎng)絡(luò)中的價(jià)值信息顯得至關(guān)重要。本論文主要設(shè)計(jì)并實(shí)現(xiàn)了微博輿情信息傳播分析系統(tǒng),目的在于清晰直觀地解析和把握輿情的演化規(guī)律。該系統(tǒng)通過模擬登錄新浪微博對(duì)微博事件的轉(zhuǎn)發(fā)信息進(jìn)行采集,利用可視化技術(shù)構(gòu)建輿情傳播網(wǎng)絡(luò)、識(shí)別輿情擴(kuò)散的關(guān)鍵節(jié)點(diǎn)和傳播路徑,以網(wǎng)絡(luò)圖的形式還原了微博事件擴(kuò)散的過程,為相關(guān)人員提供了一個(gè)交互性良好的輿情分析工具。本論文取得的研究成果主要如下:(1)使用node.js模擬登錄新浪微博,通過網(wǎng)絡(luò)爬蟲自動(dòng)抓取到微博轉(zhuǎn)發(fā)信息并寫入數(shù)據(jù)庫中,然后根據(jù)數(shù)據(jù)庫中用戶之間的關(guān)系構(gòu)建微博輿情轉(zhuǎn)發(fā)網(wǎng)絡(luò)圖... 

【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:67 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

微博輿情信息傳播分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)


Node.js的異步非阻塞模型

過程圖,過程圖,隊(duì)列,頁面


第二章相關(guān)技術(shù)介紹9圖2-2微博登錄過程圖2.2.2網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲(WebCrawler)是遵循HTTP協(xié)議通過網(wǎng)頁上的超鏈接自動(dòng)下載HTML、XML、FTP等各種類型文件的自動(dòng)化腳本。Web爬蟲主要先從原始頁面提取相關(guān)的鏈接放入待爬url隊(duì)列中,再按照順序?qū)Υ狸?duì)列中的url進(jìn)行解析,自動(dòng)訪問解析出來的web服務(wù)器地址并下載訪問頁面,然后再從新頁面中提取鏈接信息放入到待爬隊(duì)列中,最后重復(fù)上面的步驟,直到待爬url隊(duì)列為空或者滿足其他爬行結(jié)束的條件[14]。爬蟲的基本流程如圖2-3所示:

基本流,頁面,鏈接,策略


東南大學(xué)碩士學(xué)位論文10圖2-3爬蟲基本流程圖網(wǎng)絡(luò)爬蟲會(huì)按照一定的爬行策略來提高抓取頁面效率,常見的搜索策略有深度優(yōu)先策略和廣度優(yōu)先策略。在深度優(yōu)先搜索策略中,網(wǎng)絡(luò)爬蟲會(huì)從起始頁面開始按照由低到高的順序,從起始頁面下的一個(gè)url開始一個(gè)鏈接一個(gè)鏈接地依次訪問,直到這條鏈路的所有鏈接都處理完,再回到起始頁面的其他的子頁面,繼續(xù)跟蹤搜索,直到起始頁面的所有子頁面都被搜索完。當(dāng)目標(biāo)網(wǎng)站的層級(jí)比較深時(shí),這個(gè)方法的效率會(huì)比較低。在廣度優(yōu)先搜索策略中,網(wǎng)絡(luò)爬蟲會(huì)按照頁面層次來搜索,先抓取起始頁面中的同一層次的網(wǎng)頁,當(dāng)所有頁面爬行結(jié)束后,再選取其中的一個(gè)url,抓取此頁面中的所有鏈接。這個(gè)方法可以并行處理同一層級(jí)的頁面來提高網(wǎng)絡(luò)爬蟲的效率[15]。微博轉(zhuǎn)發(fā)過程中可能存在某個(gè)微博用戶的轉(zhuǎn)發(fā)層級(jí)過高,為了提高爬蟲的效率,本文采用廣度優(yōu)先搜索的策略來爬取微博事件的轉(zhuǎn)發(fā)數(shù)據(jù),采用主從分布式爬蟲先抓取微博事件下的所有轉(zhuǎn)發(fā)鏈接,再并行處理每一個(gè)鏈接下面的轉(zhuǎn)發(fā)鏈接。此外,為了防止因?yàn)榕老x速度過快被封鎖ip,本文在多次訪問同一站點(diǎn)時(shí)使用了定時(shí)器來定時(shí)執(zhí)行。


本文編號(hào):2967704

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2967704.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ad517***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com