社交網(wǎng)絡(luò)國民安全威脅來源搜索與追蹤研究
【學(xué)位單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.3
【部分圖文】:
本章主要利用三種方法進行數(shù)據(jù)采集,分別為微博API數(shù)據(jù)接口、網(wǎng)絡(luò)爬蟲逡逑和開放數(shù)據(jù)集,完成社交網(wǎng)絡(luò)時空數(shù)據(jù)的爬取任務(wù),獲取新浪微博為主的相關(guān)數(shù)逡逑據(jù)。數(shù)據(jù)采集的過程如圖3-1所示。逡逑+申請通行證及秘鑰一?微博API采集數(shù)據(jù)一逡逑國民安邐微博邐微博逡逑全相關(guān)邋,1邐,|使用Scray模型采集|邐數(shù)據(jù)邐數(shù)據(jù)逡逑事件關(guān)—^N。挥脩粜畔⒁惶卣鳎蕹醪藉义湘I字邐提取邐過濾逡逑網(wǎng)絡(luò)下載邐,邐逡逑1邐微博數(shù)據(jù)邐 ̄ ̄邐邐逡逑微博逡逑數(shù)據(jù)邐數(shù)據(jù)庫逡逑分類 ̄",存儲逡逑過濾逡逑圖3-1社交網(wǎng)絡(luò)數(shù)據(jù)的采集過程逡逑收集的微博數(shù)據(jù)內(nèi)容為微博文本、微博發(fā)布時間、微博發(fā)布地點、微博轉(zhuǎn)發(fā)逡逑文本、微博轉(zhuǎn)發(fā)數(shù)量、微博評論數(shù)量、微博點贊數(shù)量和對應(yīng)的微博用戶id,微博逡逑用戶內(nèi)容為用戶id、用戶昵稱、用戶所在地點、用戶所發(fā)微博數(shù)量、用戶關(guān)注數(shù)逡逑量和用戶粉絲數(shù)量。逡逑在微博數(shù)據(jù)的特征提取中,主要是指社交特征和用戶特征兩方面。社交特征逡逑是指微博傳播網(wǎng)絡(luò)相關(guān)的屬性,例如轉(zhuǎn)發(fā)量、評論量、點贊量等涉及到用戶之間逡逑交互動作的數(shù)據(jù)。用戶特征則是指與當前用戶相關(guān)的特征
(Scheduler)、用于下載網(wǎng)頁內(nèi)容的下載器(Downloader)和用于提取網(wǎng)頁內(nèi)容的逡逑爬蟲(Spiders)等基本組件,除此之外還有持久化處理數(shù)據(jù)的運輸管道和位于不同逡逑組件之間處理請求及響應(yīng)的中間件。本章具體的爬蟲框架如圖3-3所示。逡逑本章使用的Scrapy運行流程如下:逡逑(1)
fi是.逡逑(JSON格式(逡逑iiimssi逡逑圖3-2使用微博API獲取數(shù)據(jù)的流程圖逡逑3.1.2使用網(wǎng)絡(luò)爬蟲獲取微博用戶數(shù)據(jù)逡逑在下載公開的微博數(shù)據(jù)集后,微博的主要信息以json數(shù)組的形式存儲在txt逡逑文件中,包括發(fā)布時間、文本內(nèi)容、圖像鏈接等。通過提取數(shù)據(jù)中的用戶id構(gòu)逡逑成用戶列表,構(gòu)造URL,采用爬蟲工具從網(wǎng)頁中獲取相關(guān)的用戶信息。逡逑網(wǎng)絡(luò)爬蟲是指在互聯(lián)網(wǎng)絡(luò)上抓取所需信息的數(shù)據(jù)獲取的工具。本節(jié)使用的爬逡逑蟲軟件主要為以python開發(fā)的一個快速的屏幕和網(wǎng)頁抓取框架scrapy,用于從逡逑界面源代碼中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy主要使用了異步Twisted網(wǎng)絡(luò)庫來處理逡逑網(wǎng)絡(luò)通訊,包括了用來處理整個系統(tǒng)的數(shù)據(jù)流的引擎、用于決定URL的調(diào)度器逡逑(Scheduler)、用于下載網(wǎng)頁內(nèi)容的下載器(Downloader)和用于提取網(wǎng)頁內(nèi)容的逡逑爬蟲(Spiders)等基本組件,除此之外還有持久化處理數(shù)據(jù)的運輸管道和位于不同逡逑組件之間處理請求及響應(yīng)的中間件。本章具體的爬蟲框架如圖3-3所示。逡逑本章使用的Scrapy運行流程如下:逡逑(1)
【參考文獻】
相關(guān)期刊論文 前10條
1 徐杰;王菊韻;張海云;;基于復(fù)雜網(wǎng)絡(luò)的社交網(wǎng)絡(luò)用戶影響力研究[J];中國傳媒大學(xué)學(xué)報(自然科學(xué)版);2017年02期
2 游新年;劉群;;基于傳染病模型的微博信息傳播預(yù)測研究[J];計算機應(yīng)用與軟件;2016年05期
3 韓忠明;張夢;譚旭升;段大高;司慧琳;;基于自激點過程的網(wǎng)絡(luò)熱點話題傳播模型[J];計算機學(xué)報;2016年04期
4 方星;黃培清;黃新華;;突發(fā)事件中不實信息傳播的傳染病模型研究[J];中國安全科學(xué)學(xué)報;2015年11期
5 吳峴輝;張暉;趙旭劍;李波;楊春明;;基于用戶行為網(wǎng)絡(luò)的微博意見領(lǐng)袖挖掘算法[J];計算機應(yīng)用研究;2015年09期
6 楊善林;王佳佳;代寶;李旭軍;姜元春;劉業(yè)政;;在線社交網(wǎng)絡(luò)用戶行為研究現(xiàn)狀與展望[J];中國科學(xué)院院刊;2015年02期
7 樊興華;趙靜;方濱興;李欲曉;;影響力擴散概率模型及其用于意見領(lǐng)袖發(fā)現(xiàn)研究[J];計算機學(xué)報;2013年02期
8 李玉貞;胡勇;熊熙;馬曉娟;張敏;;微博意見領(lǐng)袖的評估模型[J];信息安全與通信保密;2013年02期
9 祝帥;鄭小林;陳德人;;論壇中的意見領(lǐng)袖自動發(fā)現(xiàn)算法研究[J];系統(tǒng)工程理論與實踐;2011年S2期
10 肖宇;許煒;夏霖;;網(wǎng)絡(luò)社區(qū)中的意見領(lǐng)袖特征分析[J];計算機工程與科學(xué);2011年01期
相關(guān)碩士學(xué)位論文 前6條
1 吳靚嬋媛;基于社區(qū)發(fā)現(xiàn)的網(wǎng)絡(luò)輿情熱點主題識別研究[D];南京理工大學(xué);2017年
2 周國兵;最少門結(jié)構(gòu)的循環(huán)神經(jīng)網(wǎng)絡(luò)及其應(yīng)用[D];南京大學(xué);2016年
3 王歡歡;社交網(wǎng)絡(luò)影響力最大化的研究[D];南京航空航天大學(xué);2016年
4 耿大偉;基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計與實現(xiàn)[D];燕山大學(xué);2015年
5 楊旭穎;基于SEIR的社交網(wǎng)絡(luò)信息傳播模型的研究[D];西安電子科技大學(xué);2014年
6 李合莉;多層在線社交網(wǎng)絡(luò)信息傳播模型研究[D];山東財經(jīng)大學(xué);2013年
本文編號:2828852
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2828852.html