社交網(wǎng)絡的數(shù)據(jù)采集策略研究與應用

發(fā)布時間：2021-06-26 14:12

　　由于互聯(lián)網(wǎng)的興起和通信技術的發(fā)展,人們使用在線社交網(wǎng)絡進行社會活動已成為日常生活的一部分。在線社交網(wǎng)絡已經(jīng)滲透到人們生活的方方面面,是時下最重要的移動互聯(lián)網(wǎng)應用。許多組織對在線社交網(wǎng)絡感興趣,社會學家會收集相關數(shù)據(jù)用以研究在線用戶行為。市場調(diào)查員根據(jù)在線社交網(wǎng)絡挖掘信息,用以指定市場推薦。社交網(wǎng)絡的提供商通過了解社交圖和用戶行為,優(yōu)化數(shù)據(jù)存儲設計和云服務或提供個性化服務的方式來改善用戶體驗。社交網(wǎng)絡如此龐大的數(shù)據(jù)量給研究帶來了許多困難。首先,企業(yè)基于商業(yè)機密以及用戶隱私的考慮,并不愿意分享他們的商業(yè)數(shù)據(jù),即使數(shù)據(jù)是以匿名的形式。其次,從大規(guī)模在線社交網(wǎng)絡中獲取所有數(shù)據(jù)也不現(xiàn)實,因為要獲取數(shù)以億計的用戶是極其耗時的。于此同時,即使利用高性能計算機集群處理如此龐大的數(shù)據(jù)也非常困難。最后,在線社交網(wǎng)絡上用戶數(shù)量增加迅速,用戶間的關系也會頻繁的發(fā)生改變。因此對社交網(wǎng)絡設計有效的采樣算法非常重要。廣度優(yōu)先搜索算法（BFS）是常用的圖遍歷方法,但是BFS會過度的采集高度節(jié)點同時這種偏移很難被糾正。隨機游走（RW）是一種經(jīng)典的網(wǎng)絡節(jié)點游走方法,但同樣偏向于采集高度的節(jié)點且采樣效率低。Metropol...

【文章來源】：浙江理工大學浙江省

【文章頁數(shù)】：51 頁

【學位級別】：碩士

【部分圖文】：

緩存區(qū)中的存儲結(jié)構(gòu)

信息片段,主頁,粉絲

獲取當前節(jié)點的父節(jié)點獲取當前節(jié)點的所有子節(jié)點獲取當前節(jié)點的所有后代節(jié)點ing 獲取當前節(jié)點的所有同輩節(jié)點ath抽取網(wǎng)頁信息時，首先在網(wǎng)頁相關 HTML 文件中找到相應的信息戶主頁中關注數(shù)，粉絲數(shù)，微博數(shù)的代碼片段。然后針對某個具體的Xpath路徑，如圖4.2中的關注數(shù)，其 XML路徑為”/html/body/div[4字路徑后利用正則表達式提取要點信息，相應的 Xpath代碼如下：ector(response)r.xpath('body/div[@class="u"]/div[@class="tip2"]').extract_first() re.findall(u'\u5fae\u535a\[(\d+)\]', text0) # 微博數(shù)= re.findall(u'\u5173\u6ce8\[(\d+)\]', text0) # 關注數(shù)e.findall(u'\u7c89\u4e1d\[(\d+)\]', text0) # 粉絲數(shù)

頁面,網(wǎng)絡服務器,社交,用戶認證

圖 4.3 在用戶頁面中抓取有用信息4.2.2 用戶認證與反爬由于爬蟲系統(tǒng)會在社交網(wǎng)絡服務器中增加大量的無效訪問量，進而增加了網(wǎng)絡服務器的運行負荷，目前大部分的社交網(wǎng)絡提供商會對用戶登錄進行驗證，如驗證碼輸入，圖片校對等，或限制 IP 地址的最大訪問次數(shù)等措施，提高進入網(wǎng)絡服務器的門檻來限制爬蟲系統(tǒng)的訪問。對于小型的網(wǎng)絡爬蟲機而言可以使用偽裝 cookies 登錄的方法[56]，繞開繁瑣的登錄驗證過程，但這種方式不能進行大規(guī)模數(shù)據(jù)收集，因為，cookies 的有效時間一般在一個星期左右，屆時還需要手動添加新的 cookies 文件以確保爬蟲系統(tǒng)的持續(xù)運行。我們所設計的爬蟲機采樣用戶名密碼與手動解鎖的方式自動使爬蟲機獲取實時的 cookies。獲取用戶認證的步驟如下：第一步：獲取登錄頁面，在登錄頁面的 HTML 的插入用戶名與密碼；

本文編號：3251494

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/3251494.html

上一篇：微博網(wǎng)絡中可重疊用戶社區(qū)發(fā)現(xiàn)方法研究
下一篇：基于著色Petri網(wǎng)的安全協(xié)議形式化分析理論與技術研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

社交網(wǎng)絡的數(shù)據(jù)采集策略研究與應用