社交網(wǎng)絡(luò)的數(shù)據(jù)采集策略研究與應(yīng)用
發(fā)布時間:2021-06-26 14:12
由于互聯(lián)網(wǎng)的興起和通信技術(shù)的發(fā)展,人們使用在線社交網(wǎng)絡(luò)進行社會活動已成為日常生活的一部分。在線社交網(wǎng)絡(luò)已經(jīng)滲透到人們生活的方方面面,是時下最重要的移動互聯(lián)網(wǎng)應(yīng)用。許多組織對在線社交網(wǎng)絡(luò)感興趣,社會學(xué)家會收集相關(guān)數(shù)據(jù)用以研究在線用戶行為。市場調(diào)查員根據(jù)在線社交網(wǎng)絡(luò)挖掘信息,用以指定市場推薦。社交網(wǎng)絡(luò)的提供商通過了解社交圖和用戶行為,優(yōu)化數(shù)據(jù)存儲設(shè)計和云服務(wù)或提供個性化服務(wù)的方式來改善用戶體驗。社交網(wǎng)絡(luò)如此龐大的數(shù)據(jù)量給研究帶來了許多困難。首先,企業(yè)基于商業(yè)機密以及用戶隱私的考慮,并不愿意分享他們的商業(yè)數(shù)據(jù),即使數(shù)據(jù)是以匿名的形式。其次,從大規(guī)模在線社交網(wǎng)絡(luò)中獲取所有數(shù)據(jù)也不現(xiàn)實,因為要獲取數(shù)以億計的用戶是極其耗時的。于此同時,即使利用高性能計算機集群處理如此龐大的數(shù)據(jù)也非常困難。最后,在線社交網(wǎng)絡(luò)上用戶數(shù)量增加迅速,用戶間的關(guān)系也會頻繁的發(fā)生改變。因此對社交網(wǎng)絡(luò)設(shè)計有效的采樣算法非常重要。廣度優(yōu)先搜索算法(BFS)是常用的圖遍歷方法,但是BFS會過度的采集高度節(jié)點同時這種偏移很難被糾正。隨機游走(RW)是一種經(jīng)典的網(wǎng)絡(luò)節(jié)點游走方法,但同樣偏向于采集高度的節(jié)點且采樣效率低。Metropol...
【文章來源】:浙江理工大學(xué)浙江省
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
緩存區(qū)中的存儲結(jié)構(gòu)
獲取當(dāng)前節(jié)點的父節(jié)點獲取當(dāng)前節(jié)點的所有子節(jié)點獲取當(dāng)前節(jié)點的所有后代節(jié)點ing 獲取當(dāng)前節(jié)點的所有同輩節(jié)點ath抽取網(wǎng)頁信息時,首先在網(wǎng)頁相關(guān) HTML 文件中找到相應(yīng)的信息戶主頁中關(guān)注數(shù),粉絲數(shù),微博數(shù)的代碼片段。然后針對某個具體的Xpath路徑,如圖4.2中的關(guān)注數(shù),其 XML路徑為”/html/body/div[4字路徑后利用正則表達(dá)式提取要點信息,相應(yīng)的 Xpath代碼如下:ector(response)r.xpath('body/div[@class="u"]/div[@class="tip2"]').extract_first() re.findall(u'\u5fae\u535a\[(\d+)\]', text0) # 微博數(shù)= re.findall(u'\u5173\u6ce8\[(\d+)\]', text0) # 關(guān)注數(shù)e.findall(u'\u7c89\u4e1d\[(\d+)\]', text0) # 粉絲數(shù)
圖 4.3 在用戶頁面中抓取有用信息4.2.2 用戶認(rèn)證與反爬由于爬蟲系統(tǒng)會在社交網(wǎng)絡(luò)服務(wù)器中增加大量的無效訪問量,進而增加了網(wǎng)絡(luò)服務(wù)器的運行負(fù)荷,目前大部分的社交網(wǎng)絡(luò)提供商會對用戶登錄進行驗證,如驗證碼輸入,圖片校對等,或限制 IP 地址的最大訪問次數(shù)等措施,提高進入網(wǎng)絡(luò)服務(wù)器的門檻來限制爬蟲系統(tǒng)的訪問。對于小型的網(wǎng)絡(luò)爬蟲機而言可以使用偽裝 cookies 登錄的方法[56],繞開繁瑣的登錄驗證過程,但這種方式不能進行大規(guī)模數(shù)據(jù)收集,因為,cookies 的有效時間一般在一個星期左右,屆時還需要手動添加新的 cookies 文件以確保爬蟲系統(tǒng)的持續(xù)運行。我們所設(shè)計的爬蟲機采樣用戶名密碼與手動解鎖的方式自動使爬蟲機獲取實時的 cookies。獲取用戶認(rèn)證的步驟如下:第一步:獲取登錄頁面,在登錄頁面的 HTML 的插入用戶名與密碼;
本文編號:3251494
【文章來源】:浙江理工大學(xué)浙江省
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【部分圖文】:
緩存區(qū)中的存儲結(jié)構(gòu)
獲取當(dāng)前節(jié)點的父節(jié)點獲取當(dāng)前節(jié)點的所有子節(jié)點獲取當(dāng)前節(jié)點的所有后代節(jié)點ing 獲取當(dāng)前節(jié)點的所有同輩節(jié)點ath抽取網(wǎng)頁信息時,首先在網(wǎng)頁相關(guān) HTML 文件中找到相應(yīng)的信息戶主頁中關(guān)注數(shù),粉絲數(shù),微博數(shù)的代碼片段。然后針對某個具體的Xpath路徑,如圖4.2中的關(guān)注數(shù),其 XML路徑為”/html/body/div[4字路徑后利用正則表達(dá)式提取要點信息,相應(yīng)的 Xpath代碼如下:ector(response)r.xpath('body/div[@class="u"]/div[@class="tip2"]').extract_first() re.findall(u'\u5fae\u535a\[(\d+)\]', text0) # 微博數(shù)= re.findall(u'\u5173\u6ce8\[(\d+)\]', text0) # 關(guān)注數(shù)e.findall(u'\u7c89\u4e1d\[(\d+)\]', text0) # 粉絲數(shù)
圖 4.3 在用戶頁面中抓取有用信息4.2.2 用戶認(rèn)證與反爬由于爬蟲系統(tǒng)會在社交網(wǎng)絡(luò)服務(wù)器中增加大量的無效訪問量,進而增加了網(wǎng)絡(luò)服務(wù)器的運行負(fù)荷,目前大部分的社交網(wǎng)絡(luò)提供商會對用戶登錄進行驗證,如驗證碼輸入,圖片校對等,或限制 IP 地址的最大訪問次數(shù)等措施,提高進入網(wǎng)絡(luò)服務(wù)器的門檻來限制爬蟲系統(tǒng)的訪問。對于小型的網(wǎng)絡(luò)爬蟲機而言可以使用偽裝 cookies 登錄的方法[56],繞開繁瑣的登錄驗證過程,但這種方式不能進行大規(guī)模數(shù)據(jù)收集,因為,cookies 的有效時間一般在一個星期左右,屆時還需要手動添加新的 cookies 文件以確保爬蟲系統(tǒng)的持續(xù)運行。我們所設(shè)計的爬蟲機采樣用戶名密碼與手動解鎖的方式自動使爬蟲機獲取實時的 cookies。獲取用戶認(rèn)證的步驟如下:第一步:獲取登錄頁面,在登錄頁面的 HTML 的插入用戶名與密碼;
本文編號:3251494
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3251494.html
最近更新
教材專著