基于密度峰值融合K-means聚類算法的微博輿情分析
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3.1微博開(kāi)放平臺(tái)Fig.3.1WeiboOpenPlatform
19第3章微博數(shù)據(jù)采集獲取微博文本是進(jìn)行輿情分析實(shí)驗(yàn)的前提,微博文本數(shù)據(jù)的采集主要是利用微博搜索界面利用網(wǎng)頁(yè)提取技術(shù)來(lái)爬取數(shù)據(jù),采集技術(shù)主要包括基于微博API的采集方式,另一種是手工開(kāi)發(fā)抓取程序的形式,本文接下來(lái)將詳細(xì)介紹這兩種不同的采集方式。3.1微博API數(shù)據(jù)采集方式3.1.....
圖3.4請(qǐng)求數(shù)據(jù)流Fig.3.4RequestDataFlow
23網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)是通過(guò)模擬瀏覽器行為向服務(wù)器發(fā)送請(qǐng)求從而獲得微博文本信息的過(guò)程,本章節(jié)主要介紹網(wǎng)絡(luò)爬蟲(chóng)爬取數(shù)據(jù)的方式中需要解決的關(guān)鍵性的問(wèn)題:對(duì)網(wǎng)頁(yè)抓包以及微博站點(diǎn)進(jìn)行分析,模擬瀏覽器行為請(qǐng)求并開(kāi)啟微博數(shù)據(jù)爬取,最后對(duì)存儲(chǔ)的微博數(shù)據(jù)存儲(chǔ)予以解析。爬蟲(chóng)方式獲取數(shù)據(jù)流程圖如圖3.....
圖3.5請(qǐng)求相應(yīng)信息Fig.3.5RequestCorrespondingInformation
23網(wǎng)絡(luò)爬蟲(chóng)抓取數(shù)據(jù)是通過(guò)模擬瀏覽器行為向服務(wù)器發(fā)送請(qǐng)求從而獲得微博文本信息的過(guò)程,本章節(jié)主要介紹網(wǎng)絡(luò)爬蟲(chóng)爬取數(shù)據(jù)的方式中需要解決的關(guān)鍵性的問(wèn)題:對(duì)網(wǎng)頁(yè)抓包以及微博站點(diǎn)進(jìn)行分析,模擬瀏覽器行為請(qǐng)求并開(kāi)啟微博數(shù)據(jù)爬取,最后對(duì)存儲(chǔ)的微博數(shù)據(jù)存儲(chǔ)予以解析。爬蟲(chóng)方式獲取數(shù)據(jù)流程圖如圖3.....
圖3.6微博高級(jí)搜索Fig.3.6WeiboAdvancedSearch
24者工具中分析抓包過(guò)程。當(dāng)用戶訪問(wèn)微博點(diǎn)擊登錄時(shí),如圖3.4所示的開(kāi)發(fā)者模式中可以看到捕捉的登錄請(qǐng)求數(shù)據(jù)流。Network可以查看所有加載的請(qǐng)求。由圖3.5所示,點(diǎn)擊左側(cè)的請(qǐng)求網(wǎng)址,可以通過(guò)右側(cè)的Headers看到頭部參數(shù)設(shè)置,這里面包含了請(qǐng)求的URL和相應(yīng)的信息,點(diǎn)擊Resp....
本文編號(hào):3998259
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/3998259.html
下一篇:沒(méi)有了