針對微博輿情的采集與分析系統(tǒng)的設(shè)計與實現(xiàn)
【圖文】:
才可以下載到網(wǎng)頁的內(nèi)容,因此本文在爬蟲框架中采用了模擬登錄微博帳逡逑號來抓取微博數(shù)據(jù)。本文使用了邋commview這個工具抓包來分析微博登錄的整個逡逑交互過程。如圖2-2所示,新浪微博通過對用戶的帳號和密碼兩者進行驗證來保逡逑證用戶登錄信息的安全性。逡逑其完整的HTTP包交互過程如下:逡逑(1)
邐第二章微博輿情系統(tǒng)的相關(guān)技術(shù)逡逑文檔讀入到程序中,依次把標簽都壓入到棧中,然后再依次建立相應(yīng)的標簽樹,逡逑如圖2-3所示。當(dāng)讀到正文“微博輿情監(jiān)控系統(tǒng)”的時候,就把該正文保留到樹逡逑的葉子節(jié)點中。然后繼續(xù)掃描源文檔,,當(dāng)發(fā)現(xiàn)反向標簽時,例如</title>,在與前逡逑面壓棧的內(nèi)容對比,找到與之對應(yīng)的標簽,并把它pop出來,直到掃描到文檔結(jié)逡逑尾為止。逡逑
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.1
【參考文獻】
相關(guān)期刊論文 前9條
1 鐘明翔;唐晉韜;謝松縣;王挺;;一種基于動態(tài)網(wǎng)頁解析的微博數(shù)據(jù)抓取方法[J];艦船電子工程;2015年10期
2 李志明;;知網(wǎng)、萬方、維普論文相似性檢測系統(tǒng)比較研究[J];大學(xué)圖書情報學(xué)刊;2015年01期
3 張宇;呂龍;趙萍;;四川省高校圖書館微博使用現(xiàn)狀的調(diào)查和分析——基于新浪微博認證用戶調(diào)查[J];四川圖書館學(xué)報;2014年03期
4 侯敏;滕永林;李雪燕;陳毓麒;鄭雙美;侯明午;周紅照;;話題型微博語言特點及其情感分析策略研究[J];語言文字應(yīng)用;2013年02期
5 李躍健;朱程榮;;基于Larbin的網(wǎng)絡(luò)爬蟲體系結(jié)構(gòu)的研究與改進[J];計算機技術(shù)與發(fā)展;2012年07期
6 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(自然科學(xué)版);2011年10期
7 姚昱;朱山風(fēng);陳莘萌;;基于投票模型的元搜索排序合成算法[J];計算機工程;2007年22期
8 孫晉眾;陳世權(quán);;網(wǎng)絡(luò)組織拓撲聚類分析[J];太原理工大學(xué)學(xué)報;2007年01期
9 張樹瑜,杜國寧,朱仲英;基于Web的半結(jié)構(gòu)化信息抽取技術(shù)研究[J];系統(tǒng)工程與電子技術(shù);2004年05期
相關(guān)碩士學(xué)位論文 前5條
1 耿大偉;基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計與實現(xiàn)[D];燕山大學(xué);2015年
2 胡偉;基于Nutch的分布式爬蟲研究與優(yōu)化[D];上海師范大學(xué);2015年
3 藍天廣;電子商務(wù)產(chǎn)品在線評論的細粒度情感強度分析[D];北京郵電大學(xué);2015年
4 單月光;基于微博的網(wǎng)絡(luò)輿情關(guān)鍵技術(shù)的研究與實現(xiàn)[D];電子科技大學(xué);2013年
5 周麗;我國政務(wù)微博的現(xiàn)狀、問題與對策研究[D];江西財經(jīng)大學(xué);2012年
本文編號:2576175
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2576175.html