微博爬蟲的相關(guān)技術(shù)研究
發(fā)布時間:2021-08-02 16:14
社交媒體作為web2.0時代的標(biāo)志,提供了以用戶為中心的各種交流模式和途徑。用戶在社交媒體上發(fā)表和傳播消息,關(guān)注自己感興趣的人物。社交媒體中一般擁有數(shù)以億計的人物節(jié)點(diǎn),他們之間通過關(guān)注和粉絲關(guān)系連成了巨大的社會網(wǎng)絡(luò),消息通過這張巨大的社會網(wǎng)絡(luò)傳播。大部分社交媒體提供API以便獲取社交媒體數(shù)據(jù)進(jìn)行相關(guān)研究,但是由于API的相關(guān)限制造成數(shù)據(jù)獲取困難,直接造成研究無法進(jìn)行。所以對于社交媒體爬蟲的相關(guān)技術(shù)研究具有重大意義。本文主要以國內(nèi)微博媒體為研究對象,主要針對新浪微博,研究微博爬蟲的相關(guān)技術(shù)。本文研究的技術(shù)包括:爬行策略研究與實(shí)現(xiàn)、微博數(shù)據(jù)獲取研究與實(shí)現(xiàn)、微博數(shù)據(jù)去重設(shè)計等。本文工作如下:首先分析微博爬蟲的主要問題。在該部分本文介紹了基于Hadoop的分布式框架技術(shù)、基于hbase的分布式數(shù)據(jù)存儲技術(shù)以及微博數(shù)據(jù)的獲取方式、去重策略和存儲策略,提出一種基于Hadoop的微博爬蟲框架,以UID和MID為主鍵的分布式No-SQL設(shè)計思路,獲取微博數(shù)據(jù)的兩種主要方式的相關(guān)背景和主要流程,比較多種微博數(shù)據(jù)去重策略。其次研究面向微博主題數(shù)據(jù)和個人數(shù)據(jù)獲取技術(shù)。在該部分重點(diǎn)介紹了基于新浪元搜索和主題相...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
hbase的架構(gòu)圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文10圖2-2 特殊表與 region 之間的對應(yīng)關(guān)系在 hbase 中表不支持索引結(jié)構(gòu),例如查詢博文數(shù)據(jù)時需要查找某人發(fā)布的所有博文,此時由于沒有索引結(jié)構(gòu),查詢效率非常,常用的處理方法為設(shè)計冗余表以滿足基于 hbase 數(shù)據(jù)庫的分析技術(shù)。在 hbase 中有些設(shè)計原則,hbase 盡量避免采用單調(diào)遞增這樣的 Key,這樣會造成一直插入最后一個 region,造成數(shù)據(jù)庫長時間進(jìn)行分裂操作,導(dǎo)致數(shù)據(jù)庫性能的降低;每個表列簇盡量只有一個;列簇名和列名盡量簡短;靈活利用 hbase 的 Key 有序進(jìn)行設(shè)計。hbase 的數(shù)據(jù)導(dǎo)入導(dǎo)出方式主要包括 java Native API,hbased 自帶的命令和bulk-load 方式
圖 2-7 PC 端與移動端的個人基本信息頁面的對比示意圖人微博數(shù)據(jù)時,從圖中可以得出的結(jié)論與獲取個人基本圖 2-8 PC 端與移動端的單條博文數(shù)據(jù)頁面的對比示意圖析:上述實(shí)驗(yàn)可以看出使用移動端頁面的方式將減輕原帶寬占用,可以稍微提升獲取速度。但是由于長時間使易被封 IP。base 以及 Mysql 存儲微博數(shù)據(jù),已累積相關(guān)微博爬蟲獲實(shí)驗(yàn)室數(shù)據(jù)的存儲情況如表 2-6 所示:
【參考文獻(xiàn)】:
期刊論文
[1]新浪微博數(shù)據(jù)挖掘方案[J]. 廉捷,周欣,曹偉,劉云. 清華大學(xué)學(xué)報(自然科學(xué)版). 2011(10)
[2]主題爬行策略與算法研究綜述[J]. 張立杰. 圖書情報工作. 2011(18)
[3]Ajax站點(diǎn)數(shù)據(jù)采集研究綜述[J]. 夏天. 現(xiàn)代圖書情報技術(shù). 2010(03)
碩士論文
[1]面向電子商務(wù)網(wǎng)站的增量爬蟲設(shè)計與實(shí)現(xiàn)[D]. 楊頌.湖南大學(xué) 2010
本文編號:3317875
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:55 頁
【學(xué)位級別】:碩士
【部分圖文】:
hbase的架構(gòu)圖
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文10圖2-2 特殊表與 region 之間的對應(yīng)關(guān)系在 hbase 中表不支持索引結(jié)構(gòu),例如查詢博文數(shù)據(jù)時需要查找某人發(fā)布的所有博文,此時由于沒有索引結(jié)構(gòu),查詢效率非常,常用的處理方法為設(shè)計冗余表以滿足基于 hbase 數(shù)據(jù)庫的分析技術(shù)。在 hbase 中有些設(shè)計原則,hbase 盡量避免采用單調(diào)遞增這樣的 Key,這樣會造成一直插入最后一個 region,造成數(shù)據(jù)庫長時間進(jìn)行分裂操作,導(dǎo)致數(shù)據(jù)庫性能的降低;每個表列簇盡量只有一個;列簇名和列名盡量簡短;靈活利用 hbase 的 Key 有序進(jìn)行設(shè)計。hbase 的數(shù)據(jù)導(dǎo)入導(dǎo)出方式主要包括 java Native API,hbased 自帶的命令和bulk-load 方式
圖 2-7 PC 端與移動端的個人基本信息頁面的對比示意圖人微博數(shù)據(jù)時,從圖中可以得出的結(jié)論與獲取個人基本圖 2-8 PC 端與移動端的單條博文數(shù)據(jù)頁面的對比示意圖析:上述實(shí)驗(yàn)可以看出使用移動端頁面的方式將減輕原帶寬占用,可以稍微提升獲取速度。但是由于長時間使易被封 IP。base 以及 Mysql 存儲微博數(shù)據(jù),已累積相關(guān)微博爬蟲獲實(shí)驗(yàn)室數(shù)據(jù)的存儲情況如表 2-6 所示:
【參考文獻(xiàn)】:
期刊論文
[1]新浪微博數(shù)據(jù)挖掘方案[J]. 廉捷,周欣,曹偉,劉云. 清華大學(xué)學(xué)報(自然科學(xué)版). 2011(10)
[2]主題爬行策略與算法研究綜述[J]. 張立杰. 圖書情報工作. 2011(18)
[3]Ajax站點(diǎn)數(shù)據(jù)采集研究綜述[J]. 夏天. 現(xiàn)代圖書情報技術(shù). 2010(03)
碩士論文
[1]面向電子商務(wù)網(wǎng)站的增量爬蟲設(shè)計與實(shí)現(xiàn)[D]. 楊頌.湖南大學(xué) 2010
本文編號:3317875
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3317875.html
最近更新
教材專著