當(dāng)前位置：主頁(yè) > 管理論文 > 移動(dòng)網(wǎng)絡(luò)論文 >

微博爬蟲(chóng)的相關(guān)技術(shù)研究

發(fā)布時(shí)間：2021-08-02 16:14

　　社交媒體作為web2.0時(shí)代的標(biāo)志，提供了以用戶為中心的各種交流模式和途徑。用戶在社交媒體上發(fā)表和傳播消息，關(guān)注自己感興趣的人物。社交媒體中一般擁有數(shù)以?xún)|計(jì)的人物節(jié)點(diǎn)，他們之間通過(guò)關(guān)注和粉絲關(guān)系連成了巨大的社會(huì)網(wǎng)絡(luò)，消息通過(guò)這張巨大的社會(huì)網(wǎng)絡(luò)傳播。大部分社交媒體提供API以便獲取社交媒體數(shù)據(jù)進(jìn)行相關(guān)研究，但是由于API的相關(guān)限制造成數(shù)據(jù)獲取困難，直接造成研究無(wú)法進(jìn)行。所以對(duì)于社交媒體爬蟲(chóng)的相關(guān)技術(shù)研究具有重大意義。本文主要以國(guó)內(nèi)微博媒體為研究對(duì)象，主要針對(duì)新浪微博，研究微博爬蟲(chóng)的相關(guān)技術(shù)。本文研究的技術(shù)包括：爬行策略研究與實(shí)現(xiàn)、微博數(shù)據(jù)獲取研究與實(shí)現(xiàn)、微博數(shù)據(jù)去重設(shè)計(jì)等。本文工作如下：首先分析微博爬蟲(chóng)的主要問(wèn)題。在該部分本文介紹了基于Hadoop的分布式框架技術(shù)、基于hbase的分布式數(shù)據(jù)存儲(chǔ)技術(shù)以及微博數(shù)據(jù)的獲取方式、去重策略和存儲(chǔ)策略，提出一種基于Hadoop的微博爬蟲(chóng)框架，以UID和MID為主鍵的分布式No-SQL設(shè)計(jì)思路，獲取微博數(shù)據(jù)的兩種主要方式的相關(guān)背景和主要流程，比較多種微博數(shù)據(jù)去重策略。其次研究面向微博主題數(shù)據(jù)和個(gè)人數(shù)據(jù)獲取技術(shù)。在該部分重點(diǎn)介紹了基于新浪元搜索和主題相...

【文章來(lái)源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁(yè)數(shù)】：55 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

hbase的架構(gòu)圖

對(duì)應(yīng)關(guān)系,索引結(jié)構(gòu)

哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文10圖2-2 特殊表與 region 之間的對(duì)應(yīng)關(guān)系在 hbase 中表不支持索引結(jié)構(gòu)，例如查詢(xún)博文數(shù)據(jù)時(shí)需要查找某人發(fā)布的所有博文，此時(shí)由于沒(méi)有索引結(jié)構(gòu)，查詢(xún)效率非常，常用的處理方法為設(shè)計(jì)冗余表以滿足基于 hbase 數(shù)據(jù)庫(kù)的分析技術(shù)。在 hbase 中有些設(shè)計(jì)原則，hbase 盡量避免采用單調(diào)遞增這樣的 Key，這樣會(huì)造成一直插入最后一個(gè) region，造成數(shù)據(jù)庫(kù)長(zhǎng)時(shí)間進(jìn)行分裂操作，導(dǎo)致數(shù)據(jù)庫(kù)性能的降低；每個(gè)表列簇盡量只有一個(gè)；列簇名和列名盡量簡(jiǎn)短；靈活利用 hbase 的 Key 有序進(jìn)行設(shè)計(jì)。hbase 的數(shù)據(jù)導(dǎo)入導(dǎo)出方式主要包括 java Native API，hbased 自帶的命令和bulk-load 方式

示意圖,頁(yè)面,個(gè)人,示意圖

圖 2-7 PC 端與移動(dòng)端的個(gè)人基本信息頁(yè)面的對(duì)比示意圖人微博數(shù)據(jù)時(shí)，從圖中可以得出的結(jié)論與獲取個(gè)人基本圖 2-8 PC 端與移動(dòng)端的單條博文數(shù)據(jù)頁(yè)面的對(duì)比示意圖析：上述實(shí)驗(yàn)可以看出使用移動(dòng)端頁(yè)面的方式將減輕原帶寬占用，可以稍微提升獲取速度。但是由于長(zhǎng)時(shí)間使易被封 IP。base 以及 Mysql 存儲(chǔ)微博數(shù)據(jù)，已累積相關(guān)微博爬蟲(chóng)獲實(shí)驗(yàn)室數(shù)據(jù)的存儲(chǔ)情況如表 2-6 所示：

【參考文獻(xiàn)】：
期刊論文
[1]新浪微博數(shù)據(jù)挖掘方案[J]. 廉捷,周欣,曹偉,劉云.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(10)
[2]主題爬行策略與算法研究綜述[J]. 張立杰.  圖書(shū)情報(bào)工作. 2011(18)
[3]Ajax站點(diǎn)數(shù)據(jù)采集研究綜述[J]. 夏天.  現(xiàn)代圖書(shū)情報(bào)技術(shù). 2010(03)

碩士論文
[1]面向電子商務(wù)網(wǎng)站的增量爬蟲(chóng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 楊頌.湖南大學(xué) 2010

本文編號(hào)：3317875

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/3317875.html

上一篇：基于SDN的電力數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)研究
下一篇：金融科技高速發(fā)展下的信息安全——以廣東省工商銀行為例

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博爬蟲(chóng)的相關(guān)技術(shù)研究