社交媒體數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:社交媒體數(shù)據(jù)分析平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 社交媒體 數(shù)據(jù)分析 微博 可視化
【摘要】:社交媒體迅速發(fā)展,無處不在。人們利用社交媒體分享自己的生活見聞,發(fā)表對(duì)事物的意見、觀點(diǎn)及經(jīng)驗(yàn)。新浪微博等社交媒體產(chǎn)生大量的第一手消費(fèi)者信息,越來越多的數(shù)據(jù)變得觸手可得。目前,許多企業(yè)把社交媒體當(dāng)作一個(gè)推廣渠道,并沒有充分利用社交媒體產(chǎn)生的有關(guān)消費(fèi)人群的大量數(shù)據(jù)信息。本系統(tǒng)以新浪微博為主,首先,利用其API以一種基于分布式的數(shù)據(jù)采集方式獲取社交媒體數(shù)據(jù)。其次,將獲取到的數(shù)據(jù)通過Hadoop實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)分析,實(shí)現(xiàn)Hadoop與Solr相結(jié)合并充分地發(fā)揮了兩者的長(zhǎng)處。由于使用Hadoop的預(yù)先分詞技術(shù)和分布式結(jié)構(gòu),使得Solr搜索引擎的索引生成得到了高效的優(yōu)化。最后,經(jīng)過對(duì)社交媒體數(shù)據(jù)分析后,實(shí)現(xiàn)分析結(jié)果可視化。 本文針對(duì)新浪微博產(chǎn)生的數(shù)據(jù),設(shè)計(jì)實(shí)現(xiàn)了社交媒體數(shù)據(jù)分析系統(tǒng)。該系統(tǒng)主要負(fù)責(zé)新浪微博等社交媒體數(shù)據(jù)的獲取和分析,主要任務(wù)是建設(shè)Hadoop平臺(tái),實(shí)現(xiàn)微博數(shù)據(jù)獲取的分布式計(jì)算系統(tǒng);建設(shè)網(wǎng)站實(shí)現(xiàn)數(shù)據(jù)分析。數(shù)據(jù)分析實(shí)現(xiàn)的功能主要包括社會(huì)關(guān)系網(wǎng)絡(luò)分析、用戶群分析、用戶情感分析、客戶城市地圖、話題趨勢(shì)分析等。本文對(duì)社交媒體數(shù)據(jù)分析系統(tǒng)的項(xiàng)目背景和國(guó)內(nèi)外發(fā)展現(xiàn)狀進(jìn)行了闡述,講述了本系統(tǒng)的社會(huì)價(jià)值和潛在的商業(yè)價(jià)值,接著詳細(xì)分析和研究了社交媒體數(shù)據(jù)分析平臺(tái)項(xiàng)目中用到的關(guān)鍵技術(shù),然后對(duì)該系統(tǒng)進(jìn)行了業(yè)務(wù)分析和功能分析,研究了其功能性需求和非功能性需求,以綜上分析為基礎(chǔ)描述了本項(xiàng)目的總體架構(gòu)設(shè)計(jì)和功能模塊劃分,并且對(duì)各功能模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)進(jìn)行了闡述。本人在該系統(tǒng)的生命周期中參與了需求分析、概要設(shè)計(jì)、詳細(xì)設(shè)計(jì)、開發(fā)測(cè)試工作,主要負(fù)責(zé)社交關(guān)系網(wǎng)絡(luò)分析模塊、用戶群分析模塊、用戶情感分析模塊、客戶城市地圖模塊。 本系統(tǒng)已經(jīng)通過公司內(nèi)測(cè)。本人設(shè)計(jì)實(shí)現(xiàn)的功能模塊均能夠正常運(yùn)行,并且各模塊的運(yùn)行情況與用戶需求相符合。
【關(guān)鍵詞】:社交媒體 數(shù)據(jù)分析 微博 可視化
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP311.52
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-11
- 1 引言11-15
- 1.1 系統(tǒng)研究背景和意義11-12
- 1.1.1 項(xiàng)目選題背景11-12
- 1.1.2 項(xiàng)目研究意義12
- 1.2 國(guó)內(nèi)外發(fā)展現(xiàn)狀12-13
- 1.3 主要研究工作13
- 1.4 項(xiàng)目目標(biāo)13-14
- 1.5 論文結(jié)構(gòu)安排14
- 1.6 本章小結(jié)14-15
- 2 本課題涉及的關(guān)鍵技術(shù)15-28
- 2.1 HDFS文件系統(tǒng)15-16
- 2.2 Hadoop16-18
- 2.3 NoSQL18-21
- 2.3.1 列存儲(chǔ)18-19
- 2.3.2 鍵-值存儲(chǔ)19-20
- 2.3.3 文檔存儲(chǔ)20-21
- 2.3.4 選擇合適的NoSQL21
- 2.4 搜索引擎服務(wù)器Solr21-24
- 2.4.1 搜索引擎工具包22-23
- 2.4.2 搜索引擎服務(wù)器與體系結(jié)構(gòu)23-24
- 2.5 文本分析技術(shù)24-26
- 2.5.1 分詞工具24
- 2.5.2 語義擴(kuò)展24-25
- 2.5.3 潛在狄利克雷分布25-26
- 2.6 數(shù)據(jù)可視化工具26-27
- 2.7 本章小結(jié)27-28
- 3 系統(tǒng)需求分析28-35
- 3.1 系統(tǒng)業(yè)務(wù)分析28-30
- 3.2 系統(tǒng)功能分析30-32
- 3.2.1 數(shù)據(jù)獲取模塊功能分析30
- 3.2.2 數(shù)據(jù)分析模塊功能分析30-32
- 3.3 系統(tǒng)非功能性需求分析32-34
- 3.3.1 用戶界面需求32
- 3.3.2 性能需求32-33
- 3.3.3 系統(tǒng)安全性要求33
- 3.3.4 跨平臺(tái)要求33
- 3.3.5 可復(fù)用性要求33-34
- 3.3.6 可靠性要求34
- 3.4 本章小結(jié)34-35
- 4 概要設(shè)計(jì)35-39
- 4.1 系統(tǒng)架構(gòu)設(shè)計(jì)35-37
- 4.1.1 展示層35-36
- 4.1.2 業(yè)務(wù)層36
- 4.1.3 服務(wù)層36-37
- 4.1.4 數(shù)據(jù)層37
- 4.2 包結(jié)構(gòu)設(shè)計(jì)37-38
- 4.3 本章小結(jié)38-39
- 5 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)39-53
- 5.1 數(shù)據(jù)獲取模塊的設(shè)計(jì)與實(shí)現(xiàn)39-43
- 5.1.1 數(shù)據(jù)獲取模塊的設(shè)計(jì)40-42
- 5.1.2 數(shù)據(jù)獲取模塊的實(shí)現(xiàn)42-43
- 5.2 數(shù)據(jù)分析模塊的設(shè)計(jì)與實(shí)現(xiàn)43-52
- 5.2.1 社交關(guān)系網(wǎng)絡(luò)分析子模塊的設(shè)計(jì)與實(shí)現(xiàn)44-46
- 5.2.2 用戶群分析子模塊的設(shè)計(jì)與實(shí)現(xiàn)46-48
- 5.2.3 客戶城市地圖子模塊的設(shè)計(jì)與實(shí)現(xiàn)48-50
- 5.2.4 用戶情緒分析子模塊的設(shè)計(jì)與實(shí)現(xiàn)50-52
- 5.3 本章小結(jié)52-53
- 6 系統(tǒng)測(cè)試53-62
- 6.1 測(cè)試環(huán)境53
- 6.2 測(cè)試方法和用例53-56
- 6.2.1 功能測(cè)試54-55
- 6.2.2 壓力測(cè)試55-56
- 6.3 系統(tǒng)運(yùn)行結(jié)果展示56-61
- 6.3.1 數(shù)據(jù)獲取模塊界面56
- 6.3.2 數(shù)據(jù)分析模塊界面56-61
- 6.4 本章小結(jié)61-62
- 7 總結(jié)與展望62-63
- 參考文獻(xiàn)63-65
- 作者簡(jiǎn)歷65-67
- 學(xué)位論文數(shù)據(jù)集67
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 姚礪,束永安;軟件測(cè)試自動(dòng)化關(guān)鍵技術(shù)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年04期
2 李龍;李芝棠;涂浩;史春永;;一種分布式微博數(shù)據(jù)采集平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年S1期
3 吳斌杰;徐子瑋;虞飛華;;基于API的微博信息采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2013年17期
4 傅靈麗;代俊秋;劉金河;;Web應(yīng)用系統(tǒng)的自動(dòng)化測(cè)試解決方案[J];河北工業(yè)大學(xué)學(xué)報(bào);2010年04期
5 姚科;;開放API:新浪微博必經(jīng)之路?[J];互聯(lián)網(wǎng)天地;2010年08期
6 張麗波;軟件自動(dòng)化測(cè)試的設(shè)計(jì)與實(shí)施[J];佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年04期
7 龐磊;李壽山;周國(guó)棟;;基于情緒知識(shí)的中文微博情感分類方法[J];計(jì)算機(jī)工程;2012年13期
8 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年10期
9 魏振鋼;宋慶國(guó);張建軍;張子振;;基于以太網(wǎng)的分布式智能門禁系統(tǒng)[J];計(jì)算機(jī)工程與設(shè)計(jì);2007年04期
10 仇鈞;劉功申;;基于關(guān)系的微博重要度算法研究[J];信息安全與通信保密;2013年01期
,本文編號(hào):789422
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/789422.html