社交媒體數(shù)據(jù)分析平臺的設計與實現(xiàn)
本文關鍵詞:社交媒體數(shù)據(jù)分析平臺的設計與實現(xiàn)
更多相關文章: 社交媒體 數(shù)據(jù)分析 微博 可視化
【摘要】:社交媒體迅速發(fā)展,無處不在。人們利用社交媒體分享自己的生活見聞,發(fā)表對事物的意見、觀點及經驗。新浪微博等社交媒體產生大量的第一手消費者信息,越來越多的數(shù)據(jù)變得觸手可得。目前,許多企業(yè)把社交媒體當作一個推廣渠道,并沒有充分利用社交媒體產生的有關消費人群的大量數(shù)據(jù)信息。本系統(tǒng)以新浪微博為主,首先,利用其API以一種基于分布式的數(shù)據(jù)采集方式獲取社交媒體數(shù)據(jù)。其次,將獲取到的數(shù)據(jù)通過Hadoop實現(xiàn)數(shù)據(jù)存儲分析,實現(xiàn)Hadoop與Solr相結合并充分地發(fā)揮了兩者的長處。由于使用Hadoop的預先分詞技術和分布式結構,使得Solr搜索引擎的索引生成得到了高效的優(yōu)化。最后,經過對社交媒體數(shù)據(jù)分析后,實現(xiàn)分析結果可視化。 本文針對新浪微博產生的數(shù)據(jù),設計實現(xiàn)了社交媒體數(shù)據(jù)分析系統(tǒng)。該系統(tǒng)主要負責新浪微博等社交媒體數(shù)據(jù)的獲取和分析,主要任務是建設Hadoop平臺,實現(xiàn)微博數(shù)據(jù)獲取的分布式計算系統(tǒng);建設網(wǎng)站實現(xiàn)數(shù)據(jù)分析。數(shù)據(jù)分析實現(xiàn)的功能主要包括社會關系網(wǎng)絡分析、用戶群分析、用戶情感分析、客戶城市地圖、話題趨勢分析等。本文對社交媒體數(shù)據(jù)分析系統(tǒng)的項目背景和國內外發(fā)展現(xiàn)狀進行了闡述,講述了本系統(tǒng)的社會價值和潛在的商業(yè)價值,接著詳細分析和研究了社交媒體數(shù)據(jù)分析平臺項目中用到的關鍵技術,然后對該系統(tǒng)進行了業(yè)務分析和功能分析,研究了其功能性需求和非功能性需求,以綜上分析為基礎描述了本項目的總體架構設計和功能模塊劃分,并且對各功能模塊的詳細設計與實現(xiàn)進行了闡述。本人在該系統(tǒng)的生命周期中參與了需求分析、概要設計、詳細設計、開發(fā)測試工作,主要負責社交關系網(wǎng)絡分析模塊、用戶群分析模塊、用戶情感分析模塊、客戶城市地圖模塊。 本系統(tǒng)已經通過公司內測。本人設計實現(xiàn)的功能模塊均能夠正常運行,并且各模塊的運行情況與用戶需求相符合。
【關鍵詞】:社交媒體 數(shù)據(jù)分析 微博 可視化
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP311.52
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-11
- 1 引言11-15
- 1.1 系統(tǒng)研究背景和意義11-12
- 1.1.1 項目選題背景11-12
- 1.1.2 項目研究意義12
- 1.2 國內外發(fā)展現(xiàn)狀12-13
- 1.3 主要研究工作13
- 1.4 項目目標13-14
- 1.5 論文結構安排14
- 1.6 本章小結14-15
- 2 本課題涉及的關鍵技術15-28
- 2.1 HDFS文件系統(tǒng)15-16
- 2.2 Hadoop16-18
- 2.3 NoSQL18-21
- 2.3.1 列存儲18-19
- 2.3.2 鍵-值存儲19-20
- 2.3.3 文檔存儲20-21
- 2.3.4 選擇合適的NoSQL21
- 2.4 搜索引擎服務器Solr21-24
- 2.4.1 搜索引擎工具包22-23
- 2.4.2 搜索引擎服務器與體系結構23-24
- 2.5 文本分析技術24-26
- 2.5.1 分詞工具24
- 2.5.2 語義擴展24-25
- 2.5.3 潛在狄利克雷分布25-26
- 2.6 數(shù)據(jù)可視化工具26-27
- 2.7 本章小結27-28
- 3 系統(tǒng)需求分析28-35
- 3.1 系統(tǒng)業(yè)務分析28-30
- 3.2 系統(tǒng)功能分析30-32
- 3.2.1 數(shù)據(jù)獲取模塊功能分析30
- 3.2.2 數(shù)據(jù)分析模塊功能分析30-32
- 3.3 系統(tǒng)非功能性需求分析32-34
- 3.3.1 用戶界面需求32
- 3.3.2 性能需求32-33
- 3.3.3 系統(tǒng)安全性要求33
- 3.3.4 跨平臺要求33
- 3.3.5 可復用性要求33-34
- 3.3.6 可靠性要求34
- 3.4 本章小結34-35
- 4 概要設計35-39
- 4.1 系統(tǒng)架構設計35-37
- 4.1.1 展示層35-36
- 4.1.2 業(yè)務層36
- 4.1.3 服務層36-37
- 4.1.4 數(shù)據(jù)層37
- 4.2 包結構設計37-38
- 4.3 本章小結38-39
- 5 系統(tǒng)設計與實現(xiàn)39-53
- 5.1 數(shù)據(jù)獲取模塊的設計與實現(xiàn)39-43
- 5.1.1 數(shù)據(jù)獲取模塊的設計40-42
- 5.1.2 數(shù)據(jù)獲取模塊的實現(xiàn)42-43
- 5.2 數(shù)據(jù)分析模塊的設計與實現(xiàn)43-52
- 5.2.1 社交關系網(wǎng)絡分析子模塊的設計與實現(xiàn)44-46
- 5.2.2 用戶群分析子模塊的設計與實現(xiàn)46-48
- 5.2.3 客戶城市地圖子模塊的設計與實現(xiàn)48-50
- 5.2.4 用戶情緒分析子模塊的設計與實現(xiàn)50-52
- 5.3 本章小結52-53
- 6 系統(tǒng)測試53-62
- 6.1 測試環(huán)境53
- 6.2 測試方法和用例53-56
- 6.2.1 功能測試54-55
- 6.2.2 壓力測試55-56
- 6.3 系統(tǒng)運行結果展示56-61
- 6.3.1 數(shù)據(jù)獲取模塊界面56
- 6.3.2 數(shù)據(jù)分析模塊界面56-61
- 6.4 本章小結61-62
- 7 總結與展望62-63
- 參考文獻63-65
- 作者簡歷65-67
- 學位論文數(shù)據(jù)集67
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 姚礪,束永安;軟件測試自動化關鍵技術的研究[J];安徽大學學報(自然科學版);2003年04期
2 李龍;李芝棠;涂浩;史春永;;一種分布式微博數(shù)據(jù)采集平臺的設計與實現(xiàn)[J];廣西大學學報(自然科學版);2011年S1期
3 吳斌杰;徐子瑋;虞飛華;;基于API的微博信息采集系統(tǒng)設計與實現(xiàn)[J];電腦知識與技術;2013年17期
4 傅靈麗;代俊秋;劉金河;;Web應用系統(tǒng)的自動化測試解決方案[J];河北工業(yè)大學學報;2010年04期
5 姚科;;開放API:新浪微博必經之路?[J];互聯(lián)網(wǎng)天地;2010年08期
6 張麗波;軟件自動化測試的設計與實施[J];佳木斯大學學報(自然科學版);2004年04期
7 龐磊;李壽山;周國棟;;基于情緒知識的中文微博情感分類方法[J];計算機工程;2012年13期
8 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學學報(自然科學版);2011年10期
9 魏振鋼;宋慶國;張建軍;張子振;;基于以太網(wǎng)的分布式智能門禁系統(tǒng)[J];計算機工程與設計;2007年04期
10 仇鈞;劉功申;;基于關系的微博重要度算法研究[J];信息安全與通信保密;2013年01期
,本文編號:789422
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/789422.html