基于Spark的輿情分析架構(gòu)研究
本文關(guān)鍵詞:基于Spark的輿情分析架構(gòu)研究 出處:《廣東工業(yè)大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 輿情分析 數(shù)據(jù)采集 Spark 文本聚類 瓶頸檢測(cè)
【摘要】:輿情分析通過(guò)對(duì)互聯(lián)網(wǎng)海量信息進(jìn)行自動(dòng)抓取、自動(dòng)分類聚類等技術(shù),形成簡(jiǎn)報(bào)、圖表等分析結(jié)果,為客戶全面掌握群眾思想動(dòng)態(tài),做出正確輿論引導(dǎo)提供分析依據(jù)。隨著移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、社交網(wǎng)絡(luò)等互聯(lián)網(wǎng)新興技術(shù)普及和應(yīng)用,互聯(lián)網(wǎng)用戶呈現(xiàn)爆炸性增長(zhǎng)。因此,高效海量數(shù)據(jù)處理架構(gòu)對(duì)輿情分析具有重要研究意義。本文結(jié)合新浪微博,基于大數(shù)據(jù)處理技術(shù),探討了構(gòu)建基于Spark的輿情分析架構(gòu)的可行性。論文主要做了以下幾方面工作:1、設(shè)計(jì)整體架構(gòu),搭建Hadoop分布式平臺(tái)對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)和處理,通過(guò)分布式列式數(shù)據(jù)庫(kù)HBase和Lucene相結(jié)合,在滿足海量數(shù)據(jù)存儲(chǔ)的基礎(chǔ)上,提高了數(shù)據(jù)檢索和讀寫性能。2、在數(shù)據(jù)采集模塊,針對(duì)當(dāng)今廣泛使用的模擬登陸和基于API采集方案的缺陷,設(shè)計(jì)一個(gè)高效穩(wěn)定的數(shù)據(jù)采集方案,具體包括通過(guò)內(nèi)存數(shù)據(jù)庫(kù)Redis來(lái)控制待爬隊(duì)列、更新隊(duì)列和已爬集合,在避免重復(fù)采集的同時(shí)能及時(shí)對(duì)數(shù)據(jù)進(jìn)行更新;針對(duì)IP限制問(wèn)題,提出流動(dòng)性的代理池機(jī)制,通過(guò)池中代理不斷調(diào)度更新,使得池中代理能針對(duì)不同網(wǎng)頁(yè)而發(fā)揮其最大功效,同時(shí)保證數(shù)據(jù)抓取的高效性和穩(wěn)定性,提高采集效率。3、為從本質(zhì)上突破Hadoop在文本聚類上的瓶頸,本文在文本聚類模塊中使用基于Spark的改進(jìn)K-means算法實(shí)現(xiàn)。具體包括在預(yù)處理階段,針對(duì)微博特征項(xiàng)比較少的缺點(diǎn),使用word2vec工具對(duì)特征項(xiàng)進(jìn)行擴(kuò)展;在K值選擇和簇心初始化問(wèn)題上優(yōu)化K-means算法,并將Spark框架應(yīng)用于優(yōu)化的K-means算法,對(duì)文本數(shù)據(jù)進(jìn)行并行處理,使得架構(gòu)在文本聚類上更加高效快捷,從而提高整個(gè)架構(gòu)的性能。4、針對(duì)架構(gòu)提出一種基于資源信息增益的瓶頸檢測(cè)方法。該方法通過(guò)監(jiān)控集群的響應(yīng)滿意度(Response Satisfaction, RS)來(lái)發(fā)現(xiàn)瓶頸的出現(xiàn),然后通過(guò)資源使用率和響應(yīng)滿意度樣本計(jì)算各類資源的信息增益,以確定具體的瓶頸資源。輿情分析作為愈發(fā)強(qiáng)大的社會(huì)建設(shè)力量,網(wǎng)絡(luò)輿情已經(jīng)成為一股不容忽視的社會(huì)力量。故對(duì)網(wǎng)絡(luò)輿情的分析對(duì)社會(huì)發(fā)展具有重要意義其在應(yīng)用和研究上都有著巨大的前景,故對(duì)輿情分析架構(gòu)研究勢(shì)在必行。實(shí)驗(yàn)結(jié)果表明,本文構(gòu)建的輿情分析架構(gòu)能很好的適應(yīng)對(duì)海量數(shù)據(jù)的輿情分析,能達(dá)到較為理想的數(shù)據(jù)采集和數(shù)據(jù)處理效果,對(duì)處理大規(guī)模數(shù)據(jù)的輿情分析具有可行性。
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 梁麗雯;;網(wǎng)絡(luò)輿情分析師或成就業(yè)香餑餑[J];金融科技時(shí)代;2014年01期
2 ;做好輿情分析是有效引導(dǎo)的前提[J];中國(guó)記者;2001年03期
3 楊玫;;輿情分析:圖書館為領(lǐng)導(dǎo)決策服務(wù)的新探索[J];圖書館論壇;2006年05期
4 宋占茹;;圖書館開展網(wǎng)絡(luò)輿情分析工作初探[J];情報(bào)探索;2010年08期
5 何順蘭;王興起;胡宏宇;姜明;;多媒體輿情分析系統(tǒng)設(shè)計(jì)與研究[J];杭州電子科技大學(xué)學(xué)報(bào);2010年05期
6 顏建華;劉巖;傅黎犁;劉亞民;;基于網(wǎng)絡(luò)的輿情分析系統(tǒng)及其應(yīng)用研究[J];醫(yī)學(xué)信息學(xué)雜志;2011年08期
7 侯文昌;;傳媒新角色—輿情分析師的專業(yè)素養(yǎng) “朝陽(yáng)職業(yè)”四年成長(zhǎng)史[J];中國(guó)記者;2011年09期
8 劉鵬飛;;“尋路”輿情分析師:一些心得,幾點(diǎn)忠告[J];中國(guó)記者;2011年09期
9 劉巖;傅黎犁;顏建華;;醫(yī)學(xué)情報(bào)研究機(jī)構(gòu)開展輿情分析服務(wù)的實(shí)踐[J];中華醫(yī)學(xué)圖書情報(bào)雜志;2012年01期
10 曹勁松;;政府形象傳播的輿情分析[J];江海學(xué)刊;2012年03期
相關(guān)會(huì)議論文 前4條
1 宋占茹;;圖書館網(wǎng)絡(luò)輿情分析工作新探[A];華北地區(qū)高校圖協(xié)第二十四屆學(xué)術(shù)年會(huì)論文(文章)匯編[C];2010年
2 何順蘭;王興起;胡宏宇;姜明;;多媒體輿情分析系統(tǒng)設(shè)計(jì)與研究[A];浙江省電子學(xué)會(huì)2010學(xué)術(shù)年會(huì)論文集[C];2010年
3 孫江;;天津薊縣萊德商廈火災(zāi)信息發(fā)布、媒體報(bào)道及網(wǎng)絡(luò)輿情分析[A];2013中國(guó)消防協(xié)會(huì)科學(xué)技術(shù)年會(huì)論文集[C];2013年
4 梁飛;呂洪波;姚錦峰;;輿情分析中語(yǔ)料庫(kù)降維[A];2008'中國(guó)信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 降蘊(yùn)彰;輿情分析師來(lái)了[N];經(jīng)濟(jì)觀察報(bào);2013年
2 福建三明學(xué)院 鄭祥專;教育輿情分析須堅(jiān)持“四性”[N];中國(guó)教育報(bào);2009年
3 記者 王慶華;克旗全面啟動(dòng)法律援助輿情分析工作[N];赤峰日?qǐng)?bào);2010年
4 本報(bào)記者 傅江平;輿情分析為食品安全監(jiān)管提供支撐[N];中國(guó)質(zhì)量報(bào);2012年
5 記者 馬獻(xiàn)忠;“段子文化的輿情分析”課題結(jié)項(xiàng)[N];中國(guó)社會(huì)科學(xué)報(bào);2011年
6 本報(bào)記者 孫艷敏;網(wǎng)絡(luò)輿情分析師:不只是替領(lǐng)導(dǎo)看看網(wǎng)[N];檢察日?qǐng)?bào);2013年
7 記者 魏志強(qiáng) 通訊員 杜勝輝;青工的心情 團(tuán)委的事情[N];中國(guó)石油報(bào);2010年
8 楊麗娟 張音;走近網(wǎng)絡(luò)輿情分析師[N];人民日?qǐng)?bào);2011年
9 于雅倩 本報(bào)記者 王寧;身邊煩惱有地兒說(shuō)[N];丹東日?qǐng)?bào);2009年
10 趙強(qiáng);回應(yīng)輿論關(guān)切 怎能語(yǔ)焉不詳[N];人民日?qǐng)?bào);2014年
相關(guān)博士學(xué)位論文 前1條
1 馮時(shí);面向網(wǎng)絡(luò)輿情分析的觀點(diǎn)挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 姜朋;山東大學(xué)輿情分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山東大學(xué);2015年
2 唐霞;Hadoop調(diào)度器優(yōu)化及其在輿情分析中的應(yīng)用[D];北京化工大學(xué);2015年
3 馮佳明;深度詞匯網(wǎng)絡(luò)學(xué)習(xí)輿情監(jiān)測(cè)關(guān)鍵技術(shù)的研究[D];北京化工大學(xué);2015年
4 王曄;面向輿情分析的skyline查詢技術(shù)研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2013年
5 馬梅;基于大數(shù)據(jù)的網(wǎng)絡(luò)輿情分析系統(tǒng)模型研究[D];西安電子科技大學(xué);2014年
6 高衛(wèi)民;城市公安網(wǎng)絡(luò)輿情分析系統(tǒng)的設(shè)計(jì)與開發(fā)[D];天津大學(xué);2014年
7 黃斯琪;基于微博平臺(tái)的社交網(wǎng)絡(luò)輿情分析方法[D];南京郵電大學(xué);2015年
8 羅晶;校園輿情分析中的意見挖掘技術(shù)研究[D];東南大學(xué);2015年
9 梁超君;大數(shù)據(jù)背景下G政府輿情分析應(yīng)用研究[D];廣東工業(yè)大學(xué);2016年
10 譚造樂;基于Spark的輿情分析架構(gòu)研究[D];廣東工業(yè)大學(xué);2016年
,本文編號(hào):1334636
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1334636.html