基于Hadoop的微博熱點信息的聚類提取應用研究

發(fā)布時間：2017-09-26 22:06

本文關鍵詞：基于Hadoop的微博熱點信息的聚類提取應用研究

【摘要】：時至今日微博已經(jīng)成為人們生活服務和娛樂休閑信息分享和交流的主要平臺。通過從海量微博數(shù)據(jù)中快速有效的聚類提取出相關的政治、社會、民生、醫(yī)療等有價值的微博熱點信息,對于廣大微博用戶、政府機關以及企業(yè),更加有效地關注輿情的發(fā)展態(tài)勢,進一步對輿論引導和對事態(tài)的把控具有重要意義。然而,隨著微博數(shù)據(jù)和用戶信息的爆炸式增長,用戶要在海量的微博信息中找到感興趣的熱點話題越來越困難。因此,微博熱點信息的聚類提取系統(tǒng)也成為微博平臺上不可或缺的模塊之一。本研究從實際應用的角度出發(fā),主要解決的問題是如何高效、快速、準確地從微博文本庫中聚類提取出用戶感興趣的熱點信息,以滿足用戶的需求。本論文的主要研究工作有：1.本文對微博文本信息特征以及微博的交互性特點和特有架構(gòu)進行了分析和研究,并且根據(jù)微博發(fā)表的時間,提出了微博隨著發(fā)表的時間衰減度算法。2.對主題概率模型的思想進行了分析與研究,并且基于概率主題模型LDA的概率主題計算公式提取出概率主題集合,進行系統(tǒng)建模,同時將TF-IDF算法、及改進算法和余弦系數(shù)相似度算法,應用到微博熱點信息的聚類提取計算中去,實現(xiàn)了微博熱點詞元和熱點話題的提取。3.通過將發(fā)表該條微博的用戶在當前時刻的總關注人數(shù)和某個話題在各條微博中的出現(xiàn)概率值乘積的計算結(jié)果作為該話題的熱度值,同時借鑒了一種有效的關聯(lián)度算法,將熱點詞元和熱點話題進行關聯(lián)。將最終的關聯(lián)結(jié)果推薦給用戶。4.詳細地研究了Hadoop云計算平臺的關鍵技術(shù),通過基于Hadoop云計算平臺進行仿真實驗,將實驗提取出的微博熱點話題結(jié)果應用準確率、召回率以及F1值等評價標準對進行了驗證,證明了算法的有效性。同時,實驗結(jié)果表明在hadoop平臺下可以有效的解決處理海量微博數(shù)據(jù)的性能瓶頸問題,充分利用分布式并行及虛擬化技術(shù)的優(yōu)勢,顯著提升運算效率。
【關鍵詞】：微博 熱點信息 hadoop平臺 聚類提取 主題模型LDA
【學位授予單位】：內(nèi)蒙古農(nóng)業(yè)大學
【學位級別】：碩士
【學位授予年份】：2015
【分類號】：TP391.1;TP393.092
【目錄】：

摘要3-4
Abstract4-10
1 引言10-15
1.1 研究背景和意義10-12
1.2 國內(nèi)外研究現(xiàn)狀12-13
1.2.1 國外研究現(xiàn)狀12
1.2.2 國內(nèi)研究現(xiàn)狀12-13
1.3 論文結(jié)構(gòu)13-14
1.4 本章小結(jié)14-15
2 相關工作與技術(shù)綜述15-21
2.1 微博文本特征表示15
2.2 分詞處理15
2.3 概率主題模型應用思想及以微博為研究對象的建模應用15-16
2.4 LDA概率模型思想簡介及以微博為研究對象的建模應用16-17
2.5 文本熱點詞元提取算法17-19
2.5.1 TF-IDF公式原理18
2.5.2 微博主題特征詞的提取算法18-19
2.6 相似度計算及聚類算法19
2.7 本章小結(jié)19-21
3 微博熱點信息聚類提取計算21-26
3.1 微博發(fā)表日期及衰減度計算21
3.2 基于LDA模型的微博文本內(nèi)容的相似度計算及聚類分析21-24
3.3 基于微博用戶影響力因素對微博熱度值的計算24
3.4 微博熱點話題的關聯(lián)及推薦24-25
3.5 本章小結(jié)25-26
4 Hadoop云計算平臺關鍵技術(shù)簡介及微博熱點信息聚類提取的實現(xiàn)26-39
4.1 Hadoop云計算平臺概念及發(fā)展趨勢26-27
4.2 分布式文件系統(tǒng)架構(gòu)27-29
4.3 分布式數(shù)據(jù)處理-MapReduce及實現(xiàn)機制29-30
4.4 MapReduce編程模型30-31
4.5 基于Hadoop平臺的微博熱點信息聚類提取的研究與實現(xiàn)31-38
4.5.1 統(tǒng)計每條微博中單詞的出現(xiàn)次數(shù)34
4.5.2 計算微博單詞詞頻TF34
4.5.3 計算微博單詞的TF-IDF值34-35
4.5.4 計算主題特征詞的權(quán)重35
4.5.5 基于概率主題模型LDA的微博文本信息的相似度計算實現(xiàn)35-37
4.5.6 基于微博用戶影響力計算微博的熱度值37
4.5.7 熱點詞元與話題的關聯(lián)計算37-38
4.6 本章小結(jié)38-39
5 實驗設計及結(jié)果分析39-46
5.1 云計算平臺搭建硬件解決方案39
5.2 微博實驗數(shù)據(jù)獲取39
5.3 實驗設計39-40
5.3.1 評價標準39-40
5.3.2 分詞處理40
5.4 實驗結(jié)果40-44
5.4.1 基于模型LDA的微博熱點信息聚類提取結(jié)果評價40-42
5.4.2 基于Hadoop云計算平臺對算法效率提升的結(jié)果評價42-44
5.5 本章小結(jié)44-46
6 總結(jié)與展望46-48
6.1 總結(jié)46-47
6.2 展望47-48
致謝48-49
參考文獻49-51
作者簡介51

【參考文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 孫衛(wèi)華;張慶永;;微博客傳播形態(tài)解析[J];傳媒觀察;2008年10期

2 高學東;吳玲玉;;基于高維聚類技術(shù)的中文關鍵詞提取算法[J];中國管理信息化;2011年09期

3 林大云;;基于Hadoop的微博信息挖掘[J];計算機光盤軟件與應用;2012年01期

4 程苗;陳華平;;基于Hadoop的Web日志挖掘[J];計算機工程;2011年11期

5 吳顏;沈潔;顧天竺;陳曉紅;李慧;張舒;;協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決[J];計算機應用研究;2007年06期

6 張曉艷;王挺;;話題發(fā)現(xiàn)與追蹤技術(shù)研究[J];計算機科學與探索;2009年04期

7 李勇;張克亮;李偉剛;;基于微博的網(wǎng)絡輿情分析系統(tǒng)設計[J];計算技術(shù)與自動化;2013年02期

8 田鵬;王偉軍;劉蕤;;Web2.0技術(shù)應用對知識分享行為影響研究[J];情報科學;2011年05期

9 談成訪;汪材印;張亞康;;基于LDA模型的中文微博熱點話題發(fā)現(xiàn)[J];宿州學院學報;2014年04期

10 陳彥舟;曹金璇;;基于Hadoop的微博輿情監(jiān)控系統(tǒng)[J];計算機系統(tǒng)應用;2013年04期

中國碩士學位論文全文數(shù)據(jù)庫前8條

1 孫勝平;中文微博客熱點話題檢測與跟蹤技術(shù)研究[D];北京交通大學;2011年

2 左曉娜;微博的傳播機制及影響力研究[D];陜西師范大學;2011年

3 臺德藝;基于特征權(quán)重算法的文本分類研究[D];合肥工業(yè)大學;2007年

4 林洋港;概率主題模型在文本分類中的應用研究[D];中國科學技術(shù)大學;2009年

5 顧濤;基于Hadoop的Web信息提取和垃圾信息過濾研究與實現(xiàn)[D];電子科技大學;2012年

6 張可;微博語言特征研究[D];陜西師范大學;2012年

7 朱亞濤;基于微博平臺的信息推薦技術(shù)研究[D];首都師范大學;2013年

8 李妍;微博數(shù)據(jù)預處理及話題檢測方法研究[D];河北師范大學;2014年

，

本文編號：925970

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/ydhl/925970.html

上一篇：基于ε-SVR工業(yè)網(wǎng)絡時延的測量與預測
下一篇：一種基于語義的RESTful Web服務匹配模型

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的微博熱點信息的聚類提取應用研究