基于Hadoop的微博熱點信息的聚類提取應用研究
本文關鍵詞:基于Hadoop的微博熱點信息的聚類提取應用研究
更多相關文章: 微博 熱點信息 hadoop平臺 聚類提取 主題模型LDA
【摘要】:時至今日微博已經(jīng)成為人們生活服務和娛樂休閑信息分享和交流的主要平臺。通過從海量微博數(shù)據(jù)中快速有效的聚類提取出相關的政治、社會、民生、醫(yī)療等有價值的微博熱點信息,對于廣大微博用戶、政府機關以及企業(yè),更加有效地關注輿情的發(fā)展態(tài)勢,進一步對輿論引導和對事態(tài)的把控具有重要意義。然而,隨著微博數(shù)據(jù)和用戶信息的爆炸式增長,用戶要在海量的微博信息中找到感興趣的熱點話題越來越困難。因此,微博熱點信息的聚類提取系統(tǒng)也成為微博平臺上不可或缺的模塊之一。本研究從實際應用的角度出發(fā),主要解決的問題是如何高效、快速、準確地從微博文本庫中聚類提取出用戶感興趣的熱點信息,以滿足用戶的需求。本論文的主要研究工作有:1.本文對微博文本信息特征以及微博的交互性特點和特有架構(gòu)進行了分析和研究,并且根據(jù)微博發(fā)表的時間,提出了微博隨著發(fā)表的時間衰減度算法。2.對主題概率模型的思想進行了分析與研究,并且基于概率主題模型LDA的概率主題計算公式提取出概率主題集合,進行系統(tǒng)建模,同時將TF-IDF算法、及改進算法和余弦系數(shù)相似度算法,應用到微博熱點信息的聚類提取計算中去,實現(xiàn)了微博熱點詞元和熱點話題的提取。3.通過將發(fā)表該條微博的用戶在當前時刻的總關注人數(shù)和某個話題在各條微博中的出現(xiàn)概率值乘積的計算結(jié)果作為該話題的熱度值,同時借鑒了一種有效的關聯(lián)度算法,將熱點詞元和熱點話題進行關聯(lián)。將最終的關聯(lián)結(jié)果推薦給用戶。4.詳細地研究了Hadoop云計算平臺的關鍵技術(shù),通過基于Hadoop云計算平臺進行仿真實驗,將實驗提取出的微博熱點話題結(jié)果應用準確率、召回率以及F1值等評價標準對進行了驗證,證明了算法的有效性。同時,實驗結(jié)果表明在hadoop平臺下可以有效的解決處理海量微博數(shù)據(jù)的性能瓶頸問題,充分利用分布式并行及虛擬化技術(shù)的優(yōu)勢,顯著提升運算效率。
【關鍵詞】:微博 熱點信息 hadoop平臺 聚類提取 主題模型LDA
【學位授予單位】:內(nèi)蒙古農(nóng)業(yè)大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP391.1;TP393.092
【目錄】:
- 摘要3-4
- Abstract4-10
- 1 引言10-15
- 1.1 研究背景和意義10-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-13
- 1.2.1 國外研究現(xiàn)狀12
- 1.2.2 國內(nèi)研究現(xiàn)狀12-13
- 1.3 論文結(jié)構(gòu)13-14
- 1.4 本章小結(jié)14-15
- 2 相關工作與技術(shù)綜述15-21
- 2.1 微博文本特征表示15
- 2.2 分詞處理15
- 2.3 概率主題模型應用思想及以微博為研究對象的建模應用15-16
- 2.4 LDA概率模型思想簡介及以微博為研究對象的建模應用16-17
- 2.5 文本熱點詞元提取算法17-19
- 2.5.1 TF-IDF公式原理18
- 2.5.2 微博主題特征詞的提取算法18-19
- 2.6 相似度計算及聚類算法19
- 2.7 本章小結(jié)19-21
- 3 微博熱點信息聚類提取計算21-26
- 3.1 微博發(fā)表日期及衰減度計算21
- 3.2 基于LDA模型的微博文本內(nèi)容的相似度計算及聚類分析21-24
- 3.3 基于微博用戶影響力因素對微博熱度值的計算24
- 3.4 微博熱點話題的關聯(lián)及推薦24-25
- 3.5 本章小結(jié)25-26
- 4 Hadoop云計算平臺關鍵技術(shù)簡介及微博熱點信息聚類提取的實現(xiàn)26-39
- 4.1 Hadoop云計算平臺概念及發(fā)展趨勢26-27
- 4.2 分布式文件系統(tǒng)架構(gòu)27-29
- 4.3 分布式數(shù)據(jù)處理-MapReduce及實現(xiàn)機制29-30
- 4.4 MapReduce編程模型30-31
- 4.5 基于Hadoop平臺的微博熱點信息聚類提取的研究與實現(xiàn)31-38
- 4.5.1 統(tǒng)計每條微博中單詞的出現(xiàn)次數(shù)34
- 4.5.2 計算微博單詞詞頻TF34
- 4.5.3 計算微博單詞的TF-IDF值34-35
- 4.5.4 計算主題特征詞的權(quán)重35
- 4.5.5 基于概率主題模型LDA的微博文本信息的相似度計算實現(xiàn)35-37
- 4.5.6 基于微博用戶影響力計算微博的熱度值37
- 4.5.7 熱點詞元與話題的關聯(lián)計算37-38
- 4.6 本章小結(jié)38-39
- 5 實驗設計及結(jié)果分析39-46
- 5.1 云計算平臺搭建硬件解決方案39
- 5.2 微博實驗數(shù)據(jù)獲取39
- 5.3 實驗設計39-40
- 5.3.1 評價標準39-40
- 5.3.2 分詞處理40
- 5.4 實驗結(jié)果40-44
- 5.4.1 基于模型LDA的微博熱點信息聚類提取結(jié)果評價40-42
- 5.4.2 基于Hadoop云計算平臺對算法效率提升的結(jié)果評價42-44
- 5.5 本章小結(jié)44-46
- 6 總結(jié)與展望46-48
- 6.1 總結(jié)46-47
- 6.2 展望47-48
- 致謝48-49
- 參考文獻49-51
- 作者簡介51
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 孫衛(wèi)華;張慶永;;微博客傳播形態(tài)解析[J];傳媒觀察;2008年10期
2 高學東;吳玲玉;;基于高維聚類技術(shù)的中文關鍵詞提取算法[J];中國管理信息化;2011年09期
3 林大云;;基于Hadoop的微博信息挖掘[J];計算機光盤軟件與應用;2012年01期
4 程苗;陳華平;;基于Hadoop的Web日志挖掘[J];計算機工程;2011年11期
5 吳顏;沈潔;顧天竺;陳曉紅;李慧;張舒;;協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏問題的解決[J];計算機應用研究;2007年06期
6 張曉艷;王挺;;話題發(fā)現(xiàn)與追蹤技術(shù)研究[J];計算機科學與探索;2009年04期
7 李勇;張克亮;李偉剛;;基于微博的網(wǎng)絡輿情分析系統(tǒng)設計[J];計算技術(shù)與自動化;2013年02期
8 田鵬;王偉軍;劉蕤;;Web2.0技術(shù)應用對知識分享行為影響研究[J];情報科學;2011年05期
9 談成訪;汪材印;張亞康;;基于LDA模型的中文微博熱點話題發(fā)現(xiàn)[J];宿州學院學報;2014年04期
10 陳彥舟;曹金璇;;基于Hadoop的微博輿情監(jiān)控系統(tǒng)[J];計算機系統(tǒng)應用;2013年04期
中國碩士學位論文全文數(shù)據(jù)庫 前8條
1 孫勝平;中文微博客熱點話題檢測與跟蹤技術(shù)研究[D];北京交通大學;2011年
2 左曉娜;微博的傳播機制及影響力研究[D];陜西師范大學;2011年
3 臺德藝;基于特征權(quán)重算法的文本分類研究[D];合肥工業(yè)大學;2007年
4 林洋港;概率主題模型在文本分類中的應用研究[D];中國科學技術(shù)大學;2009年
5 顧濤;基于Hadoop的Web信息提取和垃圾信息過濾研究與實現(xiàn)[D];電子科技大學;2012年
6 張可;微博語言特征研究[D];陜西師范大學;2012年
7 朱亞濤;基于微博平臺的信息推薦技術(shù)研究[D];首都師范大學;2013年
8 李妍;微博數(shù)據(jù)預處理及話題檢測方法研究[D];河北師范大學;2014年
,本文編號:925970
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/925970.html