基于Hadoop的微博熱點(diǎn)信息的聚類(lèi)提取應(yīng)用研究
本文關(guān)鍵詞:基于Hadoop的微博熱點(diǎn)信息的聚類(lèi)提取應(yīng)用研究
更多相關(guān)文章: 微博 熱點(diǎn)信息 hadoop平臺(tái) 聚類(lèi)提取 主題模型LDA
【摘要】:時(shí)至今日微博已經(jīng)成為人們生活服務(wù)和娛樂(lè)休閑信息分享和交流的主要平臺(tái)。通過(guò)從海量微博數(shù)據(jù)中快速有效的聚類(lèi)提取出相關(guān)的政治、社會(huì)、民生、醫(yī)療等有價(jià)值的微博熱點(diǎn)信息,對(duì)于廣大微博用戶(hù)、政府機(jī)關(guān)以及企業(yè),更加有效地關(guān)注輿情的發(fā)展態(tài)勢(shì),進(jìn)一步對(duì)輿論引導(dǎo)和對(duì)事態(tài)的把控具有重要意義。然而,隨著微博數(shù)據(jù)和用戶(hù)信息的爆炸式增長(zhǎng),用戶(hù)要在海量的微博信息中找到感興趣的熱點(diǎn)話(huà)題越來(lái)越困難。因此,微博熱點(diǎn)信息的聚類(lèi)提取系統(tǒng)也成為微博平臺(tái)上不可或缺的模塊之一。本研究從實(shí)際應(yīng)用的角度出發(fā),主要解決的問(wèn)題是如何高效、快速、準(zhǔn)確地從微博文本庫(kù)中聚類(lèi)提取出用戶(hù)感興趣的熱點(diǎn)信息,以滿(mǎn)足用戶(hù)的需求。本論文的主要研究工作有:1.本文對(duì)微博文本信息特征以及微博的交互性特點(diǎn)和特有架構(gòu)進(jìn)行了分析和研究,并且根據(jù)微博發(fā)表的時(shí)間,提出了微博隨著發(fā)表的時(shí)間衰減度算法。2.對(duì)主題概率模型的思想進(jìn)行了分析與研究,并且基于概率主題模型LDA的概率主題計(jì)算公式提取出概率主題集合,進(jìn)行系統(tǒng)建模,同時(shí)將TF-IDF算法、及改進(jìn)算法和余弦系數(shù)相似度算法,應(yīng)用到微博熱點(diǎn)信息的聚類(lèi)提取計(jì)算中去,實(shí)現(xiàn)了微博熱點(diǎn)詞元和熱點(diǎn)話(huà)題的提取。3.通過(guò)將發(fā)表該條微博的用戶(hù)在當(dāng)前時(shí)刻的總關(guān)注人數(shù)和某個(gè)話(huà)題在各條微博中的出現(xiàn)概率值乘積的計(jì)算結(jié)果作為該話(huà)題的熱度值,同時(shí)借鑒了一種有效的關(guān)聯(lián)度算法,將熱點(diǎn)詞元和熱點(diǎn)話(huà)題進(jìn)行關(guān)聯(lián)。將最終的關(guān)聯(lián)結(jié)果推薦給用戶(hù)。4.詳細(xì)地研究了Hadoop云計(jì)算平臺(tái)的關(guān)鍵技術(shù),通過(guò)基于Hadoop云計(jì)算平臺(tái)進(jìn)行仿真實(shí)驗(yàn),將實(shí)驗(yàn)提取出的微博熱點(diǎn)話(huà)題結(jié)果應(yīng)用準(zhǔn)確率、召回率以及F1值等評(píng)價(jià)標(biāo)準(zhǔn)對(duì)進(jìn)行了驗(yàn)證,證明了算法的有效性。同時(shí),實(shí)驗(yàn)結(jié)果表明在hadoop平臺(tái)下可以有效的解決處理海量微博數(shù)據(jù)的性能瓶頸問(wèn)題,充分利用分布式并行及虛擬化技術(shù)的優(yōu)勢(shì),顯著提升運(yùn)算效率。
【關(guān)鍵詞】:微博 熱點(diǎn)信息 hadoop平臺(tái) 聚類(lèi)提取 主題模型LDA
【學(xué)位授予單位】:內(nèi)蒙古農(nóng)業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1;TP393.092
【目錄】:
- 摘要3-4
- Abstract4-10
- 1 引言10-15
- 1.1 研究背景和意義10-12
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-13
- 1.2.1 國(guó)外研究現(xiàn)狀12
- 1.2.2 國(guó)內(nèi)研究現(xiàn)狀12-13
- 1.3 論文結(jié)構(gòu)13-14
- 1.4 本章小結(jié)14-15
- 2 相關(guān)工作與技術(shù)綜述15-21
- 2.1 微博文本特征表示15
- 2.2 分詞處理15
- 2.3 概率主題模型應(yīng)用思想及以微博為研究對(duì)象的建模應(yīng)用15-16
- 2.4 LDA概率模型思想簡(jiǎn)介及以微博為研究對(duì)象的建模應(yīng)用16-17
- 2.5 文本熱點(diǎn)詞元提取算法17-19
- 2.5.1 TF-IDF公式原理18
- 2.5.2 微博主題特征詞的提取算法18-19
- 2.6 相似度計(jì)算及聚類(lèi)算法19
- 2.7 本章小結(jié)19-21
- 3 微博熱點(diǎn)信息聚類(lèi)提取計(jì)算21-26
- 3.1 微博發(fā)表日期及衰減度計(jì)算21
- 3.2 基于LDA模型的微博文本內(nèi)容的相似度計(jì)算及聚類(lèi)分析21-24
- 3.3 基于微博用戶(hù)影響力因素對(duì)微博熱度值的計(jì)算24
- 3.4 微博熱點(diǎn)話(huà)題的關(guān)聯(lián)及推薦24-25
- 3.5 本章小結(jié)25-26
- 4 Hadoop云計(jì)算平臺(tái)關(guān)鍵技術(shù)簡(jiǎn)介及微博熱點(diǎn)信息聚類(lèi)提取的實(shí)現(xiàn)26-39
- 4.1 Hadoop云計(jì)算平臺(tái)概念及發(fā)展趨勢(shì)26-27
- 4.2 分布式文件系統(tǒng)架構(gòu)27-29
- 4.3 分布式數(shù)據(jù)處理-MapReduce及實(shí)現(xiàn)機(jī)制29-30
- 4.4 MapReduce編程模型30-31
- 4.5 基于Hadoop平臺(tái)的微博熱點(diǎn)信息聚類(lèi)提取的研究與實(shí)現(xiàn)31-38
- 4.5.1 統(tǒng)計(jì)每條微博中單詞的出現(xiàn)次數(shù)34
- 4.5.2 計(jì)算微博單詞詞頻TF34
- 4.5.3 計(jì)算微博單詞的TF-IDF值34-35
- 4.5.4 計(jì)算主題特征詞的權(quán)重35
- 4.5.5 基于概率主題模型LDA的微博文本信息的相似度計(jì)算實(shí)現(xiàn)35-37
- 4.5.6 基于微博用戶(hù)影響力計(jì)算微博的熱度值37
- 4.5.7 熱點(diǎn)詞元與話(huà)題的關(guān)聯(lián)計(jì)算37-38
- 4.6 本章小結(jié)38-39
- 5 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析39-46
- 5.1 云計(jì)算平臺(tái)搭建硬件解決方案39
- 5.2 微博實(shí)驗(yàn)數(shù)據(jù)獲取39
- 5.3 實(shí)驗(yàn)設(shè)計(jì)39-40
- 5.3.1 評(píng)價(jià)標(biāo)準(zhǔn)39-40
- 5.3.2 分詞處理40
- 5.4 實(shí)驗(yàn)結(jié)果40-44
- 5.4.1 基于模型LDA的微博熱點(diǎn)信息聚類(lèi)提取結(jié)果評(píng)價(jià)40-42
- 5.4.2 基于Hadoop云計(jì)算平臺(tái)對(duì)算法效率提升的結(jié)果評(píng)價(jià)42-44
- 5.5 本章小結(jié)44-46
- 6 總結(jié)與展望46-48
- 6.1 總結(jié)46-47
- 6.2 展望47-48
- 致謝48-49
- 參考文獻(xiàn)49-51
- 作者簡(jiǎn)介51
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 孫衛(wèi)華;張慶永;;微博客傳播形態(tài)解析[J];傳媒觀(guān)察;2008年10期
2 高學(xué)東;吳玲玉;;基于高維聚類(lèi)技術(shù)的中文關(guān)鍵詞提取算法[J];中國(guó)管理信息化;2011年09期
3 林大云;;基于Hadoop的微博信息挖掘[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2012年01期
4 程苗;陳華平;;基于Hadoop的Web日志挖掘[J];計(jì)算機(jī)工程;2011年11期
5 吳顏;沈潔;顧天竺;陳曉紅;李慧;張舒;;協(xié)同過(guò)濾推薦系統(tǒng)中數(shù)據(jù)稀疏問(wèn)題的解決[J];計(jì)算機(jī)應(yīng)用研究;2007年06期
6 張曉艷;王挺;;話(huà)題發(fā)現(xiàn)與追蹤技術(shù)研究[J];計(jì)算機(jī)科學(xué)與探索;2009年04期
7 李勇;張克亮;李偉剛;;基于微博的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)[J];計(jì)算技術(shù)與自動(dòng)化;2013年02期
8 田鵬;王偉軍;劉蕤;;Web2.0技術(shù)應(yīng)用對(duì)知識(shí)分享行為影響研究[J];情報(bào)科學(xué);2011年05期
9 談成訪(fǎng);汪材印;張亞康;;基于LDA模型的中文微博熱點(diǎn)話(huà)題發(fā)現(xiàn)[J];宿州學(xué)院學(xué)報(bào);2014年04期
10 陳彥舟;曹金璇;;基于Hadoop的微博輿情監(jiān)控系統(tǒng)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年04期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條
1 孫勝平;中文微博客熱點(diǎn)話(huà)題檢測(cè)與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年
2 左曉娜;微博的傳播機(jī)制及影響力研究[D];陜西師范大學(xué);2011年
3 臺(tái)德藝;基于特征權(quán)重算法的文本分類(lèi)研究[D];合肥工業(yè)大學(xué);2007年
4 林洋港;概率主題模型在文本分類(lèi)中的應(yīng)用研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
5 顧濤;基于Hadoop的Web信息提取和垃圾信息過(guò)濾研究與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
6 張可;微博語(yǔ)言特征研究[D];陜西師范大學(xué);2012年
7 朱亞濤;基于微博平臺(tái)的信息推薦技術(shù)研究[D];首都師范大學(xué);2013年
8 李妍;微博數(shù)據(jù)預(yù)處理及話(huà)題檢測(cè)方法研究[D];河北師范大學(xué);2014年
,本文編號(hào):925970
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/925970.html