天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的微博熱點(diǎn)信息的聚類(lèi)提取應(yīng)用研究

發(fā)布時(shí)間:2017-09-26 22:06

  本文關(guān)鍵詞:基于Hadoop的微博熱點(diǎn)信息的聚類(lèi)提取應(yīng)用研究


  更多相關(guān)文章: 微博 熱點(diǎn)信息 hadoop平臺(tái) 聚類(lèi)提取 主題模型LDA


【摘要】:時(shí)至今日微博已經(jīng)成為人們生活服務(wù)和娛樂(lè)休閑信息分享和交流的主要平臺(tái)。通過(guò)從海量微博數(shù)據(jù)中快速有效的聚類(lèi)提取出相關(guān)的政治、社會(huì)、民生、醫(yī)療等有價(jià)值的微博熱點(diǎn)信息,對(duì)于廣大微博用戶(hù)、政府機(jī)關(guān)以及企業(yè),更加有效地關(guān)注輿情的發(fā)展態(tài)勢(shì),進(jìn)一步對(duì)輿論引導(dǎo)和對(duì)事態(tài)的把控具有重要意義。然而,隨著微博數(shù)據(jù)和用戶(hù)信息的爆炸式增長(zhǎng),用戶(hù)要在海量的微博信息中找到感興趣的熱點(diǎn)話(huà)題越來(lái)越困難。因此,微博熱點(diǎn)信息的聚類(lèi)提取系統(tǒng)也成為微博平臺(tái)上不可或缺的模塊之一。本研究從實(shí)際應(yīng)用的角度出發(fā),主要解決的問(wèn)題是如何高效、快速、準(zhǔn)確地從微博文本庫(kù)中聚類(lèi)提取出用戶(hù)感興趣的熱點(diǎn)信息,以滿(mǎn)足用戶(hù)的需求。本論文的主要研究工作有:1.本文對(duì)微博文本信息特征以及微博的交互性特點(diǎn)和特有架構(gòu)進(jìn)行了分析和研究,并且根據(jù)微博發(fā)表的時(shí)間,提出了微博隨著發(fā)表的時(shí)間衰減度算法。2.對(duì)主題概率模型的思想進(jìn)行了分析與研究,并且基于概率主題模型LDA的概率主題計(jì)算公式提取出概率主題集合,進(jìn)行系統(tǒng)建模,同時(shí)將TF-IDF算法、及改進(jìn)算法和余弦系數(shù)相似度算法,應(yīng)用到微博熱點(diǎn)信息的聚類(lèi)提取計(jì)算中去,實(shí)現(xiàn)了微博熱點(diǎn)詞元和熱點(diǎn)話(huà)題的提取。3.通過(guò)將發(fā)表該條微博的用戶(hù)在當(dāng)前時(shí)刻的總關(guān)注人數(shù)和某個(gè)話(huà)題在各條微博中的出現(xiàn)概率值乘積的計(jì)算結(jié)果作為該話(huà)題的熱度值,同時(shí)借鑒了一種有效的關(guān)聯(lián)度算法,將熱點(diǎn)詞元和熱點(diǎn)話(huà)題進(jìn)行關(guān)聯(lián)。將最終的關(guān)聯(lián)結(jié)果推薦給用戶(hù)。4.詳細(xì)地研究了Hadoop云計(jì)算平臺(tái)的關(guān)鍵技術(shù),通過(guò)基于Hadoop云計(jì)算平臺(tái)進(jìn)行仿真實(shí)驗(yàn),將實(shí)驗(yàn)提取出的微博熱點(diǎn)話(huà)題結(jié)果應(yīng)用準(zhǔn)確率、召回率以及F1值等評(píng)價(jià)標(biāo)準(zhǔn)對(duì)進(jìn)行了驗(yàn)證,證明了算法的有效性。同時(shí),實(shí)驗(yàn)結(jié)果表明在hadoop平臺(tái)下可以有效的解決處理海量微博數(shù)據(jù)的性能瓶頸問(wèn)題,充分利用分布式并行及虛擬化技術(shù)的優(yōu)勢(shì),顯著提升運(yùn)算效率。
【關(guān)鍵詞】:微博 熱點(diǎn)信息 hadoop平臺(tái) 聚類(lèi)提取 主題模型LDA
【學(xué)位授予單位】:內(nèi)蒙古農(nóng)業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP391.1;TP393.092
【目錄】:
  • 摘要3-4
  • Abstract4-10
  • 1 引言10-15
  • 1.1 研究背景和意義10-12
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀12-13
  • 1.2.1 國(guó)外研究現(xiàn)狀12
  • 1.2.2 國(guó)內(nèi)研究現(xiàn)狀12-13
  • 1.3 論文結(jié)構(gòu)13-14
  • 1.4 本章小結(jié)14-15
  • 2 相關(guān)工作與技術(shù)綜述15-21
  • 2.1 微博文本特征表示15
  • 2.2 分詞處理15
  • 2.3 概率主題模型應(yīng)用思想及以微博為研究對(duì)象的建模應(yīng)用15-16
  • 2.4 LDA概率模型思想簡(jiǎn)介及以微博為研究對(duì)象的建模應(yīng)用16-17
  • 2.5 文本熱點(diǎn)詞元提取算法17-19
  • 2.5.1 TF-IDF公式原理18
  • 2.5.2 微博主題特征詞的提取算法18-19
  • 2.6 相似度計(jì)算及聚類(lèi)算法19
  • 2.7 本章小結(jié)19-21
  • 3 微博熱點(diǎn)信息聚類(lèi)提取計(jì)算21-26
  • 3.1 微博發(fā)表日期及衰減度計(jì)算21
  • 3.2 基于LDA模型的微博文本內(nèi)容的相似度計(jì)算及聚類(lèi)分析21-24
  • 3.3 基于微博用戶(hù)影響力因素對(duì)微博熱度值的計(jì)算24
  • 3.4 微博熱點(diǎn)話(huà)題的關(guān)聯(lián)及推薦24-25
  • 3.5 本章小結(jié)25-26
  • 4 Hadoop云計(jì)算平臺(tái)關(guān)鍵技術(shù)簡(jiǎn)介及微博熱點(diǎn)信息聚類(lèi)提取的實(shí)現(xiàn)26-39
  • 4.1 Hadoop云計(jì)算平臺(tái)概念及發(fā)展趨勢(shì)26-27
  • 4.2 分布式文件系統(tǒng)架構(gòu)27-29
  • 4.3 分布式數(shù)據(jù)處理-MapReduce及實(shí)現(xiàn)機(jī)制29-30
  • 4.4 MapReduce編程模型30-31
  • 4.5 基于Hadoop平臺(tái)的微博熱點(diǎn)信息聚類(lèi)提取的研究與實(shí)現(xiàn)31-38
  • 4.5.1 統(tǒng)計(jì)每條微博中單詞的出現(xiàn)次數(shù)34
  • 4.5.2 計(jì)算微博單詞詞頻TF34
  • 4.5.3 計(jì)算微博單詞的TF-IDF值34-35
  • 4.5.4 計(jì)算主題特征詞的權(quán)重35
  • 4.5.5 基于概率主題模型LDA的微博文本信息的相似度計(jì)算實(shí)現(xiàn)35-37
  • 4.5.6 基于微博用戶(hù)影響力計(jì)算微博的熱度值37
  • 4.5.7 熱點(diǎn)詞元與話(huà)題的關(guān)聯(lián)計(jì)算37-38
  • 4.6 本章小結(jié)38-39
  • 5 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析39-46
  • 5.1 云計(jì)算平臺(tái)搭建硬件解決方案39
  • 5.2 微博實(shí)驗(yàn)數(shù)據(jù)獲取39
  • 5.3 實(shí)驗(yàn)設(shè)計(jì)39-40
  • 5.3.1 評(píng)價(jià)標(biāo)準(zhǔn)39-40
  • 5.3.2 分詞處理40
  • 5.4 實(shí)驗(yàn)結(jié)果40-44
  • 5.4.1 基于模型LDA的微博熱點(diǎn)信息聚類(lèi)提取結(jié)果評(píng)價(jià)40-42
  • 5.4.2 基于Hadoop云計(jì)算平臺(tái)對(duì)算法效率提升的結(jié)果評(píng)價(jià)42-44
  • 5.5 本章小結(jié)44-46
  • 6 總結(jié)與展望46-48
  • 6.1 總結(jié)46-47
  • 6.2 展望47-48
  • 致謝48-49
  • 參考文獻(xiàn)49-51
  • 作者簡(jiǎn)介51

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 孫衛(wèi)華;張慶永;;微博客傳播形態(tài)解析[J];傳媒觀(guān)察;2008年10期

2 高學(xué)東;吳玲玉;;基于高維聚類(lèi)技術(shù)的中文關(guān)鍵詞提取算法[J];中國(guó)管理信息化;2011年09期

3 林大云;;基于Hadoop的微博信息挖掘[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2012年01期

4 程苗;陳華平;;基于Hadoop的Web日志挖掘[J];計(jì)算機(jī)工程;2011年11期

5 吳顏;沈潔;顧天竺;陳曉紅;李慧;張舒;;協(xié)同過(guò)濾推薦系統(tǒng)中數(shù)據(jù)稀疏問(wèn)題的解決[J];計(jì)算機(jī)應(yīng)用研究;2007年06期

6 張曉艷;王挺;;話(huà)題發(fā)現(xiàn)與追蹤技術(shù)研究[J];計(jì)算機(jī)科學(xué)與探索;2009年04期

7 李勇;張克亮;李偉剛;;基于微博的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)[J];計(jì)算技術(shù)與自動(dòng)化;2013年02期

8 田鵬;王偉軍;劉蕤;;Web2.0技術(shù)應(yīng)用對(duì)知識(shí)分享行為影響研究[J];情報(bào)科學(xué);2011年05期

9 談成訪(fǎng);汪材印;張亞康;;基于LDA模型的中文微博熱點(diǎn)話(huà)題發(fā)現(xiàn)[J];宿州學(xué)院學(xué)報(bào);2014年04期

10 陳彥舟;曹金璇;;基于Hadoop的微博輿情監(jiān)控系統(tǒng)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2013年04期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前8條

1 孫勝平;中文微博客熱點(diǎn)話(huà)題檢測(cè)與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年

2 左曉娜;微博的傳播機(jī)制及影響力研究[D];陜西師范大學(xué);2011年

3 臺(tái)德藝;基于特征權(quán)重算法的文本分類(lèi)研究[D];合肥工業(yè)大學(xué);2007年

4 林洋港;概率主題模型在文本分類(lèi)中的應(yīng)用研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年

5 顧濤;基于Hadoop的Web信息提取和垃圾信息過(guò)濾研究與實(shí)現(xiàn)[D];電子科技大學(xué);2012年

6 張可;微博語(yǔ)言特征研究[D];陜西師范大學(xué);2012年

7 朱亞濤;基于微博平臺(tái)的信息推薦技術(shù)研究[D];首都師范大學(xué);2013年

8 李妍;微博數(shù)據(jù)預(yù)處理及話(huà)題檢測(cè)方法研究[D];河北師范大學(xué);2014年

,

本文編號(hào):925970

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/925970.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)b5a53***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
大尺度剧情国产在线视频| 九九热九九热九九热九九热| 成年人免费看国产视频| 中文字幕一区二区熟女| 久久人人爽人人爽大片av| 99国产高清不卡视频| 中文字幕一区二区三区大片| 久久精品福利在线观看| 五月天综合网五月天综合网| 免费一区二区三区少妇| 伊人久久青草地婷婷综合| 99热九九在线中文字幕| 欧美日韩校园春色激情偷拍| 国产精品激情在线观看| 日韩偷拍精品一区二区三区| 成人午夜激情在线免费观看| 国产亚洲精品久久久优势| 91精品国产综合久久精品| 国产欧美一区二区久久| 丝袜美女诱惑在线观看| 亚洲国产精品久久综合网| 黄色污污在线免费观看| 男女午夜福利院在线观看 | 国产一区日韩二区欧美| 日韩一本不卡在线观看| 有坂深雪中文字幕亚洲中文| 天堂av一区一区一区| 国产免费自拍黄片免费看| 欧美大黄片在线免费观看| 少妇人妻中出中文字幕| 亚洲天堂精品1024| 免费在线成人午夜视频 | 欧美日韩国产综合在线| 色婷婷久久五月中文字幕| 激情内射日本一区二区三区| 三级高清有码在线观看| 国产偷拍精品在线视频| 国产一区二区三中文字幕 | 在线免费观看一二区视频| 日本人妻免费一区二区三区| 国产中文字幕一二三区|