天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 文藝論文 > 廣告藝術(shù)論文 >

微博熱點話題感知關(guān)鍵技術(shù)的研究

發(fā)布時間:2017-05-26 13:16

  本文關(guān)鍵詞:微博熱點話題感知關(guān)鍵技術(shù)的研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:微博平臺作為WEB2.0時代的新產(chǎn)物,近年來發(fā)展迅速,已經(jīng)成為了社會輿情傳播的重要載體。對微博上輿論信息的挖掘、提取、分析和監(jiān)管也就成了重中之重。微博熱點話題感知不但可以挖掘熱點詞匯、熱門事件,還能了解社會動態(tài)和民心所向,具有很強的社會意義和現(xiàn)實意義。 本文的主要工作如下: (1)針對微博文本中存在著的大量廣告微博和其余噪聲微博,本文在文本聚類模塊之前加入了廣告過濾模塊和噪聲過濾模塊,改進了傳統(tǒng)的文本話題感知機制,提升了文本聚類的效率。根據(jù)廣告用戶共同的行為特征,本文使用了C4.5決策樹分類算法對微博進行了過濾,并對C4.5算法的連續(xù)屬性分割閾值選擇進行了優(yōu)化。在噪聲過濾模塊中,本文提出了基于特征值詞頻的噪聲記分過濾算法,將不含高頻特征詞條的微博文本視為噪聲濾除。為了防止特征值集合過大,又考慮到微博話題的實時性,給文本詞頻統(tǒng)計的過程加上了滑動窗口。此外,由于不同詞性的詞對表征話題具有不同的貢獻度,本文在記分算法中對詞條進行了詞性加權(quán)。該記分算法能對噪聲微博進行有效過濾。 (2)在話題感知模塊中,針對微博話題的時效性,本文在傳統(tǒng)的夾角余弦距計算方法中加入了一個時間參數(shù),提升了文本相似度計算的準(zhǔn)確性。在文本聚類模塊中,針對K-means聚類算法的K值和話題中心難以確立的問題,本文在聚類算法之前加入了一個基于特征值集合的初步劃分過程,優(yōu)化了K-means算法的K值確立和中心選擇方法,提升了算法的性能。傳統(tǒng)的微博話題熱度評估算法只考慮了用戶的參與度,本文在此基礎(chǔ)上結(jié)合了微博傳播的影響力,對話題熱度的計算方法進行了改進,使話題熱度的評估更加客觀全面。 最后,本文使用JAVA語言對微博熱點話題感知系統(tǒng)進行了實現(xiàn),并設(shè)計了一系列實驗對所改進的算法進行了驗證。實驗證明,本文提出的改進機制在微博熱點話題感知中具有良好的性能。
【關(guān)鍵詞】:微博 文本 分類 聚類 熱點話題
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP391.1
【目錄】:
  • 致謝5-6
  • 摘要6-7
  • ABSTRACT7-12
  • 1 引言12-18
  • 1.1 研究背景和意義12-14
  • 1.1.1 研究背景12
  • 1.1.2 微博熱點話題感知的意義12-14
  • 1.2 基本概念介紹14-15
  • 1.3 國內(nèi)外研究現(xiàn)狀15-16
  • 1.3.1 TDT中的噪聲過濾15
  • 1.3.2 TDT中的聚類算法15-16
  • 1.4 論文的組織結(jié)構(gòu)16-18
  • 2 微博熱點話題感知機制18-25
  • 2.1 傳統(tǒng)的文本話題感知機制18-19
  • 2.2 改進的文本話題感知機制19-23
  • 2.2.1 微博文本的類別分布19-20
  • 2.2.2 微博和其他網(wǎng)絡(luò)信息平臺的對比20-21
  • 2.2.3 改進的微博熱點話題感知機制21-23
  • 2.2.4 對帶有微話題標(biāo)志的微博的處理23
  • 2.3 本章小結(jié)23-25
  • 3 微博過濾模塊25-41
  • 3.1 數(shù)據(jù)采集模塊25-26
  • 3.2 預(yù)處理模塊26-27
  • 3.3 文本表示模塊27-30
  • 3.3.1 文本模型化27-28
  • 3.3.2 文本降維策略28-29
  • 3.3.3 特征值權(quán)重計算29-30
  • 3.4 廣告微博過濾模塊30-36
  • 3.4.1 廣告用戶行為分析30-31
  • 3.4.2 分類算法的比對和選擇31-32
  • 3.4.3 C4.5決策樹分類算法及其優(yōu)化32-34
  • 3.4.4 基于用戶行為分類的廣告微博過濾機制34-36
  • 3.5 噪聲微博過濾模塊36-40
  • 3.5.1 噪聲微博文本分析36
  • 3.5.2 基于特征值詞頻和詞性的噪聲記分過濾36-40
  • 3.6 本章小結(jié)40-41
  • 4 話題感知模塊41-55
  • 4.1 微博文本聚類模塊41-50
  • 4.1.1 傳統(tǒng)的文本相似度計算方法41-42
  • 4.1.2 結(jié)合了時間參數(shù)的文本相似度計算42
  • 4.1.3 聚類算法的比對和選擇42-46
  • 4.1.4 基于特征值集合的K-MEANS聚類算法46-50
  • 4.2 微博主題詞提取模塊50
  • 4.3 微博熱度評估模塊50-53
  • 4.4 本章小結(jié)53-55
  • 5 系統(tǒng)設(shè)計和實驗分析55-65
  • 5.1 微博熱點話題感知系統(tǒng)的設(shè)計和實現(xiàn)55-57
  • 5.1.1 系統(tǒng)的總體架構(gòu)55-56
  • 5.1.2 系統(tǒng)的編程實現(xiàn)56-57
  • 5.2 微博熱點話題感知系統(tǒng)實驗分析57-62
  • 5.2.1 微博過濾模塊測評標(biāo)準(zhǔn)57
  • 5.2.2 微博廣告過濾模塊實驗分析57-58
  • 5.2.3 微博噪聲過濾模塊實驗分析58-59
  • 5.2.4 話題感知模塊測評標(biāo)準(zhǔn)59-60
  • 5.2.5 話題感知模塊實驗分析60-62
  • 5.3 微博熱點話題感知系統(tǒng)輸出展示62-64
  • 5.4 本章小結(jié)64-65
  • 6 總結(jié)與展望65-67
  • 6.1 工作總結(jié)65-66
  • 6.2 研究展望66-67
  • 參考文獻67-70
  • 作者簡歷及攻讀碩士學(xué)位期間取得的研究成果70-72
  • 學(xué)位論文數(shù)據(jù)集72

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前4條

1 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計算機科學(xué);2012年01期

2 劉濤;尹紅健;;基于半監(jiān)督學(xué)習(xí)的K-均值聚類算法研究[J];計算機應(yīng)用研究;2010年03期

3 周剛;鄒鴻程;熊小兵;黃永忠;;MB-SinglePass:基于組合相似度的微博話題檢測[J];計算機科學(xué);2012年10期

4 田鵬;王偉軍;劉蕤;;Web2.0技術(shù)應(yīng)用對知識分享行為影響研究[J];情報科學(xué);2011年05期


  本文關(guān)鍵詞:微博熱點話題感知關(guān)鍵技術(shù)的研究,由筆耕文化傳播整理發(fā)布。



本文編號:396967

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/396967.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a504f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com