天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向微博的新詞發(fā)現(xiàn)和話題檢測技術(shù)研究

發(fā)布時(shí)間:2017-11-22 20:02

  本文關(guān)鍵詞:面向微博的新詞發(fā)現(xiàn)和話題檢測技術(shù)研究


  更多相關(guān)文章: 數(shù)據(jù)采集 新詞發(fā)現(xiàn) 話題檢測 LDA 模型 關(guān)鍵詞提取


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和移動終端服務(wù)的普及,微博這一新型社交媒體得到了迅速的發(fā)展,受到了個(gè)人、企業(yè)和政府的青睞。如今,許多新聞和熱點(diǎn)話題都是通過微博發(fā)表并傳播的,如何從大量微博中及時(shí)發(fā)現(xiàn)重要的信息對個(gè)人、企業(yè),甚至政府都有具有重要意義。因此,本文研究了面向微博的新詞發(fā)現(xiàn)和話題檢測技術(shù),主要研究內(nèi)容如下: (1)研究了針對微博的數(shù)據(jù)采集方法。 詳細(xì)介紹了傳統(tǒng)數(shù)據(jù)采集方法和基于微博API的數(shù)據(jù)采集方法的原理,分析了這兩種方法在采集微博數(shù)據(jù)方面的優(yōu)缺點(diǎn)。最后,結(jié)合微博網(wǎng)頁結(jié)構(gòu)的特征,提出了一種適合微博的數(shù)據(jù)采集方法,并且用該方法采集了300萬條微博數(shù)據(jù),為微博話題檢測提供了豐富的語料資源。 (2)研究了面向微博的新詞發(fā)現(xiàn)方法。 詳細(xì)介紹了新詞發(fā)現(xiàn)的國內(nèi)外研究現(xiàn)狀,介紹了新詞發(fā)現(xiàn)領(lǐng)域中常用到的統(tǒng)計(jì)量和算法,分析了各種新詞發(fā)現(xiàn)方法的原理和優(yōu)缺點(diǎn)。最后,通過計(jì)算詞內(nèi)部結(jié)合度和詞邊界自由度發(fā)現(xiàn)新詞,并用該方法參加了COAE2014的相關(guān)評測,取得了較好的成績。 (3)研究了面向微博的話題檢測方法。 詳細(xì)介紹了微博話題檢測的國內(nèi)外研究現(xiàn)狀,介紹了話題檢測領(lǐng)域中常用到的聚類算法和相似度計(jì)算方法,介紹了LDA主題模型的原理。最后,,提出了基于LDA模型和多層聚類的話題檢測方法。該方法首先用LDA模型對微博語料建模,提取微博語義信息;然后,結(jié)合微博的時(shí)序性,改進(jìn)了傳統(tǒng)Single-Pass算法,將改進(jìn)的Single-Pass聚類和層次聚類相結(jié)合進(jìn)行話題檢測。 (4)研究了話題關(guān)鍵詞提取方法。 目前,有關(guān)話題關(guān)鍵詞提取方面的研究較少。本文利用多層聚類得到的結(jié)果作為話題關(guān)鍵詞提取的語料,首先,對語料進(jìn)行分詞和去停用詞;然后,在話題內(nèi)部統(tǒng)計(jì)該話題中出現(xiàn)的詞語的TF值;接著,在所有語料中統(tǒng)計(jì)這些詞語的IDF值;最后,通過TF值和IDF值計(jì)算得到詞語的TF-IDF值,將TF-IDF值排名前三的詞語作為該話題的關(guān)鍵詞。通過實(shí)驗(yàn)證明,該方法是有效的。
【學(xué)位授予單位】:北京信息科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期

2 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計(jì)算機(jī)科學(xué);2012年01期

3 邱云飛;程亮;;微博突發(fā)話題檢測方法研究[J];計(jì)算機(jī)工程;2012年09期

4 行小帥,潘進(jìn),焦李成;基于免疫規(guī)劃的K-means聚類算法[J];計(jì)算機(jī)學(xué)報(bào);2003年05期

5 孫曉;黃德根;宋海玉;任福繼;;Chinese New Word Identification:A Latent Discriminative Model with Global Features[J];Journal of Computer Science & Technology;2011年01期

6 林自芳;蔣秀鳳;;基于詞內(nèi)部模式的新詞識別[J];計(jì)算機(jī)與現(xiàn)代化;2010年11期

7 路榮;項(xiàng)亮;劉明榮;楊青;;基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J];模式識別與人工智能;2012年03期

8 馬彬;洪宇;陸劍江;姚建民;朱巧明;;基于線索樹雙層聚類的微博話題檢測[J];中文信息學(xué)報(bào);2012年06期

9 馬雯雯;魏文晗;鄧一貴;;基于隱含語義分析的微博話題發(fā)現(xiàn)方法[J];計(jì)算機(jī)工程與應(yīng)用;2014年01期

10 史劍虹;陳興蜀;王文賢;;基于隱主題分析的中文微博話題發(fā)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2014年03期



本文編號:1215853

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1215853.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b99f7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com