天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文微博客熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究

發(fā)布時(shí)間:2019-07-31 09:05
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展以及Web2.0的出現(xiàn),微博(Microblog)逐漸成為人們相互溝通、發(fā)表言論以及獲取新聞的重要工具,因此及時(shí)發(fā)現(xiàn)微博中熱點(diǎn)話題具有重要的現(xiàn)實(shí)意義。但是微博文本內(nèi)容短小、特征詞稀疏以及規(guī)模龐大,傳統(tǒng)的文本處理方法并不適合對(duì)其處理。因此,如何快速、準(zhǔn)確地發(fā)現(xiàn)微博熱點(diǎn)話題已成為當(dāng)前自然語(yǔ)言處理的一個(gè)研究熱點(diǎn)。本文主要工作包括以下三個(gè)方面: (1)針對(duì)微博數(shù)據(jù)文本內(nèi)容短小、特征詞稀疏、數(shù)據(jù)噪聲大以及文檔數(shù)據(jù)規(guī)模龐大等特征,本文利用具有優(yōu)秀降維能力的LDA主題模型對(duì)微博數(shù)據(jù)建模,其不僅有效解決了文本相似性計(jì)算的復(fù)雜度,,還避免了傳統(tǒng)文本建模方法存在的數(shù)據(jù)稀疏性問(wèn)題。 (2)基于劃分的K-means具有算法簡(jiǎn)單、收斂速度快等優(yōu)點(diǎn),但它對(duì)初始聚類(lèi)中心數(shù)K非常敏感。而基于層次聚類(lèi)的CURE算法對(duì)孤立點(diǎn)不敏感,擅長(zhǎng)處理非球型或大小不均的簇,且準(zhǔn)確度高。綜合CURE算法的高準(zhǔn)確性和K-means算法高效率的特點(diǎn),本文采用了CURE和K-means結(jié)合的兩階段聚類(lèi)策略,這樣既緩和了K-means算法對(duì)初始點(diǎn)敏感的問(wèn)題,又不損失聚類(lèi)的效率。 (3)深入研究MapReduce編程模型和K-means聚類(lèi)算法,針對(duì)K-means聚類(lèi)算法特點(diǎn),給出了MapReduce編程模型實(shí)現(xiàn)K-means聚類(lèi)算法的方法,對(duì)海量微博短文本數(shù)據(jù)進(jìn)行快速聚類(lèi)。經(jīng)實(shí)驗(yàn)測(cè)試,明顯改善了聚類(lèi)效率。 結(jié)合以上的研究方法,完成了微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),該系統(tǒng)集成了數(shù)據(jù)獲取與預(yù)處理模塊、熱點(diǎn)話題發(fā)現(xiàn)模塊和數(shù)據(jù)展示模塊三大塊。
【圖文】:

中文微博客熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究


圖 1.1 2010-2013 年第一季度新浪、騰訊微博注冊(cè)人數(shù)與中國(guó)互聯(lián)網(wǎng)用戶比較內(nèi)外研究現(xiàn)狀從微博誕生以來(lái),它就扮演一種重要的傳播媒介,非常迅速地改變著人息的方式。對(duì)于微博數(shù)據(jù)的深入挖掘,可以用于企事業(yè)單位的行政管理助災(zāi)害預(yù)警部門(mén)盡早發(fā)現(xiàn)險(xiǎn)情,還可以幫助政府機(jī)關(guān)單位及時(shí)了解社會(huì)姓心聲。前世界各地有很多學(xué)者在對(duì)微博數(shù)據(jù)進(jìn)行研究與分析,其中朱少龍等人對(duì)包含特定關(guān)鍵詞的微博數(shù)據(jù)進(jìn)行分類(lèi)的方法,輔助企業(yè)在較短的時(shí)間些產(chǎn)品和服務(wù)的用戶評(píng)論,這樣有助于企業(yè)及時(shí)更新自己的產(chǎn)品、改進(jìn)務(wù),幫助企業(yè)樹(shù)立更好的形象,進(jìn)而增加企業(yè)的收入;日本地震頻繁爆發(fā)Twitter 用戶在發(fā)生地震時(shí)經(jīng)常發(fā)布大量關(guān)于地震的消息,Sakaki 等人[4]針件,設(shè)計(jì)了一套用于區(qū)分 Twitter 用戶發(fā)布的內(nèi)容是否和地震有關(guān)的分

中文微博客熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究


西安建筑科技大學(xué)碩士學(xué)位論文2 相關(guān)技術(shù)研究檢測(cè)與追蹤測(cè)與追蹤(Topic Detection and Tracking, TDT)主要是指“在聞等來(lái)源的數(shù)據(jù)流中自動(dòng)發(fā)現(xiàn)主題并把主題相關(guān)的內(nèi)容聯(lián)系在話題檢測(cè)與跟蹤研究主要包 6 個(gè)步驟,其分別為數(shù)據(jù)采集、預(yù)信息到向量空間的轉(zhuǎn)換、話題發(fā)現(xiàn)(檢測(cè))、話題追蹤。其中話 TDT 的核心,是整個(gè)處理過(guò)程的重中之重。具體流程如圖 2.
【學(xué)位授予單位】:西安建筑科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1;TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 蔡淑琴;張靜;王e

本文編號(hào):2521225


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2521225.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bee58***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com