基于新詞識別和時間跨度的微博熱點研究
發(fā)布時間:2017-11-15 11:21
本文關(guān)鍵詞:基于新詞識別和時間跨度的微博熱點研究
更多相關(guān)文章: 熱點識別 分詞優(yōu)化 Hadoop云計算平臺 時間跨度特征 熱點分類
【摘要】:微博熱點,是在一段時間內(nèi)微博用戶涉及最多的熱議焦點。微博熱點的研究可以幫助互聯(lián)網(wǎng)用戶及時了解當(dāng)下的微博熱點話題和熱門事件,可以幫助企業(yè)了解和評測其商品口碑及競爭對手狀況,同時也能夠使得政府對社會輿情熱點有明確的方向把握。因此對于微博熱點的研究有廣泛的適用性和研究價值。由于微博文本有自由度大、語法不規(guī)范、即時性強(qiáng)的特點,因此通過傳統(tǒng)的文本分析難以對微博熱點進(jìn)行準(zhǔn)確的把握。尤其是一般的分詞工具在對微博文本進(jìn)行分詞時效果難以令人滿意。本論文使用Hadoop云計算平臺對微博進(jìn)行新詞識別,構(gòu)建新詞詞典,以對傳統(tǒng)工具的分詞結(jié)果進(jìn)行優(yōu)化。本文在識別微博熱點詞語之后,通過這些詞語的時間跨度特征將其分類,分別將代表相同主題的熱點詞語一一歸類。本文最后對微博的情感傾向性進(jìn)行了研究,利用微博表情符號及CRFs分類器評價微博中包含情感的正負(fù)極性。實驗后可以看到,本文的微博新詞識別實驗、微博熱點詞語識別和分組的實驗及微博情感傾向性評價的實驗都獲得了較好的效果,說明本文提出的方法有不錯的實用效果,在今后可以進(jìn)行更深入的研究。
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP391.1
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前3條
1 趙麗;郭宏文;;基于雙字哈希的PAT樹詞典機(jī)制的研究[J];黑龍江生態(tài)工程職業(yè)學(xué)院學(xué)報;2011年01期
2 彭澤映;俞曉明;許洪波;劉春陽;;大規(guī)模短文本的不完全聚類[J];中文信息學(xué)報;2011年01期
3 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(自然科學(xué)版);2011年10期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 李p,
本文編號:1189556
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1189556.html
最近更新
教材專著