【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,微博作為一種新的網(wǎng)絡(luò)媒體形式,在人們獲取信息、傳遞信息、檢索信息等日常網(wǎng)絡(luò)行為中扮演著越來越重要的角色。與傳統(tǒng)媒體數(shù)據(jù)相比,微博文本簡短,支持實(shí)時(shí)轉(zhuǎn)發(fā)評(píng)論,,并且話題傳播速度快,這使得微博數(shù)據(jù)成為新的研究對(duì)象。微博話題檢測(cè)技術(shù)是研究如何對(duì)大量的微博數(shù)據(jù)信息進(jìn)行管理分類,已經(jīng)成為當(dāng)前微博研究的熱點(diǎn)之一。本文從微博數(shù)據(jù)的采集、微博數(shù)據(jù)短文本預(yù)處理、微博話題檢測(cè)方法三個(gè)方面進(jìn)行研究。采集相關(guān)微博數(shù)據(jù),并結(jié)合微博的文本簡短性和結(jié)構(gòu)化信息特征,在傳統(tǒng)話題檢測(cè)方法基礎(chǔ)上,對(duì)微博數(shù)據(jù)預(yù)處理和微博話題檢測(cè)方法進(jìn)行了探討。主要工作內(nèi)容如下: 基于微博開放API接口采集相關(guān)微博數(shù)據(jù)。在微博采集數(shù)據(jù)方面,介紹了網(wǎng)絡(luò)爬蟲技術(shù)和基于微博開放平臺(tái)的微博數(shù)據(jù)獲取方案。通過數(shù)據(jù)獲取實(shí)驗(yàn)分析兩種數(shù)據(jù)采集方法的優(yōu)缺點(diǎn),表明微博開放平臺(tái)獲取數(shù)據(jù)方法更好。所以,采用通過程序調(diào)用微博API接口獲取本文的實(shí)驗(yàn)數(shù)據(jù)。 針對(duì)微博短文本,提出一種新的基于多語言翻譯的文本特征擴(kuò)展方法。在微博數(shù)據(jù)短文本預(yù)處理方面,提出了一種有效的擴(kuò)充數(shù)據(jù)特征表示方法,即通過翻譯機(jī)器的多種語言表達(dá)增加文本特征數(shù)量。我們從其他語言中獲得的額外知識(shí)豐富簡短文本特征,然后利用矩陣分解技術(shù)進(jìn)行短文本整合和維數(shù)約減,這在一定程度上解決了短文本挖掘中存在的問題。 改進(jìn)單增量聚類算法用于微博話題檢測(cè)。在傳統(tǒng)話題檢測(cè)方法的基礎(chǔ)上,結(jié)合微博文本簡短的特點(diǎn)和微博結(jié)構(gòu)化信息的特征,對(duì)單增量聚類算法進(jìn)行了改進(jìn)。采用相似度最大閾值和最小閾值策略,并利用微博文本間轉(zhuǎn)發(fā)評(píng)論關(guān)系和微博用戶間好友關(guān)系,提出MB-SinglePass微博話題檢測(cè)算法。實(shí)驗(yàn)證明該算法檢測(cè)效果更佳。
【圖文】:
登陸微博首頁展示內(nèi)容

圖1.2個(gè)人主頁展示
【學(xué)位授予單位】:河北師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 萬小軍,楊建武;在線新聞主題檢測(cè)系統(tǒng)的設(shè)計(jì)與應(yīng)用[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
2 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期
3 李保利,俞士汶;話題識(shí)別與跟蹤研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年17期
4 李學(xué)勇,歐陽柳波,李國徽,鐘敏娟;網(wǎng)絡(luò)蜘蛛搜索策略比較研究[J];計(jì)算機(jī)工程與應(yīng)用;2004年04期
5 邱云飛;程亮;;微博突發(fā)話題檢測(cè)方法研究[J];計(jì)算機(jī)工程;2012年09期
6 薛曉飛;張永奎;任曉東;;基于新聞要素的新事件檢測(cè)方法研究[J];計(jì)算機(jī)應(yīng)用;2008年11期
7 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期
8 殷風(fēng)景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡(luò)話題發(fā)現(xiàn)的增量文本聚類算法[J];計(jì)算機(jī)應(yīng)用研究;2011年01期
9 周剛;鄒鴻程;熊小兵;黃永忠;;MB-SinglePass:基于組合相似度的微博話題檢測(cè)[J];計(jì)算機(jī)科學(xué);2012年10期
10 文坤梅;徐帥;李瑞軒;辜希武;李玉華;;微博及中文微博信息處理研究綜述[J];中文信息學(xué)報(bào);2012年06期
本文編號(hào):
2561449
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2561449.html