微博大數(shù)據(jù)文本分析方法及推薦服務(wù)
發(fā)布時(shí)間:2018-06-22 23:30
本文選題:微博 + 話題演變��; 參考:《武漢理工大學(xué)》2014年碩士論文
【摘要】:微博,即微博客(MicroBlog)的簡(jiǎn)稱,是一個(gè)基于用戶關(guān)系的信息分享、傳播以及獲取的平臺(tái)。用戶可以通過(guò)WEB、WAP以及各種客戶端組件個(gè)人社區(qū),以140字左右的文字更新信息,并實(shí)現(xiàn)即時(shí)分享。微博比傳統(tǒng)的社交網(wǎng)絡(luò)具有更強(qiáng)的信息傳播能力和用戶粘性,這一獨(dú)特優(yōu)勢(shì)使其迅速成為當(dāng)前主要社會(huì)媒體之一。同時(shí)微博作為一種非常重要的消息來(lái)源與傳播途徑,在越來(lái)越多的社會(huì)事件中起到關(guān)鍵作用。對(duì)微博數(shù)據(jù)的分析與研究已經(jīng)成為目前的研究熱點(diǎn)之一。本文以新浪微博數(shù)據(jù)作為研對(duì)象,主要對(duì)新浪微話題數(shù)據(jù)進(jìn)行文本處理,分析其媒體特征及其對(duì)傳統(tǒng)搜索查詢?cè)~推薦服務(wù)的優(yōu)化,并討論大數(shù)據(jù)環(huán)境下處理效率的問(wèn)題。 本文的主要工作包括以下四個(gè)方面:1)針對(duì)新浪微話題數(shù)據(jù)的抽取,我們采用了基于Html頁(yè)面解析的方式來(lái)獲取數(shù)據(jù),解決新浪API數(shù)據(jù)獲取接口不完全開(kāi)放,數(shù)據(jù)無(wú)法完整獲取的問(wèn)題;2)提出用戶參與度和用戶活躍度,話題熱度和話題活躍度這四個(gè)指標(biāo),實(shí)現(xiàn)新浪微話題的媒體特征分析。并重點(diǎn)討論了其話題特征,給出了話題演變的趨勢(shì)圖,并研究了基于LDA主題模型的微博語(yǔ)義抽取。數(shù)據(jù)統(tǒng)計(jì)結(jié)果表明微博文本的話題性強(qiáng)、時(shí)間性強(qiáng)。由于微博文本短小,直接采用LDA做潛在語(yǔ)義抽取的效果并不理想。3)針對(duì)微博文本大數(shù)據(jù)處理這一塊,我們采用Hadoop框架下的MapReduce編程模型實(shí)現(xiàn)了關(guān)鍵字的倒排索引。除了能夠根據(jù)查詢?cè)~定位到某條微博,,還原微博文本信息推薦給用戶,還探討了不同數(shù)據(jù)大小以及不同節(jié)點(diǎn)的情況下,對(duì)微博數(shù)據(jù)處理所花費(fèi)的時(shí)間的影響;4)提出基于微博話題的Web查詢?cè)~推薦方法,更高效地幫助用戶快速地表達(dá)他們的信息需求以及更準(zhǔn)確地獲取他們所需要的信息。目前大量實(shí)時(shí)熱門(mén)的話題在短時(shí)間內(nèi)大量涌現(xiàn),而目前搜索系統(tǒng)的查詢?cè)~一般依賴歷史搜索記錄,如何去有效地對(duì)歷史記錄里面沒(méi)有或者少有的詞給提供推薦服務(wù)將會(huì)變得比較困難。本文所提出的方法考慮到微博這種新型的網(wǎng)絡(luò)社交媒體中的強(qiáng)話題性和快速性,充分利用微話題下的評(píng)論信息去挖掘潛在的推薦,從而給出了Web新鮮方面的查詢?cè)~推薦。
[Abstract]:Microblog , the short name of Microblog , is a platform for information sharing , communication and acquisition based on user relationship . The user can update the information about 140 characters and realize instant sharing through WEB , WAP and various client component personal communities . Micro - blog plays a key role in more and more social events than traditional social networks .
The main work of this paper includes the following four aspects : 1 ) To extract data from Sina micro - topic data , we adopt Htmlpage - based analysis method to get data , solve the problem that the data acquisition interface of Sina API is not completely open , and the data cannot be acquired completely ;
2 ) To put forward four indexes of user participation and user activity , topic heat degree and topic activity degree , to realize the media characteristic analysis of Sina ' s micro - topic . The paper focuses on the topic characteristics , gives the trend chart of topic evolution , and studies the micro blog semantic abstraction based on LDA topic model .
4 ) The proposed method of Web query word based on micro blog topic can help users express their information needs more efficiently and get more accurate information needed by them . At present , a lot of real - time hot topics emerge in a short time .
【學(xué)位授予單位】:武漢理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1;TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
2 劉曉華;韋福如;段亞娟;周明;;基于語(yǔ)義分析的微博搜索[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2012年05期
本文編號(hào):2054691
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2054691.html
最近更新
教材專著