微博熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究
本文選題:微博 切入點(diǎn):話題發(fā)現(xiàn) 出處:《內(nèi)蒙古科技大學(xué)》2013年碩士論文
【摘要】:近年來,微博的迅猛發(fā)展,已經(jīng)成為人們獲取和傳播信息的最主要的形式,由微博所引發(fā)的社會問題和危機(jī)事件也日呈頻發(fā)態(tài)勢。如何在紛繁復(fù)雜的微博信息發(fā)現(xiàn)熱點(diǎn)話題,已經(jīng)成為話題發(fā)現(xiàn)和跟蹤領(lǐng)域研究領(lǐng)域的熱點(diǎn)。同時,微博熱點(diǎn)話題的發(fā)現(xiàn),為網(wǎng)絡(luò)輿情的監(jiān)管,掌握事件發(fā)展動態(tài),都提供有利的數(shù)據(jù)保證,具有十分重要的理論價值和現(xiàn)實(shí)意義。 本文首先從微博信息收集入手,針對微博平臺上API受限或不穩(wěn)定等問題,自行設(shè)計(jì)了網(wǎng)絡(luò)爬蟲工具,并實(shí)現(xiàn)了信息收集手動和自動兩種方式。 其次,本文采用lucene對微博文本信息進(jìn)行預(yù)處理,,針對原有向量空間的不足,采用潛在語義分析方法對向量空間進(jìn)行奇異值分解,達(dá)到了降低詞袋維度和消除語義噪音等效果。 再次,在分析了文本分類的各種算法的優(yōu)缺點(diǎn)基礎(chǔ)上,提出了采用樸素貝葉斯分類算法實(shí)現(xiàn)話題發(fā)現(xiàn)及跟蹤。樸素貝葉斯分類算法是一種非常簡單和有效的文本分類算法,計(jì)算待分類項(xiàng)出現(xiàn)的條件下,其它已知分類出現(xiàn)的概率,選擇概率最大的,將待分類項(xiàng)歸為該類。 接下來,本文根據(jù)微博用戶特征,通過lucene關(guān)鍵詞的倒排索引,快速找到該關(guān)鍵詞所在微博,繼而找到該微博用戶的關(guān)注度,通過詞語的關(guān)注度,找到微博的關(guān)注度,最終計(jì)算話題關(guān)注度。相對于微博傳統(tǒng)計(jì)算話題熱度的方法,這種算法更多地考慮到微博自身用戶特點(diǎn),所以更有效和準(zhǔn)確。 最后,基于以上工作,本文實(shí)現(xiàn)了微博輿情分析系統(tǒng),并對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了測試,通過對實(shí)驗(yàn)結(jié)果的分析,找出在研究過程中的有待改進(jìn)的地方,更加明確了今后研究工作的重點(diǎn)。
[Abstract]:In recent years, with the rapid development of Weibo, it has become the most important form for people to obtain and disseminate information.How to find hot topics in the complicated Weibo information field has become a hot topic in the field of topic discovery and tracking.At the same time, the discovery of Weibo's hot topic, which provides favorable data guarantee for the supervision of network public opinion and the development of events, has very important theoretical value and practical significance.This paper starts with Weibo information collection, aiming at the problem of limited or unstable API on Weibo platform, designs a web crawler tool, and realizes two ways of information collection manually and automatically.Secondly, this paper uses lucene to preprocess Weibo text information, aiming at the deficiency of the original vector space, using latent semantic analysis method to decompose the singular value of vector space, which can reduce the dimension of word bag and eliminate semantic noise and so on.Thirdly, on the basis of analyzing the advantages and disadvantages of various text classification algorithms, a naive Bayesian classification algorithm is proposed to realize topic discovery and tracking.Naive Bayes classification algorithm is a very simple and effective text classification algorithm. When the items to be classified appear, the probability of other known categories is calculated, and the items to be classified are classified as this class if the probability is the greatest.Next, according to Weibo user characteristics, through the inverted index of lucene keyword, this paper quickly finds the user's attention degree of the keyword, then finds out the attention degree of the user, through the attention degree of the words, find the attention degree of Weibo.Finally calculate the topic of concern.Compared with Weibo's traditional method of calculating topic heat, this algorithm is more effective and accurate because of taking into account the user's characteristics.Finally, based on the above work, this paper realizes Weibo public opinion analysis system, and tests the experimental data, through the analysis of the experimental results, find out in the process of research areas to be improved.The emphases of future research work are more clearly defined.
【學(xué)位授予單位】:內(nèi)蒙古科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP393.092;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 梁曉弘;楊文安;;分詞技術(shù)在信息處理中的研究綜述[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年22期
2 楊武;宋靜靜;唐繼強(qiáng);;中文微博情感分析中主客觀句分類方法[J];重慶理工大學(xué)學(xué)報(自然科學(xué));2013年01期
3 張猛,王大玲,于戈;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
4 唐春生,金以慧;一種大規(guī)模的遞增聚類算法及其在文檔聚類中的應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2002年11期
5 洪宇;張宇;范基禮;劉挺;李生;;基于子話題分治匹配的新事件檢測[J];計(jì)算機(jī)學(xué)報;2008年04期
6 吳平博,陳群秀,馬亮;基于事件框架的事件相關(guān)文檔的智能檢索研究[J];中文信息學(xué)報;2003年06期
7 駱衛(wèi)華;于滿泉;許洪波;王斌;程學(xué)旗;;基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J];中文信息學(xué)報;2006年01期
8 劉遠(yuǎn)超;王曉龍;徐志明;關(guān)毅;;文檔聚類綜述[J];中文信息學(xué)報;2006年03期
9 洪宇;張宇;劉挺;李生;;話題檢測與跟蹤的評測及研究綜述[J];中文信息學(xué)報;2007年06期
10 義天鵬;陳啟安;;基于Lucene的中文分析器分詞性能比較研究[J];計(jì)算機(jī)工程;2012年22期
本文編號:1729701
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1729701.html