基于微博文本的話題聚類(lèi)研究與實(shí)現(xiàn)
本文選題:話題聚類(lèi) 切入點(diǎn):微博 出處:《河北科技大學(xué)》2014年碩士論文
【摘要】:Web2.0技術(shù)的出現(xiàn)推動(dòng)了大數(shù)據(jù)時(shí)代的到來(lái)。以微博為代表的社會(huì)網(wǎng)絡(luò)新媒體的興起,在豐富了大數(shù)據(jù)的同時(shí),也給數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)帶來(lái)了諸多挑戰(zhàn),因?yàn)楹蛡鹘y(tǒng)的文本信息不同,微博信息涉及個(gè)人興趣、娛樂(lè)、企業(yè)營(yíng)銷(xiāo)、公益宣傳等多方面內(nèi)容,且內(nèi)容碎片化,數(shù)據(jù)量龐大。如何有效分析和挖掘其中的信息,成為當(dāng)前一個(gè)重要的研究課題。 話題聚類(lèi)技術(shù)是微博研究的一項(xiàng)基礎(chǔ)工作。它將海量的微博數(shù)據(jù)自動(dòng)歸類(lèi),使話題內(nèi)容相近的微博自動(dòng)歸為一類(lèi)。話題聚類(lèi)結(jié)果可用于深層話題分析與數(shù)據(jù)挖掘。傳統(tǒng)的基于關(guān)鍵字的處理方法可能會(huì)返回?cái)?shù)以千百計(jì)的結(jié)果,其內(nèi)容多是重復(fù)性的或關(guān)聯(lián)較小的內(nèi)容,不適合處理上述問(wèn)題。話題聚類(lèi)技術(shù)可通過(guò)智能處理算法,使內(nèi)容相近的信息自動(dòng)聚在一起,,便于了解該類(lèi)的主要話題;通過(guò)主題詞提取,可使處理結(jié)果更加直觀。本文基于微博文本,通過(guò)采用智能處理算法,完成了如下工作:首先,獲取微博的結(jié)構(gòu)化數(shù)據(jù),完成對(duì)微博數(shù)據(jù)的采集以及在聚類(lèi)前對(duì)數(shù)據(jù)的預(yù)處理。第二,完成了針對(duì)文本聚類(lèi)的特征詞選擇,針對(duì)微博短文本的特點(diǎn),研究如何有效提取特征詞以及篩選特征詞。第三,設(shè)計(jì)了有效的聚類(lèi)算法,針對(duì)微博短文本,研究何種算法可使微博文本的聚類(lèi)結(jié)果更好。第四,對(duì)聚類(lèi)結(jié)果集的主題詞進(jìn)行提取,該主題詞可作為可視化話題的主要表達(dá)內(nèi)容。第五,完成了處理結(jié)果的可視化,使結(jié)果更加清晰和直觀,起到了輔助理解數(shù)據(jù)與識(shí)別隱藏在數(shù)據(jù)中的規(guī)律的作用。 實(shí)驗(yàn)結(jié)果與分析顯示了本文方法的有效性。同時(shí),本文也對(duì)可能出現(xiàn)的問(wèn)題及下一步的研究計(jì)劃進(jìn)行了說(shuō)明。
[Abstract]:The emergence of Web2.0 technology promoted the arrival of big data era.The rise of new social network media, represented by Weibo, not only enriches big data, but also brings many challenges to data mining and knowledge discovery. Unlike traditional text information, Weibo information involves personal interests and entertainment.Enterprise marketing, public welfare publicity and other aspects of content, and content fragmentation, huge amount of data.How to effectively analyze and excavate the information has become an important research topic.Topic clustering is a basic work of Weibo.It classifies the massive Weibo data automatically, causes the topic content similar Weibo to fall into one category automatically.Topic clustering results can be used for deep topic analysis and data mining.Traditional keyword-based processing methods may return hundreds of results, most of which are repetitive or less correlated, so it is not suitable to deal with the above problems.The topic clustering technology can make the information of similar content gather together automatically through intelligent processing algorithm, so as to understand the main topic of this kind of topic conveniently, and can make the processing result more intuitionistic by extracting the theme words.Based on Weibo text, this paper completes the following work by adopting intelligent processing algorithm: firstly, we obtain the structured data of Weibo, complete the data collection and pre-processing of the data before clustering.Secondly, the selection of feature words for text clustering is completed. According to the characteristics of Weibo short text, the effective extraction of feature words and the selection of feature words are studied.Thirdly, an effective clustering algorithm is designed.Fourthly, the theme words of clustering result set are extracted, which can be used as the main expression of visual topics.Fifth, the visualization of the processing results is completed, which makes the results more clear and intuitive, and plays a role in understanding the data and recognizing the laws hidden in the data.Experimental results and analysis show the effectiveness of the proposed method.At the same time, this paper also explains the possible problems and the next research plan.
【學(xué)位授予單位】:河北科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1;TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張濤;;一種利用K均值和SOM進(jìn)行遙感圖像分類(lèi)的方法[J];地理空間信息;2011年01期
2 孫惠琴,熊璋;基于粗集的模糊聚類(lèi)方法和結(jié)果評(píng)估[J];復(fù)旦學(xué)報(bào)(自然科學(xué)版);2004年05期
3 潘大慶;;基于層次聚類(lèi)的微博敏感話題檢測(cè)算法研究[J];廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
4 高凱;陽(yáng)春輝;陶秋紅;張洋;楊軍偉;;基于Carrot2聚類(lèi)的垂直搜索引擎的研究與實(shí)現(xiàn)[J];河北工業(yè)科技;2012年03期
5 王偉;許云峰;高凱;;基于哈希表的動(dòng)態(tài)向量降維方法的研究及應(yīng)用[J];河北科技大學(xué)學(xué)報(bào);2011年04期
6 吳啟明;易云飛;;文本聚類(lèi)綜述[J];河池學(xué)院學(xué)報(bào);2008年02期
7 馮少榮;肖文俊;;基于語(yǔ)義距離的高效文本聚類(lèi)算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年05期
8 于滿(mǎn)泉;駱衛(wèi)華;許洪波;白碩;;話題識(shí)別與跟蹤中的層次化話題識(shí)別技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2006年03期
9 朱會(huì)峰;左萬(wàn)利;赫楓齡;彭濤;紀(jì)文彥;;一種基于本體的文本聚類(lèi)方法[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2010年02期
10 陽(yáng)小蘭;錢(qián)程;趙海廷;;一種基于Nutch的網(wǎng)頁(yè)聚類(lèi)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2011年05期
本文編號(hào):1689159
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1689159.html