基于可信度評(píng)測(cè)的話題發(fā)現(xiàn)方法
本文關(guān)鍵詞: 微博 話題發(fā)現(xiàn) 可信度 Single-Pass 可信熱點(diǎn)話題 出處:《哈爾濱工程大學(xué)》2014年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:憑借創(chuàng)新式的信息生產(chǎn)機(jī)制和網(wǎng)絡(luò)傳播機(jī)制,微博平臺(tái)成為社會(huì)熱點(diǎn)重要的發(fā)源地和傳播途徑,這使得熱點(diǎn)話題發(fā)現(xiàn)技術(shù)不斷研究與發(fā)展。然而,由于微博的匿名性以及即時(shí)性等特征,使得一些人為編造的不可信話題同時(shí)在網(wǎng)上流傳開(kāi)來(lái)。于是,對(duì)于微博信息的可信度的研究就顯得至關(guān)重要,這不僅影響著整個(gè)網(wǎng)絡(luò)的輿論導(dǎo)向,更影響著社會(huì)的安定和諧。在以往的可信度研究中,都是基于一些已有的熱點(diǎn)話題進(jìn)行可信度評(píng)測(cè),最后驗(yàn)證該話題的置信值與現(xiàn)實(shí)情況的對(duì)比。然而,一些不可信的話題已經(jīng)作為網(wǎng)絡(luò)的熱點(diǎn)傳播開(kāi)來(lái),并不能從源頭上阻止這些話題的傳播。因此,本文結(jié)合話題發(fā)現(xiàn)的相關(guān)方法、微博信息的特征并結(jié)合可信度相關(guān)的研究提出了一種基于可信度評(píng)測(cè)的話題發(fā)現(xiàn)方法。本文首先提出了可信熱點(diǎn)話題的概念,通過(guò)對(duì)可信熱點(diǎn)話題的定義、評(píng)測(cè)指標(biāo),構(gòu)架了可信熱點(diǎn)話題的發(fā)現(xiàn)框架。在框架中,主要包括用戶可信度評(píng)測(cè)、微博數(shù)據(jù)準(zhǔn)備、話題提取、可信熱點(diǎn)話題獲取。在用戶可信度評(píng)測(cè)算法中,本文不僅考慮用戶的基本屬性對(duì)用戶可信度的影響,還提出了一種利用相對(duì)可信度來(lái)分配用戶可信度的算法。在微博信息預(yù)處理過(guò)程中,本文考慮到時(shí)間對(duì)于一個(gè)事件的重要性,把時(shí)間作為了文本相似度計(jì)算中的一個(gè)重要因素。最后本文基于Single-Pass算法進(jìn)行了文本向量聚類(lèi),把聚類(lèi)得到的話題,按照可信熱點(diǎn)話題評(píng)價(jià)指標(biāo),進(jìn)行評(píng)價(jià)得到可信熱點(diǎn)話題。最后,本文利用微博平臺(tái)上的數(shù)據(jù)對(duì)本文中提到的用戶可信度評(píng)測(cè)算法、時(shí)間因素對(duì)熱點(diǎn)話題的影響、可信熱點(diǎn)話題的TDT檢測(cè)指標(biāo)進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)中用戶可信度評(píng)測(cè)算法與傳統(tǒng)的PageRank算法作了比較、熱點(diǎn)話題時(shí)間因素與非熱點(diǎn)話題時(shí)間因素的比較、用戶可信度話題發(fā)現(xiàn)算法與SPHA算法比較,驗(yàn)證了本文提出的基于可信度評(píng)測(cè)的話題發(fā)現(xiàn)方法在話題發(fā)現(xiàn)過(guò)程中的準(zhǔn)確性以及效率。
[Abstract]:With the innovative information production mechanism and network communication mechanism, Weibo platform has become an important place of origin and dissemination of social hot spots, which makes hot topic discovery technology research and development. Because of Weibo's anonymity and immediacy, some people have made up untrusted topics that have been circulated on the Internet at the same time. Therefore, the study of the credibility of Weibo's information is of great importance. This not only affects the public opinion orientation of the whole network, but also affects the stability and harmony of the society. Finally verify the confidence of the topic compared with the actual situation. However, some untrusted topics have been spread as a hot spot of the network, can not stop the spread of these topics from the source. Therefore, In this paper, a method of topic discovery based on credibility evaluation is proposed, which combines the relevant methods of topic discovery, the characteristics of Weibo information and the research of credibility. In this paper, the concept of trusted hot topic is put forward. Through the definition of trusted hot topic and evaluation index, this paper constructs a framework for the discovery of trusted hot topic. In the framework, it mainly includes user credibility evaluation, Weibo data preparation, topic extraction, In the algorithm of user credibility evaluation, this paper not only considers the influence of the user's basic attributes on the user's credibility, This paper also proposes an algorithm to allocate user credibility by using relative credibility. In the process of Weibo information preprocessing, this paper considers the importance of time for an event. Time is regarded as an important factor in text similarity calculation. Finally, text vector clustering based on Single-Pass algorithm is carried out. Finally, this paper uses the data on Weibo platform to evaluate the user credibility algorithm mentioned in this paper, and the influence of time factors on hot topics. The TDT detection index of trusted hot topic is tested. In the experiment, the user reliability evaluation algorithm is compared with the traditional PageRank algorithm, and the time factor of hot topic is compared with that of non-hot topic. Compared with the SPHA algorithm, the accuracy and efficiency of the proposed topic discovery method based on credibility evaluation are verified.
【學(xué)位授予單位】:哈爾濱工程大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1;TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 馬雯雯;魏文晗;鄧一貴;;基于隱含語(yǔ)義分析的微博話題發(fā)現(xiàn)方法[J];計(jì)算機(jī)工程與應(yīng)用;2014年01期
2 卞先華;陳亮;鄭倩冰;;基于文本內(nèi)容和社會(huì)結(jié)構(gòu)的可信度[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué));2013年01期
3 王晟;王子琪;張銘;;個(gè)性化微博推薦算法[J];計(jì)算機(jī)科學(xué)與探索;2012年10期
4 李勁;張華;吳浩雄;向軍;;基于特定領(lǐng)域的中文微博熱點(diǎn)話題挖掘系統(tǒng)BTopicMiner[J];計(jì)算機(jī)應(yīng)用;2012年08期
5 竇炳琳;李澍淞;張世永;;基于結(jié)構(gòu)的社會(huì)網(wǎng)絡(luò)分析[J];計(jì)算機(jī)學(xué)報(bào);2012年04期
6 楊亮;林原;林鴻飛;;基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J];中文信息學(xué)報(bào);2012年01期
7 劉挺;車(chē)萬(wàn)翔;李正華;;語(yǔ)言技術(shù)平臺(tái)[J];中文信息學(xué)報(bào);2011年06期
8 袁毅;;微博客信息傳播結(jié)構(gòu)、路徑及其影響因素分析[J];圖書(shū)情報(bào)工作;2011年12期
9 江敏;肖詩(shī)斌;王弘蔚;施水才;;一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J];中文信息學(xué)報(bào);2008年05期
10 王永恒;賈焰;楊樹(shù)強(qiáng);;海量短語(yǔ)信息文本聚類(lèi)技術(shù)研究[J];計(jì)算機(jī)工程;2007年14期
相關(guān)碩士學(xué)位論文 前9條
1 劉立群;基于時(shí)間信息的輿情話題發(fā)現(xiàn)技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年
2 陳慧;基于貝葉斯模型的微博虛假話題數(shù)據(jù)分析研究[D];山東大學(xué);2013年
3 麥藝華;面向中文微博的社會(huì)網(wǎng)絡(luò)分析及應(yīng)用[D];華南理工大學(xué);2012年
4 孫勝平;中文微博客熱點(diǎn)話題檢測(cè)與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年
5 王宏勇;網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)與分析研究[D];西南交通大學(xué);2011年
6 吳澤衡;基于話題檢測(cè)和情感分析的互聯(lián)網(wǎng)熱點(diǎn)分析與監(jiān)控技術(shù)研究[D];華南理工大學(xué);2011年
7 楊冠超;微博客熱點(diǎn)話題發(fā)現(xiàn)策略研究[D];浙江大學(xué);2011年
8 張靜;基于微博的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)模型及平臺(tái)研究[D];華中科技大學(xué);2010年
9 劉星星;熱點(diǎn)事件發(fā)現(xiàn)及事件內(nèi)容特征自動(dòng)抽取研究[D];華中師范大學(xué);2009年
,本文編號(hào):1539329
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1539329.html