天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

博文主題影響力和用戶主題影響力評估方法研究

發(fā)布時間:2018-05-21 05:52

  本文選題:微博 + 文本聚類; 參考:《華南理工大學(xué)》2015年碩士論文


【摘要】:隨著微博的不斷發(fā)展,微博龐大的用戶群和海量的博文信息帶來了嚴(yán)重的信息超載問題,許多有價值的信息都被掩藏在了信息的洪流之中。為了更有效地處理和利用微博中的信息,從微博中相關(guān)主題下較有影響力的博文信息和用戶入手是一個解決之道。如何理解微博中的博文主題影響力和用戶主題影響力呢?用什么指標(biāo)去衡量主題影響力的大小呢?直觀的經(jīng)驗(yàn)判斷已經(jīng)無法滿足現(xiàn)實(shí)中的需求,構(gòu)建有效的評估模型已經(jīng)成為一個需要迫切解決的問題。本文首先對微博文本進(jìn)行聚類以產(chǎn)生基于不同主題的類簇,對此介紹了數(shù)據(jù)處理中常用的文本聚類算法,其中著重介紹了Clustering Using Representatives(CURE)算法的原理及其不足,并重點(diǎn)分析了CURE算法中的代表點(diǎn)選擇方法,最后在原有代表點(diǎn)選擇算法的基礎(chǔ)上基于代表點(diǎn)的密度和分散度進(jìn)行改進(jìn);同時,根據(jù)博文文本簡短、噪聲大的特殊性,在計(jì)算博文文本的距離時,使用基于Term Frequency and Inverse Document Frequency(TF_IDF)的Vector Space Model(VSM)與基于Jensen Shannon(JS)距離的Latent Dirichlet Allocation(LDA)模型相結(jié)合的方式對距離計(jì)算進(jìn)行適應(yīng)性改進(jìn);谶@兩點(diǎn)改進(jìn)本文提出了一個CURE based on Density and Scatter(DSCURE)算法,最后通過實(shí)驗(yàn)對比證實(shí)了該算法所作改進(jìn)的有效性。其次,通過分析微博上的信息傳播特點(diǎn),本文提出了一種博文主題影響力評估模型。該模型主要考慮了博文的主題相關(guān)性、博文內(nèi)容的質(zhì)量和博文的時效性。其中,針對博文內(nèi)容質(zhì)量的度量,我們根據(jù)Page Rank的質(zhì)量假設(shè),認(rèn)為反饋較好的博文表明該博文的質(zhì)量也高,因此主要從博文的轉(zhuǎn)發(fā)等級、評論或轉(zhuǎn)發(fā)用戶的質(zhì)量方面度量博文的內(nèi)容質(zhì)量;針對博文的時效性的度量,本文基于統(tǒng)計(jì)學(xué)中的瑞利分布(Rayleigh Distribution)提出了一個動態(tài)調(diào)整參數(shù)的博文活躍度模型來描述博文活躍度先上升后下降的趨勢。最后通過實(shí)驗(yàn)證明了該影響力模型的合理性和有效性。最后,本文在這些研究的基礎(chǔ)上,綜合考慮用戶的個人屬性特征、用戶的博文特征和網(wǎng)絡(luò)結(jié)構(gòu)因素,在Leader Rank的基礎(chǔ)上提出了一種用戶主題影響力評估算法——Quality Rank,并用matlab軟件實(shí)現(xiàn)Quality Rank算法,通過將其與其它影響力排序算法的排序結(jié)果進(jìn)行對比分析并對該算法不同時段的排序結(jié)果進(jìn)行分析,最后得出該算法能有效的評估用戶主題影響力,排序結(jié)果也更顯合理。
[Abstract]:With the development of Weibo, the huge user group of Weibo and the huge amount of blog information bring serious information overload problem, and many valuable information are hidden in the flood of information. In order to deal with and utilize the information in Weibo more effectively, it is a solution to start with the influential blog information and users under the related topics in Weibo. How do you understand the influence of blog themes and user themes in Weibo? What indicators are used to measure the impact of the theme? The intuitionistic empirical judgment can not meet the needs of reality, and it has become an urgent problem to build an effective evaluation model. In this paper, we first cluster the Weibo text to produce clusters based on different topics. In this paper, we introduce the text clustering algorithms commonly used in data processing, especially the principle and shortcomings of the Clustering Using representatives-CURE algorithm. The method of representative point selection in CURE algorithm is analyzed emphatically. Finally, the algorithm is improved based on the density and dispersion of the representative point. At the same time, according to the particularity of the short text and the large noise of the blog text, the algorithm is improved based on the density and dispersion of the representative point selection algorithm. When calculating the distance of blog text, the adaptive improvement of distance calculation is carried out by combining the Vector Space Model VSM-based with Jensen Shannon JS distance and Latent Dirichlet allocation LDA-based model. Based on these two improvements, this paper proposes a CURE based on Density and cattermaster DSCURE algorithm. Finally, the effectiveness of the improved algorithm is verified by experimental comparison. Secondly, by analyzing the characteristics of information dissemination on Weibo, this paper puts forward a model for evaluating the influence of blog themes. This model mainly considers the theme relevance, the content quality and the timeliness of blog posts. Among them, according to the quality assumption of Page Rank, we think that the better feedback shows that the quality of the blog is also high, so we mainly from the post forwarding level, A measure of the content quality of a blog post in terms of the quality of comments or retweets; a measure of the timeliness of a blog post, In this paper, based on Rayleigh distribution in statistics, we present a dynamic parameter adjustment model of blog activity to describe the trend that the activity of blog increases first and then decreases. Finally, the rationality and validity of the influence model are proved by experiments. Finally, on the basis of these studies, this paper synthetically considers the user's personal attributes, user's blog features and network structure factors. On the basis of Leader Rank, this paper puts forward an algorithm for evaluating the influence of user's topic, quality rank, and implements Quality Rank algorithm with matlab software. By comparing the sorting results with those of other influential sorting algorithms and analyzing the sorting results of different periods of time, it is concluded that the algorithm can effectively evaluate the influence of user themes, and the sorting results are more reasonable.
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.1;TP393.092

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 沈潔;趙雷;楊季文;李榕;;一種基于劃分的層次聚類算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年31期

2 趙妍;趙學(xué)民;;基于CURE的用戶聚類算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年11期

3 倪維健;黃亞樓;李飛;劉賞;;一種基于加權(quán)多代表點(diǎn)的層次聚類算法[J];計(jì)算機(jī)科學(xué);2005年05期

4 賀玲;吳玲達(dá);蔡益朝;;數(shù)據(jù)挖掘中的聚類算法綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年01期

5 郭俊,樊彥國;一種改進(jìn)的CURE聚類算法[J];內(nèi)蒙古石油化工;2005年08期

6 楊長春;俞克非;葉施仁;嚴(yán)水歌;丁虹;楊晶;;一種新的中文微博社區(qū)博主影響力的評估方法[J];計(jì)算機(jī)工程與應(yīng)用;2012年25期

7 代應(yīng);王旭;邢樂斌;;報(bào)廢汽車回收監(jiān)督的進(jìn)化博弈分析[J];西南交通大學(xué)學(xué)報(bào);2009年03期

8 朱慶華;竇一杰;;綠色供應(yīng)鏈中政府與核心企業(yè)進(jìn)化博弈模型[J];系統(tǒng)工程理論與實(shí)踐;2007年12期

9 馮興杰,黃亞樓;增量式CURE聚類算法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2004年10期

10 張賽;徐恪;李海濤;;微博類社交網(wǎng)絡(luò)中信息傳播的測量與分析[J];西安交通大學(xué)學(xué)報(bào);2013年02期

相關(guān)碩士學(xué)位論文 前9條

1 周昭濤;文本聚類分析效果評價及文本表示研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年

2 劉耀庭;社交網(wǎng)絡(luò)結(jié)構(gòu)研究[D];浙江大學(xué);2008年

3 黃翼彪;開源中文分詞器的比較研究[D];鄭州大學(xué);2013年

4 馬俊;基于話題傳播的微博用戶影響力分析[D];解放軍信息工程大學(xué);2013年

5 于淼;微博消息影響力評估及最大化算法研究[D];哈爾濱工程大學(xué);2013年

6 程志強(qiáng);基于新浪微博主題的用戶影響力研究[D];東北大學(xué);2013年

7 朱郭峰;基于領(lǐng)域的微博用戶影響力評估方法的研究[D];西南大學(xué);2014年

8 賀幸;微博影響力傳播模型的改進(jìn)與驗(yàn)證[D];中國科學(xué)技術(shù)大學(xué);2014年

9 邱榮財(cái);基于Spark平臺的CURE算法并行化設(shè)計(jì)與應(yīng)用[D];華南理工大學(xué);2014年

,

本文編號:1918002

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1918002.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6e670***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com