基于改進(jìn)LDA模型的社交網(wǎng)絡(luò)用戶行為分析
本文選題:社交網(wǎng)絡(luò) + 新浪微博; 參考:《南京郵電大學(xué)》2017年碩士論文
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,以微博為代表的社交網(wǎng)絡(luò)已經(jīng)成為用戶發(fā)布和獲取實(shí)時(shí)信息的重要手段。網(wǎng)絡(luò)信息的爆炸性增長(zhǎng),一方面帶來了更多消息來源,另一方面使得獲取實(shí)用信息的難度加大。通過有效的手段,精準(zhǔn)地發(fā)現(xiàn)、組織和利用社交網(wǎng)絡(luò)海量短文本背后隱藏的有價(jià)值的信息,分析研究用戶的行為特征,不僅具有較高的輿情監(jiān)控和商業(yè)推廣價(jià)值,還有助于互聯(lián)網(wǎng)的綜合管理。本文以國(guó)內(nèi)主流社交網(wǎng)站新浪微博為研究對(duì)象,對(duì)微博數(shù)據(jù)采集和用戶行為特點(diǎn)進(jìn)行深入的研究,主要貢獻(xiàn)和創(chuàng)新之處如下:1.微博信息爬蟲系統(tǒng)。本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于改進(jìn)布隆過濾器的新浪微博信息爬蟲系統(tǒng),該系統(tǒng)主要針對(duì)布隆過濾器誤識(shí)率問題進(jìn)行改進(jìn),提供了一種高效的URL去重方案,解決URL去重效率低的問題,同時(shí)解決了新浪微博用戶數(shù)據(jù)獲取和存儲(chǔ)問題。2.異常用戶行為分析。根據(jù)爬取到的微博用戶數(shù)據(jù),分析異常用戶的行為特點(diǎn)。對(duì)LDA模型進(jìn)行改進(jìn),設(shè)計(jì)適用于處理用戶關(guān)系數(shù)據(jù)的UR-LDA模型。利用UR-LDA模型對(duì)詞化后的微博垃圾用戶特征進(jìn)行降維和聚類。3.用戶關(guān)注話題分析。由爬蟲系統(tǒng)獲取的用戶數(shù)據(jù)挖掘出用戶關(guān)注的話題。首先用中文分詞系統(tǒng)ICTCLAS對(duì)用戶微博數(shù)據(jù)進(jìn)行分詞和去停用詞處理,然后利用UR-LDA模型進(jìn)行主題挖掘,最后對(duì)用戶進(jìn)行聚類分析。在實(shí)驗(yàn)過程中,本文將基于改進(jìn)的布隆過濾器和傳統(tǒng)的布隆過濾器過濾器進(jìn)行分析和比較,結(jié)果表明,本文設(shè)計(jì)的爬蟲系統(tǒng)具有更高的URL去重效率,爬取微博數(shù)據(jù)更加高效。通過LDA模型對(duì)和UR-LDA模型對(duì)微博主題挖掘效果對(duì)比,實(shí)驗(yàn)結(jié)果表明UR-LDA能更加有效地挖掘出用戶關(guān)注的話題。
[Abstract]:With the rapid development of the Internet, the social network represented by Weibo has become an important means for users to publish and obtain real-time information. The explosive growth of network information, on the one hand, brings more information sources, on the other hand, makes it more difficult to obtain practical information. Through effective means, we can accurately find, organize and use the valuable information hidden behind the mass short text books of social networks, analyze and study the behavior characteristics of users, which is not only of high value of monitoring and commercial promotion of public opinion. It also contributes to the integrated management of the Internet. This paper takes Sina Weibo, a popular social network in China, as the research object, and makes an in-depth study on the characteristics of Weibo data collection and user behavior. The main contributions and innovations are as follows: 1. Weibo information crawler system. In this paper, we design and implement a kind of Sina Weibo information crawler system based on improved Bron filter. This system mainly improves the error rate of Blunt filter, and provides an efficient URL de-reduplication scheme. To solve the problem of low efficiency of URL, and to solve the problem of user data acquisition and storage of Sina Weibo. 2. 2. Abnormal user behavior analysis. According to the crawling Weibo user data, the behavior characteristics of abnormal users are analyzed. The LDA model is improved and the UR-LDA model is designed for dealing with user relationship data. UR-LDA model is used to reduce and cluster Weibo garbage user features. 3. Users focus on topic analysis. The user data obtained from the crawler system is used to mine the topics concerned by the user. First, the Chinese word segmentation system (ICTCLAS) is used to segment and deactivate the user's Weibo data, then the UR-LDA model is used for topic mining, and finally, the clustering analysis of the user is carried out. In the course of experiment, this paper analyzes and compares the improved Bron filter and the traditional Blunt filter. The results show that the crawler system designed in this paper has higher URL removal efficiency and more efficient crawling Weibo data. By comparing the effect of LDA model pair and UR-LDA model on Weibo topic mining, the experimental results show that UR-LDA can more effectively mine the topics of user concern.
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.09;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 裴超;肖詩(shī)斌;江敏;;基于改進(jìn)的LDA主題模型的微博用戶聚類研究[J];情報(bào)理論與實(shí)踐;2016年03期
2 潘昊;鄂海紅;宋美娜;;布隆過濾器在網(wǎng)頁(yè)消重中的應(yīng)用[J];軟件;2015年12期
3 唐曉麗;白宇;張桂平;蔡?hào)|風(fēng);;一種面向聚類的文本建模方法[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年04期
4 胡吉明;陳果;;基于動(dòng)態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J];圖書情報(bào)工作;2014年02期
5 范巍;;微博爬蟲研究與實(shí)現(xiàn)[J];硅谷;2013年22期
6 黃恩博;;基于布隆過濾器的網(wǎng)頁(yè)搜索去重方法[J];現(xiàn)代計(jì)算機(jī);2013年21期
7 王連喜;蔣盛益;龐觀松;吳美玲;;微博用戶關(guān)系挖掘研究綜述[J];情報(bào)雜志;2012年12期
8 張鐵頭;馬麗霞;;使用HttpClient實(shí)現(xiàn)基于WEB的第三方登錄驗(yàn)證[J];電腦知識(shí)與技術(shù);2012年12期
9 樊鵬翼;王暉;姜志宏;李沛;;微博網(wǎng)絡(luò)測(cè)量研究[J];計(jì)算機(jī)研究與發(fā)展;2012年04期
10 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期
相關(guān)博士學(xué)位論文 前1條
1 謝鯤;布魯姆過濾器查詢算法及其應(yīng)用研究[D];湖南大學(xué);2007年
相關(guān)碩士學(xué)位論文 前4條
1 王峰;基于新浪微博輿情采集與傾向性分析系統(tǒng)[D];南京信息工程大學(xué);2016年
2 何傼菲;基于微博用戶行為的興趣模型構(gòu)建和可視化方法研究[D];哈爾濱工業(yè)大學(xué);2013年
3 董婧靈;基于LDA模型的文本聚類研究[D];華中師范大學(xué);2012年
4 鄭博文;基于Hadoop的分布式網(wǎng)絡(luò)爬蟲技術(shù)[D];哈爾濱工業(yè)大學(xué);2011年
,本文編號(hào):1887663
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1887663.html