天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于改進(jìn)LDA模型的社交網(wǎng)絡(luò)用戶行為分析

發(fā)布時(shí)間:2018-05-14 11:24

  本文選題:社交網(wǎng)絡(luò) + 新浪微博; 參考:《南京郵電大學(xué)》2017年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,以微博為代表的社交網(wǎng)絡(luò)已經(jīng)成為用戶發(fā)布和獲取實(shí)時(shí)信息的重要手段。網(wǎng)絡(luò)信息的爆炸性增長(zhǎng),一方面帶來了更多消息來源,另一方面使得獲取實(shí)用信息的難度加大。通過有效的手段,精準(zhǔn)地發(fā)現(xiàn)、組織和利用社交網(wǎng)絡(luò)海量短文本背后隱藏的有價(jià)值的信息,分析研究用戶的行為特征,不僅具有較高的輿情監(jiān)控和商業(yè)推廣價(jià)值,還有助于互聯(lián)網(wǎng)的綜合管理。本文以國(guó)內(nèi)主流社交網(wǎng)站新浪微博為研究對(duì)象,對(duì)微博數(shù)據(jù)采集和用戶行為特點(diǎn)進(jìn)行深入的研究,主要貢獻(xiàn)和創(chuàng)新之處如下:1.微博信息爬蟲系統(tǒng)。本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于改進(jìn)布隆過濾器的新浪微博信息爬蟲系統(tǒng),該系統(tǒng)主要針對(duì)布隆過濾器誤識(shí)率問題進(jìn)行改進(jìn),提供了一種高效的URL去重方案,解決URL去重效率低的問題,同時(shí)解決了新浪微博用戶數(shù)據(jù)獲取和存儲(chǔ)問題。2.異常用戶行為分析。根據(jù)爬取到的微博用戶數(shù)據(jù),分析異常用戶的行為特點(diǎn)。對(duì)LDA模型進(jìn)行改進(jìn),設(shè)計(jì)適用于處理用戶關(guān)系數(shù)據(jù)的UR-LDA模型。利用UR-LDA模型對(duì)詞化后的微博垃圾用戶特征進(jìn)行降維和聚類。3.用戶關(guān)注話題分析。由爬蟲系統(tǒng)獲取的用戶數(shù)據(jù)挖掘出用戶關(guān)注的話題。首先用中文分詞系統(tǒng)ICTCLAS對(duì)用戶微博數(shù)據(jù)進(jìn)行分詞和去停用詞處理,然后利用UR-LDA模型進(jìn)行主題挖掘,最后對(duì)用戶進(jìn)行聚類分析。在實(shí)驗(yàn)過程中,本文將基于改進(jìn)的布隆過濾器和傳統(tǒng)的布隆過濾器過濾器進(jìn)行分析和比較,結(jié)果表明,本文設(shè)計(jì)的爬蟲系統(tǒng)具有更高的URL去重效率,爬取微博數(shù)據(jù)更加高效。通過LDA模型對(duì)和UR-LDA模型對(duì)微博主題挖掘效果對(duì)比,實(shí)驗(yàn)結(jié)果表明UR-LDA能更加有效地挖掘出用戶關(guān)注的話題。
[Abstract]:With the rapid development of the Internet, the social network represented by Weibo has become an important means for users to publish and obtain real-time information. The explosive growth of network information, on the one hand, brings more information sources, on the other hand, makes it more difficult to obtain practical information. Through effective means, we can accurately find, organize and use the valuable information hidden behind the mass short text books of social networks, analyze and study the behavior characteristics of users, which is not only of high value of monitoring and commercial promotion of public opinion. It also contributes to the integrated management of the Internet. This paper takes Sina Weibo, a popular social network in China, as the research object, and makes an in-depth study on the characteristics of Weibo data collection and user behavior. The main contributions and innovations are as follows: 1. Weibo information crawler system. In this paper, we design and implement a kind of Sina Weibo information crawler system based on improved Bron filter. This system mainly improves the error rate of Blunt filter, and provides an efficient URL de-reduplication scheme. To solve the problem of low efficiency of URL, and to solve the problem of user data acquisition and storage of Sina Weibo. 2. 2. Abnormal user behavior analysis. According to the crawling Weibo user data, the behavior characteristics of abnormal users are analyzed. The LDA model is improved and the UR-LDA model is designed for dealing with user relationship data. UR-LDA model is used to reduce and cluster Weibo garbage user features. 3. Users focus on topic analysis. The user data obtained from the crawler system is used to mine the topics concerned by the user. First, the Chinese word segmentation system (ICTCLAS) is used to segment and deactivate the user's Weibo data, then the UR-LDA model is used for topic mining, and finally, the clustering analysis of the user is carried out. In the course of experiment, this paper analyzes and compares the improved Bron filter and the traditional Blunt filter. The results show that the crawler system designed in this paper has higher URL removal efficiency and more efficient crawling Weibo data. By comparing the effect of LDA model pair and UR-LDA model on Weibo topic mining, the experimental results show that UR-LDA can more effectively mine the topics of user concern.
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.09;TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 裴超;肖詩(shī)斌;江敏;;基于改進(jìn)的LDA主題模型的微博用戶聚類研究[J];情報(bào)理論與實(shí)踐;2016年03期

2 潘昊;鄂海紅;宋美娜;;布隆過濾器在網(wǎng)頁(yè)消重中的應(yīng)用[J];軟件;2015年12期

3 唐曉麗;白宇;張桂平;蔡?hào)|風(fēng);;一種面向聚類的文本建模方法[J];山西大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年04期

4 胡吉明;陳果;;基于動(dòng)態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J];圖書情報(bào)工作;2014年02期

5 范巍;;微博爬蟲研究與實(shí)現(xiàn)[J];硅谷;2013年22期

6 黃恩博;;基于布隆過濾器的網(wǎng)頁(yè)搜索去重方法[J];現(xiàn)代計(jì)算機(jī);2013年21期

7 王連喜;蔣盛益;龐觀松;吳美玲;;微博用戶關(guān)系挖掘研究綜述[J];情報(bào)雜志;2012年12期

8 張鐵頭;馬麗霞;;使用HttpClient實(shí)現(xiàn)基于WEB的第三方登錄驗(yàn)證[J];電腦知識(shí)與技術(shù);2012年12期

9 樊鵬翼;王暉;姜志宏;李沛;;微博網(wǎng)絡(luò)測(cè)量研究[J];計(jì)算機(jī)研究與發(fā)展;2012年04期

10 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期

相關(guān)博士學(xué)位論文 前1條

1 謝鯤;布魯姆過濾器查詢算法及其應(yīng)用研究[D];湖南大學(xué);2007年

相關(guān)碩士學(xué)位論文 前4條

1 王峰;基于新浪微博輿情采集與傾向性分析系統(tǒng)[D];南京信息工程大學(xué);2016年

2 何傼菲;基于微博用戶行為的興趣模型構(gòu)建和可視化方法研究[D];哈爾濱工業(yè)大學(xué);2013年

3 董婧靈;基于LDA模型的文本聚類研究[D];華中師范大學(xué);2012年

4 鄭博文;基于Hadoop的分布式網(wǎng)絡(luò)爬蟲技術(shù)[D];哈爾濱工業(yè)大學(xué);2011年

,

本文編號(hào):1887663

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1887663.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a637a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
91后入中出内射在线| 国产免费一区二区不卡| 九九热视频经典在线观看| 亚洲欧美黑人一区二区| 中文字幕一区二区三区中文| 国产精品久久精品国产| 人体偷拍一区二区三区| 少妇丰满a一区二区三区| 五月婷婷欧美中文字幕| 亚洲精品国产美女久久久99| 国产亚洲精品岁国产微拍精品| 在线视频三区日本精品| 欧美日韩亚洲国产综合网| 91久久国产福利自产拍| 国产情侣激情在线对白| 国产在线观看不卡一区二区| 两性色午夜天堂免费视频| 亚洲国产成人久久一区二区三区| 免费高清欧美一区二区视频| 好吊妞视频这里有精品| 国产精品香蕉一级免费| 91精品国自产拍老熟女露脸| 成人午夜在线视频观看| 九九热精品视频免费观看| 麻豆一区二区三区在线免费| 国产av熟女一区二区三区四区 | 激情视频在线视频在线视频| 欧美日韩久久精品一区二区 | 日韩美成人免费在线视频| 九九蜜桃视频香蕉视频| 欧美一区二区三区喷汁尤物| 国自产拍偷拍福利精品图片| 亚洲国产成人久久一区二区三区| 国产目拍亚洲精品区一区| 91日韩在线视频观看| 九九热精彩视频在线免费| 精品国自产拍天天青青草原| 国产成人精品国内自产拍| 日韩欧美国产高清在线| 亚洲中文字幕熟女丝袜久久| 人妻中文一区二区三区|