社交網(wǎng)絡(luò)數(shù)據(jù)采集及傳播路徑分析
發(fā)布時(shí)間:2023-06-16 19:30
在互聯(lián)網(wǎng)高速發(fā)展的今天,網(wǎng)絡(luò)用戶的快速增長(zhǎng)直接導(dǎo)致了互聯(lián)網(wǎng)上的輿論呈現(xiàn)出爆炸式的增長(zhǎng),尤其是當(dāng)社交網(wǎng)絡(luò)平臺(tái)的出現(xiàn)之后,輿論的傳播更加是不受控制。輿論監(jiān)控也成為近年來研究的重點(diǎn)問題。本文主要針對(duì)現(xiàn)今社交網(wǎng)絡(luò)中最具有代表性的兩個(gè)平臺(tái)Facebook和Twitter進(jìn)行研究。研究過程主要分為兩部分:第一、設(shè)計(jì)一套優(yōu)良的采集系統(tǒng)針對(duì)Facebook和Twitter進(jìn)行數(shù)據(jù)采集,設(shè)計(jì)過程中,我們分析了兩個(gè)平臺(tái)的登陸授權(quán)協(xié)議OAuth的工作原理、針對(duì)不同對(duì)象數(shù)據(jù)采集的API格式和第三方SDK的使用?紤]到Facebook的好友獲取局限性,我們針對(duì)Facebook使用基于HTTP流和API結(jié)合的方式來獲取用戶數(shù)據(jù),而Twitter使用API獲取用戶數(shù)據(jù)的方式。最后針對(duì)Facebook和Twitter獲取數(shù)據(jù)的性能進(jìn)行比較。第二、針對(duì)獲取到的社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析處理,首先對(duì)抓取到的240W條的推文消息進(jìn)行過濾操作,區(qū)分出中文和英文;然后分析推文的轉(zhuǎn)發(fā)格式,對(duì)推文進(jìn)行預(yù)處理,通過正則表達(dá)式提取出轉(zhuǎn)發(fā)關(guān)系,最后使用基于simhash的方法對(duì)預(yù)處理后的推文進(jìn)行去重操作,統(tǒng)計(jì)重復(fù)推文數(shù)據(jù),分析實(shí)驗(yàn)結(jié)果。之后收...
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 引言
1.1 課題研究背景、內(nèi)容及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 Web2.0 和社交網(wǎng)絡(luò)的發(fā)展
1.2.2 網(wǎng)絡(luò)采集及其現(xiàn)狀分析
1.2.3 傳播路徑現(xiàn)狀分析
1.3 論文貢獻(xiàn)
1.4 論文安排
2 社交網(wǎng)絡(luò)數(shù)據(jù)采集
2.1 OAuth 協(xié)議介紹
2.2 系統(tǒng)接口介紹
2.3 系統(tǒng)總體設(shè)計(jì)
2.3.1 登陸模塊
2.3.2 數(shù)據(jù)獲取模塊
2.3.3 數(shù)據(jù)搜索模塊
2.3.4 數(shù)據(jù)表的設(shè)計(jì)
2.4 采集性能和需要注意的問題
2.5 本章小結(jié)
3 推文相似性分析
3.1 研究目的
3.2 基本概念和相關(guān)工作
3.3 推文去重分析
3.3.1 Twitter 消息的官方轉(zhuǎn)發(fā)格式
3.3.2 Twitter 消息的非官方轉(zhuǎn)發(fā)格式
3.3.3 Twitter 中推文的預(yù)處理
3.3.4 消息去重的方法
3.4 去重實(shí)驗(yàn)數(shù)據(jù)分析
3.4.1 統(tǒng)計(jì)推文語言分布
3.4.2 推文長(zhǎng)度分布統(tǒng)計(jì)
3.4.3 預(yù)處理后推文長(zhǎng)度的分布
3.4.4 推文去重
3.4.5 用戶發(fā)送消息
3.4.6 重復(fù)數(shù)據(jù)展示
3.4.7 系統(tǒng)界面展示
3.5 本章小結(jié)
4 推文轉(zhuǎn)發(fā)分析
4.1 實(shí)驗(yàn)設(shè)計(jì)過程
4.2 實(shí)驗(yàn)結(jié)果數(shù)據(jù)分析和展示
4.3 本章小結(jié)
結(jié)論
致謝
個(gè)人簡(jiǎn)介
參考文獻(xiàn)
本文編號(hào):3833848
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 引言
1.1 課題研究背景、內(nèi)容及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 Web2.0 和社交網(wǎng)絡(luò)的發(fā)展
1.2.2 網(wǎng)絡(luò)采集及其現(xiàn)狀分析
1.2.3 傳播路徑現(xiàn)狀分析
1.3 論文貢獻(xiàn)
1.4 論文安排
2 社交網(wǎng)絡(luò)數(shù)據(jù)采集
2.1 OAuth 協(xié)議介紹
2.2 系統(tǒng)接口介紹
2.3 系統(tǒng)總體設(shè)計(jì)
2.3.1 登陸模塊
2.3.2 數(shù)據(jù)獲取模塊
2.3.3 數(shù)據(jù)搜索模塊
2.3.4 數(shù)據(jù)表的設(shè)計(jì)
2.4 采集性能和需要注意的問題
2.5 本章小結(jié)
3 推文相似性分析
3.1 研究目的
3.2 基本概念和相關(guān)工作
3.3 推文去重分析
3.3.1 Twitter 消息的官方轉(zhuǎn)發(fā)格式
3.3.2 Twitter 消息的非官方轉(zhuǎn)發(fā)格式
3.3.3 Twitter 中推文的預(yù)處理
3.3.4 消息去重的方法
3.4 去重實(shí)驗(yàn)數(shù)據(jù)分析
3.4.1 統(tǒng)計(jì)推文語言分布
3.4.2 推文長(zhǎng)度分布統(tǒng)計(jì)
3.4.3 預(yù)處理后推文長(zhǎng)度的分布
3.4.4 推文去重
3.4.5 用戶發(fā)送消息
3.4.6 重復(fù)數(shù)據(jù)展示
3.4.7 系統(tǒng)界面展示
3.5 本章小結(jié)
4 推文轉(zhuǎn)發(fā)分析
4.1 實(shí)驗(yàn)設(shè)計(jì)過程
4.2 實(shí)驗(yàn)結(jié)果數(shù)據(jù)分析和展示
4.3 本章小結(jié)
結(jié)論
致謝
個(gè)人簡(jiǎn)介
參考文獻(xiàn)
本文編號(hào):3833848
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3833848.html
最近更新
教材專著