天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于新浪微博數(shù)據(jù)的處理與用戶行為分析

發(fā)布時(shí)間:2017-07-25 16:17

  本文關(guān)鍵詞:基于新浪微博數(shù)據(jù)的處理與用戶行為分析


  更多相關(guān)文章: 社交網(wǎng)絡(luò) 網(wǎng)絡(luò)爬蟲 機(jī)器學(xué)習(xí) 特征提取 用戶行為 情感分類 預(yù)測(cè)


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,社交網(wǎng)絡(luò)在人們的日常生活中扮演著越來越重要的角色,同時(shí)也在改變著信息的傳播方式,從原來的平面媒體與電視廣播相結(jié)合到現(xiàn)在多元化平臺(tái)的改變。人們獲取熱門信息和自己感興趣的信息的方式也與社交網(wǎng)絡(luò)變得越來越密不可分。伴隨而來的是通過分析大量的用戶數(shù)據(jù)對(duì)用戶的各種行為進(jìn)行深度挖掘,從而優(yōu)化信息傳遞效率,節(jié)約人們從海量信息中提取對(duì)自身有價(jià)值信息的時(shí)間,并挖掘其潛在的巨大的商業(yè)價(jià)值。國外社交網(wǎng)絡(luò)Facebook與Twitter的巨大成功也在很大程度上促進(jìn)了國內(nèi)社交網(wǎng)絡(luò)平臺(tái)的發(fā)展。本文以國內(nèi)的熱門社交網(wǎng)絡(luò)平臺(tái)新浪微博的用戶信息與微博信息為研究對(duì)象,主要完成了以下四個(gè)方面的工作。第一,研究了目前比較流行的網(wǎng)絡(luò)爬蟲技術(shù)。通過比較和綜合分析,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)分別對(duì)微博內(nèi)容、用戶信息、用戶關(guān)系信息、微博關(guān)系信息等數(shù)據(jù)進(jìn)行采集并存儲(chǔ),然后利用獲取到的數(shù)據(jù)按需進(jìn)行特征提取的數(shù)據(jù)采集系統(tǒng)。對(duì)于獲取到的微博數(shù)據(jù),根據(jù)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系設(shè)計(jì)了相應(yīng)的數(shù)據(jù)庫。此外,在爬取數(shù)據(jù)的過程中,不僅使用多線程技術(shù)大幅提高了爬蟲的工作效率,還設(shè)計(jì)了多APP Key復(fù)用機(jī)制,突破了新浪對(duì)API調(diào)用次數(shù)的限制,從而使爬蟲系統(tǒng)可以持續(xù)工作運(yùn)行。第二,為了對(duì)用戶的轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測(cè),并找出對(duì)用戶轉(zhuǎn)發(fā)行為有重要影響的微博特征,本文通過研究新浪微博包括用戶和微博內(nèi)容在內(nèi)的13項(xiàng)特征,進(jìn)行機(jī)器學(xué)習(xí),建立了特征分析模型,找出影響微博轉(zhuǎn)發(fā)的重要因子。首次對(duì)特征因子組合進(jìn)行研究,探求特征之間的關(guān)聯(lián)程度。同時(shí)用不同的機(jī)器學(xué)習(xí)算法進(jìn)行模型訓(xùn)練比較最后的預(yù)測(cè)結(jié)果,找出預(yù)測(cè)準(zhǔn)確率最高的算法。第三,針對(duì)情感預(yù)測(cè)問題,建立了基于混合分類器的情感預(yù)測(cè)模型(Hybrid Classifier Sentiment Prediction Model,簡稱HCSPM)。該模型針結(jié)合四種常見的機(jī)器學(xué)習(xí)分類算法,提取了四個(gè)不同分類器的預(yù)測(cè)標(biāo)簽和預(yù)測(cè)得分,通過加權(quán)計(jì)算,對(duì)微博的情感分類進(jìn)行預(yù)測(cè)。第四,為了對(duì)提高研究過程中的實(shí)驗(yàn)效率和對(duì)實(shí)驗(yàn)結(jié)果更加直觀、準(zhǔn)確的分析,本文設(shè)計(jì)了用戶行為分析系統(tǒng),結(jié)合了不同的分類算法,使得在分析用戶行為時(shí)更加清晰和高效。綜上,本文通過基于微博數(shù)據(jù)的爬取與處理,對(duì)微博用戶的行為進(jìn)行了分析,并在最后提出了今后進(jìn)一步研究的主要方向。
【關(guān)鍵詞】:社交網(wǎng)絡(luò) 網(wǎng)絡(luò)爬蟲 機(jī)器學(xué)習(xí) 特征提取 用戶行為 情感分類 預(yù)測(cè)
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.1
【目錄】:
  • 致謝5-6
  • 摘要6-7
  • ABSTRACT7-9
  • 序言9-12
  • 1 引言12-20
  • 1.1 研究背景12-14
  • 1.2 研究意義14-15
  • 1.3 國內(nèi)外研究現(xiàn)狀15-18
  • 1.3.1 關(guān)于微博的預(yù)測(cè)研究15-16
  • 1.3.2 關(guān)于微博轉(zhuǎn)發(fā)行為預(yù)測(cè)的研究16-17
  • 1.3.3 微博情感分析的預(yù)測(cè)17-18
  • 1.4 本文主要工作18-19
  • 1.5 論文組織結(jié)構(gòu)19-20
  • 2 微博數(shù)據(jù)的獲取與存儲(chǔ)20-33
  • 2.1 爬蟲系統(tǒng)的設(shè)計(jì)與調(diào)度20-23
  • 2.2 微博數(shù)據(jù)的獲取23-30
  • 2.2.1 用戶信息獲取23-25
  • 2.2.2 用戶關(guān)系獲取25-27
  • 2.2.3 微博內(nèi)容獲取27-30
  • 2.3 數(shù)據(jù)庫設(shè)計(jì)30-32
  • 2.4 本章小結(jié)32-33
  • 3 基于微博特征的用戶轉(zhuǎn)發(fā)行為預(yù)測(cè)33-52
  • 3.1 預(yù)測(cè)模型的設(shè)計(jì)與描述33
  • 3.2 特征提取33-35
  • 3.3 基本分類算法35-44
  • 3.3.1 支持向量機(jī)算法36-39
  • 3.3.2 K近鄰算法39-40
  • 3.3.3 樸素貝葉斯算法40-42
  • 3.3.4 C4.5決策樹42-44
  • 3.4 實(shí)驗(yàn)內(nèi)容44-51
  • 3.4.1 實(shí)驗(yàn)環(huán)境45
  • 3.4.2 文本分類評(píng)價(jià)指標(biāo)45-46
  • 3.4.3 實(shí)驗(yàn)描述及結(jié)果分析46-51
  • 3.5 本章小結(jié)51-52
  • 4 基于分類器混合模型的微博情感預(yù)測(cè)52-58
  • 4.1 數(shù)據(jù)處理52
  • 4.2 HCSPM52-54
  • 4.2.1 HCSPM工作原理52-53
  • 4.2.2 HCSPM情感分類步驟53-54
  • 4.3 實(shí)驗(yàn)內(nèi)容54-57
  • 4.3.1 實(shí)驗(yàn)環(huán)境54
  • 4.3.2 HCSPM性能分析54-57
  • 4.3.3 實(shí)驗(yàn)結(jié)果比較與分析57
  • 4.4 本章小結(jié)57-58
  • 5 用戶行為分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)58-66
  • 5.1 系統(tǒng)概述58-61
  • 5.1.1 需求分析58-59
  • 5.1.2 系統(tǒng)工作流程59-61
  • 5.2 系統(tǒng)功能模塊設(shè)計(jì)61-65
  • 5.2.1 轉(zhuǎn)發(fā)行為預(yù)測(cè)模塊設(shè)計(jì)62-63
  • 5.2.2 用戶情感預(yù)測(cè)模塊設(shè)計(jì)63-65
  • 5.3 本章小結(jié)65-66
  • 6 結(jié)論與展望66-67
  • 參考文獻(xiàn)67-70
  • 作者簡歷及攻讀碩士/博士學(xué)位期間取得的研究成果70-72
  • 學(xué)位論文數(shù)據(jù)集72

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 馬維亮;;用戶行為分析系統(tǒng)在寬帶網(wǎng)絡(luò)中的應(yīng)用[J];科技信息(科學(xué)教研);2008年23期

2 喬志偉;;基于用戶行為的3G業(yè)務(wù)分析與探討[J];移動(dòng)通信;2010年12期

3 龔尚福;姜曉旭;;基于用戶行為分析的廣告欺詐點(diǎn)擊檢測(cè)[J];計(jì)算機(jī)應(yīng)用與軟件;2011年04期

4 陶彩霞;謝曉軍;陳康;郭利榮;劉春;;基于云計(jì)算的移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)用戶行為分析引擎設(shè)計(jì)[J];電信科學(xué);2013年03期

5 毛承潔;張龍;龐川;陳潔敏;;社會(huì)網(wǎng)絡(luò)服務(wù)及其用戶行為分析[J];華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2013年02期

6 雒江濤;胡燕清;徐孝娜;周進(jìn)艷;;基于CDMA2000 1x EVDO網(wǎng)絡(luò)的用戶行為分析模型設(shè)計(jì)[J];電視技術(shù);2013年07期

7 許春玲;范志剛;鄭小盈;李明齊;;有線電視用戶行為分析實(shí)踐[J];網(wǎng)絡(luò)新媒體技術(shù);2014年01期

8 李朝陽;謝傳中;;一種移動(dòng)互聯(lián)網(wǎng)用戶行為分析系統(tǒng)的頂層設(shè)計(jì)[J];江西通信科技;2014年01期

9 劉英梅;;大數(shù)據(jù)時(shí)代的信息用戶行為分析[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2014年05期

10 陸群峰;;寬帶上網(wǎng)用戶行為分析[J];有線電視技術(shù);2006年02期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前7條

1 趙勇;;移動(dòng)互聯(lián)網(wǎng)用戶行為分析系統(tǒng)技術(shù)架構(gòu)淺析[A];2012全國無線及移動(dòng)通信學(xué)術(shù)大會(huì)論文集(下)[C];2012年

2 馮銘;王保進(jìn);蔡建宇;;基于云計(jì)算的可重構(gòu)移動(dòng)互聯(lián)網(wǎng)用戶行為分析系統(tǒng)的設(shè)計(jì)[A];CCF NCSC 2011——第二屆中國計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年

3 岑榮偉;劉奕群;張敏;茹立云;馬少平;;網(wǎng)絡(luò)搜索引擎用戶行為分析和研究[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

4 趙艷梅;朱曉燕;;轉(zhuǎn)變運(yùn)維模式,迎接移動(dòng)互聯(lián)網(wǎng)新挑戰(zhàn)[A];中國通信學(xué)會(huì)信息通信網(wǎng)絡(luò)技術(shù)委員會(huì)2011年年會(huì)論文集(上冊(cè))[C];2011年

5 劉奕群;張敏;馬少平;;用戶行為分析在網(wǎng)絡(luò)信息檢索中的應(yīng)用概述[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

6 毛翔博;齊觀德;李石堅(jiān);潘綱;;基于位置軌跡加權(quán)網(wǎng)絡(luò)圖的用戶行為分析識(shí)別算法[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年

7 爾古打機(jī);蘇小龍;朱征;;基于用戶行為分析的移動(dòng)終端偏好模型研究[A];第八屆(2013)中國管理學(xué)年會(huì)——商務(wù)智能分會(huì)場(chǎng)論文集[C];2013年

中國重要報(bào)紙全文數(shù)據(jù)庫 前3條

1 譚景華邋楊國良;IP網(wǎng)絡(luò)用戶行為分析方法的探討[N];人民郵電;2007年

2 本報(bào)記者 逄丹;建設(shè)用戶行為分析智慧模型[N];通信產(chǎn)業(yè)報(bào);2010年

3 李中朝邋通訊員 黃偉;重慶電信建成寬帶用戶行為分析系統(tǒng)[N];人民郵電;2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前6條

1 王琪;新媒體系統(tǒng)中用戶行為分析與系統(tǒng)設(shè)計(jì)[D];復(fù)旦大學(xué);2014年

2 羅海艷;移動(dòng)用戶網(wǎng)絡(luò)行為分析與預(yù)測(cè)方法研究[D];沈陽農(nóng)業(yè)大學(xué);2015年

3 劉鵬;網(wǎng)絡(luò)用戶行為分析的若干問題研究[D];北京郵電大學(xué);2010年

4 延皓;基于流量監(jiān)測(cè)的網(wǎng)絡(luò)用戶行為分析[D];北京郵電大學(xué);2011年

5 竇伊男;根據(jù)多維特征的網(wǎng)絡(luò)用戶分類研究[D];北京郵電大學(xué);2010年

6 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 江惠彬;基于Web日志的用戶行為分析系統(tǒng)的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2015年

2 李亞飛;基于用戶行為分析的冰箱設(shè)計(jì)研究[D];山東大學(xué);2015年

3 石釗;基于網(wǎng)絡(luò)用戶行為分析的用戶推薦反饋系統(tǒng)的設(shè)計(jì)[D];北京化工大學(xué);2015年

4 李婷蔚;基于移動(dòng)校園應(yīng)用的用戶行為分析及性能改進(jìn)[D];電子科技大學(xué);2014年

5 王穎穎;基于Hadoop的用戶行為分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年

6 馬仕玉;聚類算法及其在校園網(wǎng)用戶行為分析中的應(yīng)用[D];重慶交通大學(xué);2015年

7 徐娟;基于用戶行為分析的核能領(lǐng)域垂直檢索系統(tǒng)研究[D];合肥工業(yè)大學(xué);2015年

8 陳嘉翼;基于小波聚類的網(wǎng)絡(luò)用戶行為分析研究[D];重慶大學(xué);2015年

9 胡曉祥;基于飛天云平臺(tái)的海量網(wǎng)絡(luò)用戶行為分析技術(shù)研究[D];南京大學(xué);2014年

10 汪傳章;基于博弈論的云用戶行為分析預(yù)測(cè)模型研究與分析[D];東華理工大學(xué);2016年

,

本文編號(hào):572164

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/572164.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶44f14***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com