基于用戶特征的社交網(wǎng)絡(luò)信息傳播的研究
發(fā)布時(shí)間:2017-08-04 06:23
本文關(guān)鍵詞:基于用戶特征的社交網(wǎng)絡(luò)信息傳播的研究
更多相關(guān)文章: 信息傳播 增量混合特征 基于數(shù)據(jù)點(diǎn)的排序?qū)W習(xí) 增量學(xué)習(xí)
【摘要】:隨著信息技術(shù)和社交網(wǎng)絡(luò)的快速發(fā)展,在線社交網(wǎng)絡(luò)已經(jīng)成為互聯(lián)網(wǎng)信息發(fā)布和傳播的主要渠道。為更好的研究用戶行為模式,掌握輿論熱點(diǎn),挖掘用戶興趣并構(gòu)建用戶畫像,信息傳播逐漸成為當(dāng)前社交網(wǎng)絡(luò)的研究熱點(diǎn)。當(dāng)前,信息傳播研究分為針對(duì)信息傳播性質(zhì)的分析型研究、面向信息傳播過程建模的解釋型研究以及面向信息傳播參與者行為選擇建模的預(yù)測(cè)型研究。分析型方法側(cè)重對(duì)信息傳播模式的分析而缺乏對(duì)信息傳播本質(zhì)的深層探討;解釋型方法嘗試對(duì)尚未明了的信息傳播機(jī)制建模,因而在適用性方面受到一定限制;預(yù)測(cè)型方法嘗試對(duì)用戶轉(zhuǎn)發(fā)選擇行為進(jìn)行預(yù)測(cè),但由于靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)的假設(shè)而缺少對(duì)社交網(wǎng)絡(luò)增量特性的支持。因此,全面、動(dòng)態(tài)、增量地處理社交網(wǎng)絡(luò)數(shù)據(jù)成為預(yù)測(cè)信息傳播亟待解決的問題。當(dāng)前,機(jī)器學(xué)習(xí)技術(shù)在眾多領(lǐng)域取得了重大突破,排序?qū)W習(xí)模型(Learning To Rank,簡(jiǎn)稱LTR模型)作為機(jī)器學(xué)習(xí)和信息檢索領(lǐng)域最重要的模型之一,受到越來越多的關(guān)注。排序?qū)W習(xí)以及其他機(jī)器學(xué)習(xí)模型被用于解決信息傳播問題后,取得了較好的效果,但仍然存在一定缺陷:第一,由于信息傳播機(jī)制尚未明了,導(dǎo)致特征生成方法不夠明確,而現(xiàn)有特征也不足以體現(xiàn)信息傳播的本質(zhì);第二,社交網(wǎng)絡(luò)動(dòng)態(tài)結(jié)構(gòu)給研究信息傳播帶來難度,動(dòng)態(tài)的跟蹤用戶拓?fù)潢P(guān)系變化比較困難,另外增量變化的社交數(shù)據(jù)也要求增量的構(gòu)建多維復(fù)合特征;第三,由于社交網(wǎng)絡(luò)用戶和信息數(shù)量過大,排序?qū)W習(xí)的候選集生成方案在社交網(wǎng)絡(luò)環(huán)境下的復(fù)雜度較高,并且排序?qū)W習(xí)缺乏對(duì)數(shù)據(jù)和模型的增量性的支持。因此,本文針對(duì)基于排序?qū)W習(xí)的信息傳播預(yù)測(cè)算法進(jìn)行了相關(guān)研究,主要工作包括:(1)通過選取分析型、解釋型和預(yù)測(cè)型方法中的典型特征,在機(jī)器學(xué)習(xí)算法框架內(nèi),從三個(gè)方面進(jìn)行了特征擴(kuò)展:用戶屬性特征、用戶關(guān)系特征及微博與事件特征,實(shí)驗(yàn)結(jié)果表明擴(kuò)展后的特征有助于提高信息傳播預(yù)測(cè)的精度。(2)采用信息流入流出的動(dòng)態(tài)結(jié)構(gòu)代替靜態(tài)拓?fù)浣Y(jié)構(gòu),在此基礎(chǔ)上并提出了基于時(shí)間窗的增量混合特征生成算法(Incremental Mix Feature Generation,簡(jiǎn)稱I-MFG算法),該方法基于社交網(wǎng)絡(luò)特征擴(kuò)展以及增量學(xué)習(xí)思想改進(jìn)了社交網(wǎng)絡(luò)特征生成方法。實(shí)驗(yàn)結(jié)果表明I-MFG算法可以提高混合特征的預(yù)測(cè)準(zhǔn)確率,較好的適應(yīng)增量的數(shù)據(jù),較準(zhǔn)確的反映用戶行為特征的動(dòng)態(tài)性和復(fù)雜性。(3)針對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)和預(yù)測(cè)模型增量性的需要,本文基于LTR模型提出了新的基于數(shù)據(jù)點(diǎn)的增量排序?qū)W習(xí)算法(Incremental pointwise Learning To Rank,簡(jiǎn)稱I-pLTR算法)。該方法利用動(dòng)態(tài)的信息流通道代替用戶關(guān)注拓?fù)?可以適應(yīng)動(dòng)態(tài)變化的網(wǎng)絡(luò)結(jié)構(gòu),并且較大的提高了LTR算法的候選集生成效率。另外,I-pLTR算法基于增量學(xué)習(xí)的思想,利用已經(jīng)訓(xùn)練過時(shí)間窗內(nèi)的數(shù)據(jù)生成部分實(shí)例內(nèi)存和部分概念內(nèi)存,將算法的訓(xùn)練過程及模型的增量過程融合,新浪微博和Twitter數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該算法可以有效減少候選集生成時(shí)間,同時(shí)I-pLTR算法具有較好的隨著時(shí)間推移的泛化能力。
【關(guān)鍵詞】:信息傳播 增量混合特征 基于數(shù)據(jù)點(diǎn)的排序?qū)W習(xí) 增量學(xué)習(xí)
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:G206;TP181
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 緒論11-16
- 1.1 研究背景11
- 1.2 研究現(xiàn)狀11-14
- 1.2.1 分析型研究11-12
- 1.2.2 解釋型研究12-13
- 1.2.3 預(yù)測(cè)型研究13-14
- 1.3 本文研究?jī)?nèi)容14-15
- 1.4 本文組織結(jié)構(gòu)15-16
- 第二章 相關(guān)技術(shù)16-30
- 2.1 信息傳播概述16-22
- 2.1.1 基本概念16-19
- 2.1.2 信息傳播性質(zhì)19-20
- 2.1.3 信息傳播機(jī)制20-22
- 2.2 基于機(jī)器學(xué)習(xí)的預(yù)測(cè)型方法22-24
- 2.2.1 研究框架22
- 2.2.2 任務(wù)建模與性能度量22-23
- 2.2.3 研究信息傳播常用特征23-24
- 2.3 排序?qū)W習(xí)算法24-27
- 2.3.1 基本概念24-26
- 2.3.2 排序?qū)W習(xí)算法分類26
- 2.3.3 排序?qū)W習(xí)與社交網(wǎng)絡(luò)分析26-27
- 2.4 增量學(xué)習(xí)27-29
- 2.4.1 基本概念27
- 2.4.2 增量學(xué)習(xí)算法27-28
- 2.4.3 增量學(xué)習(xí)與社交網(wǎng)絡(luò)分析28-29
- 2.5 本章小結(jié)29-30
- 第三章 增量混合特征生成算法30-44
- 3.1 增量混合特征生成算法概述30-32
- 3.1.1 符號(hào)與基本假設(shè)30-31
- 3.1.2 算法步驟與流程圖31-32
- 3.2 屬性庫(kù)的設(shè)計(jì)與生成32-33
- 3.2.1 用戶屬性庫(kù)32
- 3.2.2 關(guān)系屬性庫(kù)32-33
- 3.2.3 微博與事件屬性庫(kù)33
- 3.3 混合特征庫(kù)的設(shè)計(jì)與生成33-38
- 3.3.1 用戶特征34-36
- 3.3.2 關(guān)系特征36-37
- 3.3.3 微博與事件特征37-38
- 3.4 特征的增量更新方法38-43
- 3.4.1 不同時(shí)間粒度的特征38-39
- 3.4.2 時(shí)間窗的選擇39-41
- 3.4.3 特征的增量更新過程41-43
- 3.5 本章小結(jié)43-44
- 第四章 基于數(shù)據(jù)點(diǎn)的增量排序?qū)W習(xí)算法44-57
- 4.1 基于數(shù)據(jù)點(diǎn)的增量排序?qū)W習(xí)算法概述44-46
- 4.1.1 符號(hào)與基本假設(shè)44
- 4.1.2 算法步驟與流程圖44-46
- 4.2 訓(xùn)練集生成46-47
- 4.2.1 候選集生成46-47
- 4.2.2 訓(xùn)練集生成47
- 4.3 改進(jìn)的基于數(shù)據(jù)點(diǎn)的排序?qū)W習(xí)算法47-52
- 4.3.1 訓(xùn)練與學(xué)習(xí)過程48-49
- 4.3.2 預(yù)測(cè)與驗(yàn)證過程49-50
- 4.3.3 反饋與更新過程50-52
- 4.4 增量模型52-56
- 4.4.1 增量模型基本思想53
- 4.4.2 首個(gè)時(shí)間窗的預(yù)測(cè)模型53-54
- 4.4.3 當(dāng)前時(shí)間窗的增量預(yù)測(cè)模型54-56
- 4.5 本章小結(jié)56-57
- 第五章 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析57-74
- 5.1 實(shí)驗(yàn)設(shè)計(jì)與數(shù)據(jù)集描述57-59
- 5.1.1 實(shí)驗(yàn)設(shè)計(jì)57-58
- 5.1.2 新浪微博公開數(shù)據(jù)集58-59
- 5.1.3 推特公開數(shù)據(jù)集59
- 5.2 屬性庫(kù)與特征庫(kù)配置59-61
- 5.2.1 屬性庫(kù)的選擇與配置59-60
- 5.2.2 特征庫(kù)的選擇與配置60-61
- 5.3 增量混合特征生成算法實(shí)驗(yàn)結(jié)果及分析61-67
- 5.3.1 實(shí)驗(yàn)一:基于信息增益確定時(shí)間窗大小61-62
- 5.3.2 實(shí)驗(yàn)二:特征衰減速率與預(yù)測(cè)準(zhǔn)確率62-63
- 5.3.3 實(shí)驗(yàn)三:特征更新權(quán)重與預(yù)測(cè)準(zhǔn)確率63-64
- 5.3.4 實(shí)驗(yàn)四:特征的不同類別與預(yù)測(cè)準(zhǔn)確率64-66
- 5.3.5 實(shí)驗(yàn)五:特征的時(shí)間維度與預(yù)測(cè)準(zhǔn)確率66-67
- 5.4 基于數(shù)據(jù)點(diǎn)的增量排序?qū)W習(xí)算法實(shí)驗(yàn)結(jié)果及分析67-73
- 5.4.1 實(shí)驗(yàn)一:候選集生成方案的效率對(duì)比67-68
- 5.4.2 實(shí)驗(yàn)二:反饋更新過程中不同學(xué)習(xí)率與模型泛化能力68-69
- 5.4.3 實(shí)驗(yàn)三:增量模型組合權(quán)重與模型泛化能力69-70
- 5.4.4 實(shí)驗(yàn)四:不同特征類型與模型泛化能力70-72
- 5.4.5 實(shí)驗(yàn)五:模型泛化能力對(duì)比72-73
- 5.5 本章小結(jié)73-74
- 第六章 總結(jié)與展望74-76
- 6.1 本文總結(jié)74-75
- 6.2 未來工作75-76
- 致謝76-77
- 參考文獻(xiàn)77-80
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前4條
1 王樂;王勇;王東安;徐小琳;;社交網(wǎng)絡(luò)中信息傳播預(yù)測(cè)的研究綜述[J];信息網(wǎng)絡(luò)安全;2015年05期
2 王莉;程學(xué)旗;;在線社會(huì)網(wǎng)絡(luò)的動(dòng)態(tài)社區(qū)發(fā)現(xiàn)及演化[J];計(jì)算機(jī)學(xué)報(bào);2015年02期
3 曹玖新;吳江林;石偉;劉波;鄭嘯;羅軍舟;;新浪微博網(wǎng)信息傳播分析與預(yù)測(cè)[J];計(jì)算機(jī)學(xué)報(bào);2014年04期
4 李棟;徐志明;李生;劉挺;王秀文;;在線社會(huì)網(wǎng)絡(luò)中信息擴(kuò)散[J];計(jì)算機(jī)學(xué)報(bào);2014年01期
,本文編號(hào):618101
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/618101.html
最近更新
教材專著