基于用戶特征的社交網(wǎng)絡信息傳播的研究
發(fā)布時間:2017-08-04 06:23
本文關鍵詞:基于用戶特征的社交網(wǎng)絡信息傳播的研究
更多相關文章: 信息傳播 增量混合特征 基于數(shù)據(jù)點的排序學習 增量學習
【摘要】:隨著信息技術和社交網(wǎng)絡的快速發(fā)展,在線社交網(wǎng)絡已經成為互聯(lián)網(wǎng)信息發(fā)布和傳播的主要渠道。為更好的研究用戶行為模式,掌握輿論熱點,挖掘用戶興趣并構建用戶畫像,信息傳播逐漸成為當前社交網(wǎng)絡的研究熱點。當前,信息傳播研究分為針對信息傳播性質的分析型研究、面向信息傳播過程建模的解釋型研究以及面向信息傳播參與者行為選擇建模的預測型研究。分析型方法側重對信息傳播模式的分析而缺乏對信息傳播本質的深層探討;解釋型方法嘗試對尚未明了的信息傳播機制建模,因而在適用性方面受到一定限制;預測型方法嘗試對用戶轉發(fā)選擇行為進行預測,但由于靜態(tài)網(wǎng)絡結構的假設而缺少對社交網(wǎng)絡增量特性的支持。因此,全面、動態(tài)、增量地處理社交網(wǎng)絡數(shù)據(jù)成為預測信息傳播亟待解決的問題。當前,機器學習技術在眾多領域取得了重大突破,排序學習模型(Learning To Rank,簡稱LTR模型)作為機器學習和信息檢索領域最重要的模型之一,受到越來越多的關注。排序學習以及其他機器學習模型被用于解決信息傳播問題后,取得了較好的效果,但仍然存在一定缺陷:第一,由于信息傳播機制尚未明了,導致特征生成方法不夠明確,而現(xiàn)有特征也不足以體現(xiàn)信息傳播的本質;第二,社交網(wǎng)絡動態(tài)結構給研究信息傳播帶來難度,動態(tài)的跟蹤用戶拓撲關系變化比較困難,另外增量變化的社交數(shù)據(jù)也要求增量的構建多維復合特征;第三,由于社交網(wǎng)絡用戶和信息數(shù)量過大,排序學習的候選集生成方案在社交網(wǎng)絡環(huán)境下的復雜度較高,并且排序學習缺乏對數(shù)據(jù)和模型的增量性的支持。因此,本文針對基于排序學習的信息傳播預測算法進行了相關研究,主要工作包括:(1)通過選取分析型、解釋型和預測型方法中的典型特征,在機器學習算法框架內,從三個方面進行了特征擴展:用戶屬性特征、用戶關系特征及微博與事件特征,實驗結果表明擴展后的特征有助于提高信息傳播預測的精度。(2)采用信息流入流出的動態(tài)結構代替靜態(tài)拓撲結構,在此基礎上并提出了基于時間窗的增量混合特征生成算法(Incremental Mix Feature Generation,簡稱I-MFG算法),該方法基于社交網(wǎng)絡特征擴展以及增量學習思想改進了社交網(wǎng)絡特征生成方法。實驗結果表明I-MFG算法可以提高混合特征的預測準確率,較好的適應增量的數(shù)據(jù),較準確的反映用戶行為特征的動態(tài)性和復雜性。(3)針對社交網(wǎng)絡數(shù)據(jù)和預測模型增量性的需要,本文基于LTR模型提出了新的基于數(shù)據(jù)點的增量排序學習算法(Incremental pointwise Learning To Rank,簡稱I-pLTR算法)。該方法利用動態(tài)的信息流通道代替用戶關注拓撲,可以適應動態(tài)變化的網(wǎng)絡結構,并且較大的提高了LTR算法的候選集生成效率。另外,I-pLTR算法基于增量學習的思想,利用已經訓練過時間窗內的數(shù)據(jù)生成部分實例內存和部分概念內存,將算法的訓練過程及模型的增量過程融合,新浪微博和Twitter數(shù)據(jù)集上的實驗結果表明該算法可以有效減少候選集生成時間,同時I-pLTR算法具有較好的隨著時間推移的泛化能力。
【關鍵詞】:信息傳播 增量混合特征 基于數(shù)據(jù)點的排序學習 增量學習
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:G206;TP181
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 緒論11-16
- 1.1 研究背景11
- 1.2 研究現(xiàn)狀11-14
- 1.2.1 分析型研究11-12
- 1.2.2 解釋型研究12-13
- 1.2.3 預測型研究13-14
- 1.3 本文研究內容14-15
- 1.4 本文組織結構15-16
- 第二章 相關技術16-30
- 2.1 信息傳播概述16-22
- 2.1.1 基本概念16-19
- 2.1.2 信息傳播性質19-20
- 2.1.3 信息傳播機制20-22
- 2.2 基于機器學習的預測型方法22-24
- 2.2.1 研究框架22
- 2.2.2 任務建模與性能度量22-23
- 2.2.3 研究信息傳播常用特征23-24
- 2.3 排序學習算法24-27
- 2.3.1 基本概念24-26
- 2.3.2 排序學習算法分類26
- 2.3.3 排序學習與社交網(wǎng)絡分析26-27
- 2.4 增量學習27-29
- 2.4.1 基本概念27
- 2.4.2 增量學習算法27-28
- 2.4.3 增量學習與社交網(wǎng)絡分析28-29
- 2.5 本章小結29-30
- 第三章 增量混合特征生成算法30-44
- 3.1 增量混合特征生成算法概述30-32
- 3.1.1 符號與基本假設30-31
- 3.1.2 算法步驟與流程圖31-32
- 3.2 屬性庫的設計與生成32-33
- 3.2.1 用戶屬性庫32
- 3.2.2 關系屬性庫32-33
- 3.2.3 微博與事件屬性庫33
- 3.3 混合特征庫的設計與生成33-38
- 3.3.1 用戶特征34-36
- 3.3.2 關系特征36-37
- 3.3.3 微博與事件特征37-38
- 3.4 特征的增量更新方法38-43
- 3.4.1 不同時間粒度的特征38-39
- 3.4.2 時間窗的選擇39-41
- 3.4.3 特征的增量更新過程41-43
- 3.5 本章小結43-44
- 第四章 基于數(shù)據(jù)點的增量排序學習算法44-57
- 4.1 基于數(shù)據(jù)點的增量排序學習算法概述44-46
- 4.1.1 符號與基本假設44
- 4.1.2 算法步驟與流程圖44-46
- 4.2 訓練集生成46-47
- 4.2.1 候選集生成46-47
- 4.2.2 訓練集生成47
- 4.3 改進的基于數(shù)據(jù)點的排序學習算法47-52
- 4.3.1 訓練與學習過程48-49
- 4.3.2 預測與驗證過程49-50
- 4.3.3 反饋與更新過程50-52
- 4.4 增量模型52-56
- 4.4.1 增量模型基本思想53
- 4.4.2 首個時間窗的預測模型53-54
- 4.4.3 當前時間窗的增量預測模型54-56
- 4.5 本章小結56-57
- 第五章 實驗設計與結果分析57-74
- 5.1 實驗設計與數(shù)據(jù)集描述57-59
- 5.1.1 實驗設計57-58
- 5.1.2 新浪微博公開數(shù)據(jù)集58-59
- 5.1.3 推特公開數(shù)據(jù)集59
- 5.2 屬性庫與特征庫配置59-61
- 5.2.1 屬性庫的選擇與配置59-60
- 5.2.2 特征庫的選擇與配置60-61
- 5.3 增量混合特征生成算法實驗結果及分析61-67
- 5.3.1 實驗一:基于信息增益確定時間窗大小61-62
- 5.3.2 實驗二:特征衰減速率與預測準確率62-63
- 5.3.3 實驗三:特征更新權重與預測準確率63-64
- 5.3.4 實驗四:特征的不同類別與預測準確率64-66
- 5.3.5 實驗五:特征的時間維度與預測準確率66-67
- 5.4 基于數(shù)據(jù)點的增量排序學習算法實驗結果及分析67-73
- 5.4.1 實驗一:候選集生成方案的效率對比67-68
- 5.4.2 實驗二:反饋更新過程中不同學習率與模型泛化能力68-69
- 5.4.3 實驗三:增量模型組合權重與模型泛化能力69-70
- 5.4.4 實驗四:不同特征類型與模型泛化能力70-72
- 5.4.5 實驗五:模型泛化能力對比72-73
- 5.5 本章小結73-74
- 第六章 總結與展望74-76
- 6.1 本文總結74-75
- 6.2 未來工作75-76
- 致謝76-77
- 參考文獻77-80
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 王樂;王勇;王東安;徐小琳;;社交網(wǎng)絡中信息傳播預測的研究綜述[J];信息網(wǎng)絡安全;2015年05期
2 王莉;程學旗;;在線社會網(wǎng)絡的動態(tài)社區(qū)發(fā)現(xiàn)及演化[J];計算機學報;2015年02期
3 曹玖新;吳江林;石偉;劉波;鄭嘯;羅軍舟;;新浪微博網(wǎng)信息傳播分析與預測[J];計算機學報;2014年04期
4 李棟;徐志明;李生;劉挺;王秀文;;在線社會網(wǎng)絡中信息擴散[J];計算機學報;2014年01期
,本文編號:618101
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/618101.html
最近更新
教材專著