基于微博的專家用戶搜索關鍵技術研究
發(fā)布時間:2021-06-22 10:19
近年來,隨著Web2.0的快速發(fā)展,社會網(wǎng)絡越來越普及,Twitter和Weibo等微博客被廣泛使用,并產(chǎn)生了巨大的社會影響力,改變了人們的生活方式。微博中有數(shù)以億記的用戶,用戶的身份也各不相同,其中有名人機構,也有草根大眾。如何從這些海量的用戶中發(fā)現(xiàn)與主題相關的專家用戶是一件很有挑戰(zhàn)的事情。本文以新浪微博平臺為基礎,通過用戶標簽數(shù)據(jù)和用戶關注關系數(shù)據(jù)來挖掘用戶的專家屬性。本文通過調(diào)查統(tǒng)計分析,發(fā)現(xiàn)微博用戶朋友之間興趣趨同的特點,提出同質性假設。針對微博用戶標簽數(shù)據(jù)缺失、標簽數(shù)量少、信息含量低等問題,本文提出改進的TF-IDF模型,過濾低信息含量的用戶自標簽,并基于同質性假設,設計一種標簽傳播算法來擴展用戶的興趣標簽,形成用戶的興趣圖譜。通過用戶的興趣圖譜,給用戶關注關系附上相應語義信息,以此為基礎,利用眾包的策略來推斷話題專家。根據(jù)微博網(wǎng)絡中的二八原則,即20%的用戶產(chǎn)生80%的內(nèi)容,本文把微博網(wǎng)絡中的用戶分為核心群體和輔助群體兩大部分。在興趣圖譜基礎之上,本文根據(jù)特定話題構建局部網(wǎng)絡,提出基于用戶分級的SALSA算法來計算用戶的話題影響力,推斷用戶的專家屬性,并根據(jù)微博平臺固有特點...
【文章來源】:國防科技大學湖南省 211工程院校 985工程院校
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.1.1 社會網(wǎng)絡現(xiàn)狀
1.1.2 研究熱點
1.2 研究意義
1.3 研究現(xiàn)狀
1.4 論文主要工作
1.5 論文組織結構
第二章 相關概念
2.1 社會網(wǎng)絡
2.1.1 社會網(wǎng)絡構成
2.1.2 社會網(wǎng)絡的經(jīng)典理論
2.2 同質性
2.2.1 同質性定義
2.2.2 社會網(wǎng)絡中的同質性現(xiàn)象
2.3 專家用戶
2.4 本章小結
第三章 微博用戶興趣圖譜挖掘
3.1 興趣圖譜
3.1.1 興趣圖譜定義
3.1.2 微博用戶標簽
3.2 TF-IDF模型
3.2.1 TF-IDF模型介紹
3.2.2 改進的TF-IDF算法實現(xiàn)
3.3 標簽傳播
3.3.1 標簽傳播算法
3.3.2 實驗設計
3.4 結果分析
3.5 本章小結
第四章 微博用戶影響力分析
4.1 引言
4.2 基于Topic sensitive Pagerank的影響力分析
4.2.1 Pagerank算法介紹
4.2.2 Topic sensitive Pagerank算法介紹
4.2.3 算法實現(xiàn)與分析
4.3 基于SALSA的影響力分析
4.4 基于用戶分級SALSA的影響力分析
4.4.1 用戶分級模型介紹
4.4.2 算法實現(xiàn)與分析
4.4.3 多特征融合模型
4.5 本章小結
第五章 基于微博數(shù)據(jù)集的實驗驗證
5.1 數(shù)據(jù)集描述
5.2 性能評測方法描述
5.2.1 Precision-Recall
5.2.2 P@N
5.2.3 MAP
5.2.4 NDCG
5.3 結果評測
5.3.1 實驗環(huán)境
5.3.2 評測內(nèi)容
5.4 本章小結
第六章 總結
6.1 工作總結
6.2 下一步研究方向
致謝
參考文獻
作者在學期間取得的學術成果
作者在學期間參加的科研項目
【參考文獻】:
期刊論文
[1]復雜網(wǎng)絡聚類方法[J]. 楊博,劉大有,金弟,馬海賓. 軟件學報. 2009(01)
本文編號:3242661
【文章來源】:國防科技大學湖南省 211工程院校 985工程院校
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.1.1 社會網(wǎng)絡現(xiàn)狀
1.1.2 研究熱點
1.2 研究意義
1.3 研究現(xiàn)狀
1.4 論文主要工作
1.5 論文組織結構
第二章 相關概念
2.1 社會網(wǎng)絡
2.1.1 社會網(wǎng)絡構成
2.1.2 社會網(wǎng)絡的經(jīng)典理論
2.2 同質性
2.2.1 同質性定義
2.2.2 社會網(wǎng)絡中的同質性現(xiàn)象
2.3 專家用戶
2.4 本章小結
第三章 微博用戶興趣圖譜挖掘
3.1 興趣圖譜
3.1.1 興趣圖譜定義
3.1.2 微博用戶標簽
3.2 TF-IDF模型
3.2.1 TF-IDF模型介紹
3.2.2 改進的TF-IDF算法實現(xiàn)
3.3 標簽傳播
3.3.1 標簽傳播算法
3.3.2 實驗設計
3.4 結果分析
3.5 本章小結
第四章 微博用戶影響力分析
4.1 引言
4.2 基于Topic sensitive Pagerank的影響力分析
4.2.1 Pagerank算法介紹
4.2.2 Topic sensitive Pagerank算法介紹
4.2.3 算法實現(xiàn)與分析
4.3 基于SALSA的影響力分析
4.4 基于用戶分級SALSA的影響力分析
4.4.1 用戶分級模型介紹
4.4.2 算法實現(xiàn)與分析
4.4.3 多特征融合模型
4.5 本章小結
第五章 基于微博數(shù)據(jù)集的實驗驗證
5.1 數(shù)據(jù)集描述
5.2 性能評測方法描述
5.2.1 Precision-Recall
5.2.2 P@N
5.2.3 MAP
5.2.4 NDCG
5.3 結果評測
5.3.1 實驗環(huán)境
5.3.2 評測內(nèi)容
5.4 本章小結
第六章 總結
6.1 工作總結
6.2 下一步研究方向
致謝
參考文獻
作者在學期間取得的學術成果
作者在學期間參加的科研項目
【參考文獻】:
期刊論文
[1]復雜網(wǎng)絡聚類方法[J]. 楊博,劉大有,金弟,馬海賓. 軟件學報. 2009(01)
本文編號:3242661
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3242661.html
最近更新
教材專著