基于微博的用戶興趣分析及預測
發(fā)布時間:2021-02-08 15:55
微博,作為一種新興的信息分享與傳播方式,在最近幾年尤為流行。龐大的微博用戶數(shù)以及豐富的內(nèi)容,使微博不僅成為了用戶獲取信息的手段,而且也是一個高效的廣告平臺。在海量的微博信息中,用戶需要大量時間和精力找到感興趣的信息,信息推薦服務應運而生。用戶興趣挖掘是實現(xiàn)廣告精準投放和信息推薦服務的核心技術。本文在調(diào)研了國內(nèi)外大量相關研究文獻后,提出基于用戶的微博數(shù)據(jù)分析,提煉用戶興趣,并進一步預測用戶最近的興趣變化。其步驟為:首先,對于給定用戶,采集用戶微博數(shù)據(jù)集,并對其使用事先構建好的過濾器進行處理。其次,先在外部知識庫上構建主題模型,然后應用該主題模型對用戶微博內(nèi)容進行分析。再次,用戶的興趣表達為用時間權重組合的主題概率。最后,通過用戶關注好友的微博數(shù)據(jù),用最大熵模型進行分析,挖掘出用戶將來一段時間的興趣,從而達到預測的目的。本方法具有以下優(yōu)點:第一,考慮到微博文本內(nèi)容較短的特點,提出結(jié)合外部知識庫對主題模型進行訓練,以實現(xiàn)微博內(nèi)容的語義擴充。第二,提出對用戶興趣的表示,通過對每個主題加上一個時間權重,體現(xiàn)時間因素對興趣變化的影響。第三,提出對用戶興趣預測的方法。理論分析和實驗對比證明了本方法的...
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究的背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容與創(chuàng)新點
1.4 論文組織
第二章 相關知識及概念
2.1 微博
2.2 支持向量機
2.3 主題模型
2.4 最大熵模型
2.5 本章小結(jié)
第三章 數(shù)據(jù)采集及處理
3.1 微博數(shù)據(jù)采集
3.1.1 使用新浪API采集數(shù)據(jù)
3.1.2 使用爬蟲程序采集數(shù)據(jù)
3.1.3 微博內(nèi)容處理
3.2 噪音微博過濾
3.2.1 噪音微博過濾器的構建
3.2.2 噪音微博過濾器的使用
3.3 本章小結(jié)
第四章 基于微博的用戶興趣分析
4.1 概述
4.2 主題模型的構建
4.3 用戶興趣分析
4.4 本章小結(jié)
第五章 基于微博的用戶興趣預測
5.1 概述
5.2 興趣預測模型的構建
5.3 用戶興趣預測
5.4 本章小結(jié)
第六章 系統(tǒng)實現(xiàn)與實驗分析
6.1 系統(tǒng)實現(xiàn)
6.1.1 系統(tǒng)開發(fā)工具
6.1.2 系統(tǒng)框架
6.1.3 系統(tǒng)實現(xiàn)
6.2 實驗分析
6.3 本章小結(jié)
第七章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
參考文獻
附錄1 攻讀碩士學位期間撰寫的論文
致謝
【參考文獻】:
期刊論文
[1]一種基于情感符號的在線突發(fā)事件檢測方法[J]. 張魯民,賈焰,周斌,趙金輝,洪鋒. 計算機學報. 2013(08)
[2]基于用戶聚類的異構社交網(wǎng)絡推薦算法[J]. 陳克寒,韓盼盼,吳健. 計算機學報. 2013(02)
[3]基于國內(nèi)開放平臺的Oauth認證框架研究[J]. 劉鏑,張智江,張尼. 信息通信技術. 2011(06)
[4]基于MB-LDA模型的微博主題挖掘[J]. 張晨逸,孫建伶,丁軼群. 計算機研究與發(fā)展. 2011(10)
[5]基于LDA模型的主題分析[J]. 石晶,范猛,李萬龍. 自動化學報. 2009(12)
[6]高性能網(wǎng)絡爬蟲:研究綜述[J]. 周德懋,李舟軍. 計算機科學. 2009(08)
[7]基于Labeled-LDA模型的文本分類新算法[J]. 李文波,孫樂,張大鯤. 計算機學報. 2008(04)
[8]基于機器學習的文本分類技術研究進展[J]. 蘇金樹,張博鋒,徐昕. 軟件學報. 2006(09)
本文編號:3024169
【文章來源】:南京郵電大學江蘇省
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究的背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容與創(chuàng)新點
1.4 論文組織
第二章 相關知識及概念
2.1 微博
2.2 支持向量機
2.3 主題模型
2.4 最大熵模型
2.5 本章小結(jié)
第三章 數(shù)據(jù)采集及處理
3.1 微博數(shù)據(jù)采集
3.1.1 使用新浪API采集數(shù)據(jù)
3.1.2 使用爬蟲程序采集數(shù)據(jù)
3.1.3 微博內(nèi)容處理
3.2 噪音微博過濾
3.2.1 噪音微博過濾器的構建
3.2.2 噪音微博過濾器的使用
3.3 本章小結(jié)
第四章 基于微博的用戶興趣分析
4.1 概述
4.2 主題模型的構建
4.3 用戶興趣分析
4.4 本章小結(jié)
第五章 基于微博的用戶興趣預測
5.1 概述
5.2 興趣預測模型的構建
5.3 用戶興趣預測
5.4 本章小結(jié)
第六章 系統(tǒng)實現(xiàn)與實驗分析
6.1 系統(tǒng)實現(xiàn)
6.1.1 系統(tǒng)開發(fā)工具
6.1.2 系統(tǒng)框架
6.1.3 系統(tǒng)實現(xiàn)
6.2 實驗分析
6.3 本章小結(jié)
第七章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
參考文獻
附錄1 攻讀碩士學位期間撰寫的論文
致謝
【參考文獻】:
期刊論文
[1]一種基于情感符號的在線突發(fā)事件檢測方法[J]. 張魯民,賈焰,周斌,趙金輝,洪鋒. 計算機學報. 2013(08)
[2]基于用戶聚類的異構社交網(wǎng)絡推薦算法[J]. 陳克寒,韓盼盼,吳健. 計算機學報. 2013(02)
[3]基于國內(nèi)開放平臺的Oauth認證框架研究[J]. 劉鏑,張智江,張尼. 信息通信技術. 2011(06)
[4]基于MB-LDA模型的微博主題挖掘[J]. 張晨逸,孫建伶,丁軼群. 計算機研究與發(fā)展. 2011(10)
[5]基于LDA模型的主題分析[J]. 石晶,范猛,李萬龍. 自動化學報. 2009(12)
[6]高性能網(wǎng)絡爬蟲:研究綜述[J]. 周德懋,李舟軍. 計算機科學. 2009(08)
[7]基于Labeled-LDA模型的文本分類新算法[J]. 李文波,孫樂,張大鯤. 計算機學報. 2008(04)
[8]基于機器學習的文本分類技術研究進展[J]. 蘇金樹,張博鋒,徐昕. 軟件學報. 2006(09)
本文編號:3024169
本文鏈接:http://sikaile.net/xinwenchuanbolunwen/3024169.html
教材專著