基于主題模型的個(gè)性化信息推薦

發(fā)布時(shí)間：2017-05-16 15:24

本文關(guān)鍵詞：基于主題模型的個(gè)性化信息推薦，由筆耕文化傳播整理發(fā)布。

【摘要】：在當(dāng)今的互聯(lián)網(wǎng)時(shí)代，人們每天都會產(chǎn)生大量的信息，信息的增長速度已經(jīng)遠(yuǎn)遠(yuǎn)大于人類可以容納的上限。在這個(gè)信息過載的時(shí)代，從海量的信息中高效地篩選出人們所需要的信息是至關(guān)重要的。從搜索引擎到推薦系統(tǒng)，都是為了解決這個(gè)問題而發(fā)展起來的。另一方面，當(dāng)今的互聯(lián)網(wǎng)時(shí)代已然是移動互聯(lián)網(wǎng)時(shí)代，，用戶每天在互聯(lián)網(wǎng)上產(chǎn)生的數(shù)據(jù)越來越多，數(shù)據(jù)的價(jià)值也越來越大，根據(jù)這些數(shù)據(jù)，為用戶提供個(gè)性化服務(wù)已經(jīng)是主流趨勢。其中，微博等社交網(wǎng)絡(luò)便是一個(gè)巨大的用戶數(shù)據(jù)源，如何利用這些數(shù)據(jù)分析用戶的興趣，是近年來的研究熱點(diǎn)。本文便是在微博數(shù)據(jù)的基礎(chǔ)上，研究如何挖掘用戶的興趣并對其進(jìn)行個(gè)性化推薦。首先，本文對LDA主題模型進(jìn)行了深入研究及分析，并研究了其在微博領(lǐng)域的應(yīng)用，得出了LDA不適合直接應(yīng)用于微博短文本的結(jié)論。繼而提出了一種針對微博用戶的建模方法：合并用戶的微博集合，建立一個(gè)用戶—主題—單詞的三層模型，用戶對話題的感興趣程度便可以用這個(gè)模型來表示。然后，根據(jù)用戶的主題分布之間的相似性，提出了相似用戶的推薦算法，我們設(shè)計(jì)了基于向量空間模型和隱馬爾科夫模型的對比實(shí)驗(yàn)，實(shí)驗(yàn)數(shù)據(jù)采用從新浪微博采集的真實(shí)數(shù)據(jù)，結(jié)果表明，該方法具有很好的效果，具有很大的應(yīng)用價(jià)值。其次，本文利用微博用戶的社交特征，提出了利用其粉絲和關(guān)注關(guān)系計(jì)算用戶價(jià)值的方法，并將其利用到推薦算法中，用以產(chǎn)生不同側(cè)重點(diǎn)的推薦列表，更好地滿足各種用戶的不同需求。最后，本文還提出了一種利用用戶主題模型進(jìn)行新聞推薦的方法，將其和基于非負(fù)矩陣的推薦方法做對比實(shí)驗(yàn)，結(jié)果表明，本文提出的算法不但可以發(fā)現(xiàn)用戶對某個(gè)主題的興趣，還能得出其對多個(gè)主題的興趣分布。而現(xiàn)實(shí)中的用戶一般都會有多個(gè)感興趣的主題，本算法可以根據(jù)用戶的多重興趣分布，為其推薦多個(gè)感興趣話題下的新聞，可以更好地滿足用戶需求。
【關(guān)鍵詞】：主題模型 LDA 微博 用戶模型 個(gè)性化推薦
【學(xué)位授予單位】：北京工業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2014
【分類號】：TP391.3
【目錄】：

摘要4-5
Abstract5-8
第1章緒論8-13
1.1 研究背景與意義8-9
1.2 國內(nèi)外研究現(xiàn)狀9-11
1.3 本文研究內(nèi)容11
1.4 本文組織結(jié)構(gòu)11-13
第2章主題模型概述13-20
2.1 主題模型簡介13-14
2.2 潛在狄利克雷分配 LDA 模型14-17
2.2.1 模型介紹14-16
2.2.2 參數(shù)估計(jì)16-17
2.3 其他常用主題模型17-19
2.4 本章小結(jié)19-20
第3章基于主題模型的微博信息推薦方法研究20-38
3.1 噪音微博的過濾20-23
3.1.1 樸素貝葉斯分類器20-22
3.1.2 基于樸素貝葉斯的噪音微博過濾22-23
3.2 基于 LDA 模型的微博用戶模型23-25
3.3 基于隱馬爾科夫模型的用戶模型25-27
3.3.1 隱馬爾科夫模型介紹25-27
3.3.2 基于 HMM 為用戶建模27
3.4 個(gè)性化微博用戶推薦27-29
3.4.1 相似度計(jì)算27-28
3.4.2 用戶推薦算法28-29
3.5 微博用戶個(gè)體價(jià)值在推薦中的作用29-33
3.5.1 PageRank 與 PeopleRank29-32
3.5.2 用戶價(jià)值的衡量及其應(yīng)用32-33
3.6 個(gè)性化新聞推薦33-37
3.6.1 新聞網(wǎng)頁正文信息提取33-35
3.6.2 基于非負(fù)矩陣分解的新聞推薦算法35-36
3.6.3 基于 LDA 的新聞推薦算法36-37
3.7 本章小結(jié)37-38
第4章微博用戶個(gè)性化推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)38-46
4.1 系統(tǒng)簡介38-39
4.2 系統(tǒng)整體架構(gòu)39-42
4.3 系統(tǒng)模塊設(shè)計(jì)42-45
4.3.1 數(shù)據(jù)采集模塊42-43
4.3.2 預(yù)處理模塊43-44
4.3.3 主題分析模塊44
4.3.4 個(gè)性化推薦模塊44-45
4.4 本章小結(jié)45-46
第5章實(shí)驗(yàn)評估與結(jié)果分析46-68
5.1 微博數(shù)據(jù)預(yù)處理46-50
5.1.1 實(shí)驗(yàn)設(shè)計(jì)46-48
5.1.2 實(shí)驗(yàn)結(jié)果及分析48-50
5.2 用戶主題模型的構(gòu)建50-54
5.2.1 基于 LDA 主題模型的用戶模型50-51
5.2.2 LDA 用戶模型評價(jià)方法51-52
5.2.3 其他用戶建模方法52-54
5.3 微博用戶推薦54-61
5.3.1 實(shí)驗(yàn)設(shè)計(jì)54-56
5.3.2 實(shí)驗(yàn)結(jié)果及分析56-58
5.3.3 基于用戶價(jià)值的改進(jìn)實(shí)驗(yàn)58-61
5.4 新聞頁面推薦61-67
5.4.1 實(shí)驗(yàn)設(shè)計(jì)61-62
5.4.2 實(shí)驗(yàn)結(jié)果及分析62-67
5.5 本章小結(jié)67-68
結(jié)論68-70
參考文獻(xiàn)70-74
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文74-76
致謝76

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期

2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期

3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期

4 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期

5 何利益;陸國鋒;羅鵬;;動態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期

6 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期

7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期

8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期

10 朱夢麟;李光耀;周毅敏;;基于樹比較的Web頁面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期

中國重要會議論文全文數(shù)據(jù)庫前7條

1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年

2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報(bào)告篇）[C];2002年

3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集（上）[C];2008年

4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年

5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集（研究報(bào)告篇）[C];2004年

6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評論發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展（2009-2011）[C];2011年

7 曹紅;袁津生;;多領(lǐng)域主題搜索引擎研究[A];第一屆全國Web信息系統(tǒng)及其應(yīng)用會議（WISA2004）論文集[C];2004年

中國博士學(xué)位論文全文數(shù)據(jù)庫前2條

1 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年

2 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 薛耀兵;科技文獻(xiàn)中的主題發(fā)現(xiàn)與趨勢預(yù)測[D];哈爾濱工業(yè)大學(xué);2013年

2 陳浩;自定義主題信息抽取的研究與應(yīng)用[D];大連理工大學(xué);2008年

3 吳彥文;主題信息合理性、語境意義偏向性對漢語句子歧義消解的實(shí)驗(yàn)研究[D];陜西師范大學(xué);2002年

4 戴興虎;基于主題的學(xué)術(shù)網(wǎng)絡(luò)構(gòu)建[D];浙江大學(xué);2013年

5 吳曉娜;基于特征、先驗(yàn)和約束的主題建模算法[D];蘇州大學(xué);2014年

6 邸亮;基于主題模型的個(gè)性化信息推薦[D];北京工業(yè)大學(xué);2014年

7 亓?xí)郧?Web挖掘中的主題模型擴(kuò)展[D];北京郵電大學(xué);2013年

8 徐楓;基于主題爬蟲的視頻教程庫的研究與設(shè)計(jì)[D];廣西大學(xué);2014年

9 徐西孟;基于OODA決策循環(huán)的主題發(fā)現(xiàn)技術(shù)的研究與設(shè)計(jì)[D];濟(jì)南大學(xué);2011年

10 劉欣宇;基于主題策略的Web信息監(jiān)測系統(tǒng)研究與實(shí)現(xiàn)[D];重慶大學(xué);2011年

本文關(guān)鍵詞：基于主題模型的個(gè)性化信息推薦，由筆耕文化傳播整理發(fā)布。

本文編號：371233

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/371233.html

上一篇：基于分布式計(jì)算的全文檢索關(guān)鍵技術(shù)研究
下一篇：基于多特征融合和二維投影非負(fù)矩陣分解的圖像檢索

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于主題模型的個(gè)性化信息推薦