基于主題模型的用戶興趣挖掘及上下文感知推薦系統(tǒng)算法研究
本文關(guān)鍵詞: 主題模型 上下文感知 推薦系統(tǒng) 出處:《山東大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:互聯(lián)網(wǎng)技術(shù)的發(fā)展使得數(shù)字信息資源開始呈現(xiàn)幾何倍數(shù)的增長(zhǎng),反映在智能電視領(lǐng)域,則表現(xiàn)為每日海量視頻數(shù)據(jù)的產(chǎn)生,用戶互動(dòng)行為的多樣性,及隨之而來的用戶行為數(shù)量激增。隨著國(guó)家"三網(wǎng)融合"等戰(zhàn)略的推進(jìn),與智能電視用戶需求的不斷擴(kuò)大,如何處理并有效利用大規(guī)模數(shù)據(jù)已經(jīng)成為該領(lǐng)域一個(gè)亟待解決的難題。由于大數(shù)據(jù)、搜索引擎、個(gè)性化推薦技術(shù)的蓬勃發(fā)展,這一問題已經(jīng)受到重視,并逐漸衍生出一些解決方案。目前,個(gè)性化推薦系統(tǒng)已經(jīng)得到了廣泛的研究和應(yīng)用,它能夠幫助用戶更好的挖掘自身興趣,協(xié)助建立系統(tǒng)的用戶畫像,有助于維持用戶對(duì)內(nèi)容的關(guān)注程度,避免相關(guān)業(yè)務(wù)的用戶流失。目前推薦系統(tǒng)主要的計(jì)算方法分為基于模型的構(gòu)建和基于鄰域的構(gòu)建;谀P蜆(gòu)建的推薦系統(tǒng)能夠準(zhǔn)確地表達(dá)用戶興趣,在推薦效果上有突出表現(xiàn),而基于鄰域的構(gòu)建相對(duì)來說更加簡(jiǎn)單易行,且具有良好的可解釋性。如何能夠有效地結(jié)合兩種模型的長(zhǎng)處共同構(gòu)建推薦系統(tǒng)模型,是本文的一個(gè)研究重點(diǎn)。另外,在針對(duì)電視推薦系統(tǒng)的業(yè)務(wù)邏輯中,由于電視是共享終端,在不同時(shí)間上下文情況下表現(xiàn)出的用戶興趣會(huì)有較大差異,如何合理引入時(shí)間上下文相關(guān)概念建模以提升推薦效果,也是本文關(guān)注的重點(diǎn)。所以,在本文的研究工作中,我們首先提出一種基于短文本LDA主題模型的推薦算法。該算法是基于模型的推薦挖掘,將文本挖掘領(lǐng)域的潛語義模型應(yīng)用到推薦系統(tǒng)中,用以準(zhǔn)確構(gòu)建用戶的主題興趣。該算法針對(duì)視頻推薦系統(tǒng)中用戶觀看過的視頻通常較少這一數(shù)據(jù)稀疏性問題,做了特殊處理,將原本LDA算法中對(duì)視頻項(xiàng)進(jìn)行建模,轉(zhuǎn)變?yōu)橹苯訉?duì)視頻共現(xiàn)對(duì)進(jìn)行建模并采樣計(jì)算。這一處理極大地解決數(shù)據(jù)稀疏性問題,并能夠有效地提升用戶興趣挖掘的準(zhǔn)確度。故我們引入短文本的LDA主題模型,并將用戶觀看記錄轉(zhuǎn)化為低維空間中的兩個(gè)矩陣,即用戶興趣矩陣(用戶-主題),和視頻從屬度矩陣(主題-視頻)。在準(zhǔn)確獲取到用戶興趣的基礎(chǔ)上,為了解決電視共享終端的推薦問題,我們引入時(shí)間上下文信息并構(gòu)建基于用戶興趣的協(xié)同過濾推薦算法。該算法首先是一個(gè)基于鄰域的推薦算法,對(duì)具有類似興趣的用戶相互推薦視頻,在構(gòu)建用戶興趣的時(shí)候引入前過濾的上下文感知推薦策略,在構(gòu)建視頻共現(xiàn)對(duì)這一處理過程中,加入上下文環(huán)境約束,只對(duì)處于同一個(gè)時(shí)間上下文環(huán)境中的視頻集合中的元素構(gòu)建視頻對(duì)。這一前過濾策略有效地引入時(shí)間上下文信息,能夠有效區(qū)分不同時(shí)間段上的用戶興趣情況,避免將不相關(guān)的視頻構(gòu)建成為同一個(gè)視頻共現(xiàn)對(duì)。另外,在召回推薦列表并最終排序的時(shí)候,再次引入后過濾的上下文感知推薦策略,為每一個(gè)視頻在當(dāng)下環(huán)境中是否值得被推薦進(jìn)行加權(quán),加權(quán)的依據(jù)則是該用戶在當(dāng)前上下文中的興趣主題分布。該后過濾方法能夠在用戶興趣的基礎(chǔ)上針對(duì)請(qǐng)求推薦列表的時(shí)間上下文做進(jìn)一步篩選,能夠極大提高推薦效果。為了實(shí)驗(yàn)驗(yàn)證模型的推薦效果,我們使用國(guó)內(nèi)知名電視推薦平臺(tái),海信電視云平臺(tái)的真實(shí)數(shù)據(jù)集,提供多種對(duì)比推薦算法,并在多樣的數(shù)據(jù)評(píng)測(cè)指標(biāo)上進(jìn)行評(píng)估。我們的方法在該數(shù)據(jù)集上取得了較高的召回率及MAP、MRR等指標(biāo),明顯優(yōu)于其他傳統(tǒng)推薦算法及上下文推薦算法,進(jìn)而證明了本文方法的有效性。
[Abstract]:The development of Internet technology makes the digital information resources began to multiply, reflected in the field of smart TV, showed the daily massive video data, the diversity of user interaction, the number of user behavior and the subsequent surge. Along with the "triple play" strategy to promote, and TV user needs constantly how to expand, and the effective use of large-scale data processing has become an urgent problem to be solved in this field. Because of the large data, search engine, the vigorous development of personalized recommendation technology, this problem has been paid attention to, and gradually derived some solutions. At present, the personalized recommendation system has been widely studied and applied. Mining can help users improve their interest, help users to establish the system of the portrait, helps to maintain the user attention to content, avoid The loss of related business users. The calculation method of the main recommendation system is divided into model construction based on neighborhood construction. Recommendation system model can accurately express the user interest based on the outstanding performance in the recommended effect, and the neighborhood construction relative to the more simple and based on good explanation. How to effectively combine the two model's strengths to jointly build a recommendation system model is a research focus of this paper. In addition, according to the business logic in the TV recommender system, because the TV is shared terminal, user interest in different time context conditions may be different, how to properly introduce the contextual conceptual modeling to enhance the effectiveness of the recommendation, but also the focus of this article. So, in this research, we first propose a short text based on LDA Recommendation algorithm. The algorithm is a topic model mining model based on the recommendation, the applications of text mining in the field of latent semantic model to the recommendation system, to accurately construct the user interest. The theme of the algorithm for video recommendation system users to watch the video and usually less sparsity of the data, do the special treatment, the original LDA algorithm on video for modeling into direct to video co-occurrence modeling and sampling calculation. This processing greatly solve the problem of data sparsity, and can effectively improve the accuracy of user interest mining. LDA topic model we introduce the short text and user viewing records two matrix into a low dimensional space, i.e. the user interest matrix (user topic), and video subordinate degree matrix (Theme - VIDEO). On the basis of accurate access to the user's interest, to solve the TV Recommended terminal sharing, we introduce time context information and build a collaborative filtering recommendation algorithm based on user interest. The first algorithm is a recommendation algorithm based on neighborhood, are recommended to video users with similar interests, context aware before the introduction of filtering when constructing the user interest recommendation strategy in the construction of the video is now in this process, adding context constraints, only the elements in the same time in the context of the construction of video collection video. The context information before filtering strategy effectively is introduced, which can be used to differentiate the user in different time, avoid not related to video construction one video co-occurrence. In addition, when the recall recommended list and final ranking, the re introduction of context aware after filtering for each recommendation strategy. Whether a video is recommended by weighting in the current environment, weighted is the basis for the user in the current context of the topics of interest distribution. The post filtering method can do a request for a list of recommended time based on user interest in the context of further screening, can greatly improve the recommendation effect. In order to recommend effect experiment model and we use the well-known TV recommendation platform, Hisense TV cloud platform real data sets, provide various contrast recommendation algorithm, and evaluated in various data evaluation index. Our method on the data set has a high recall rate and MAP, MRR and other indicators, significantly better than the other traditional recommendation algorithm and the context recommendation algorithm, and prove the validity of this method.
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 白麗君 ,張永奎 ,趙輒謙;用戶興趣的反饋學(xué)習(xí)[J];電腦開發(fā)與應(yīng)用;2003年02期
2 王杰;使圖像的編輯更加容易[J];中文信息;1998年Z1期
3 王波,姚敏;基于信息抽取的匿名用戶興趣描述[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
4 董全德;;用戶興趣遷移模式與個(gè)性化服務(wù)[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年17期
5 鄭運(yùn)剛;馬建國(guó);;基于分類的用戶興趣漂移模型[J];情報(bào)雜志;2008年01期
6 張濤;;基于瀏覽歷史的用戶興趣提取模型[J];軟件導(dǎo)刊;2009年06期
7 楊杰;陳恩紅;;面向個(gè)性化服務(wù)的用戶興趣偏移檢測(cè)及處理方法[J];電子技術(shù);2009年11期
8 陳圣兵;李龍澍;紀(jì)霞;;多層次用戶興趣模式的動(dòng)態(tài)捕捉[J];計(jì)算機(jī)工程與應(yīng)用;2009年36期
9 鄭曉健;龐淑英;何英;;一種面向主題的用戶興趣挖掘模型研究[J];昆明學(xué)院學(xué)報(bào);2010年03期
10 花青松;劉海峰;胡錚;;基于基尼系數(shù)的用戶興趣分布模式度量方法[J];計(jì)算機(jī)工程;2012年22期
相關(guān)會(huì)議論文 前7條
1 趙琦;駱志剛;田文穎;李聰;丁凡;;一種基于負(fù)反饋信息的用戶興趣模型修正方法[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(下)[C];2009年
2 孫靜;郭奇;張志強(qiáng);馮建華;;一種基于面向領(lǐng)域檢索系統(tǒng)的用戶興趣獲取方法[A];第二十一屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
3 孫鐵利;教巍巍;;基于馬爾科夫模型的用戶興趣導(dǎo)航模型系統(tǒng)(英文)[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
4 廖祝華;劉建勛;易愛平;;基于用戶興趣的Web服務(wù)發(fā)現(xiàn)[A];2006年全國(guó)開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(三)[C];2006年
5 李曉黎;史忠植;梁永全;劉福桃;;INTERNET網(wǎng)上一種識(shí)別用戶興趣的學(xué)習(xí)方法[A];第十六屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集[C];1999年
6 田萱;杜小勇;;基于SAM模型的用戶興趣表示研究[A];第二十三屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
7 王勇;劉奕群;張敏;馬少平;茹立云;;基于用戶興趣分析的網(wǎng)頁生命周期建模(英文)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)重要報(bào)紙文章 前1條
1 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 王 斌;內(nèi)容為王[N];計(jì)算機(jī)世界;2004年
相關(guān)博士學(xué)位論文 前9條
1 梁政;面向在線社交網(wǎng)絡(luò)輿情的信息傳播分析關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2014年
2 張召;在線論壇用戶興趣圖譜發(fā)現(xiàn)與個(gè)性化信息推薦[D];華東師范大學(xué);2012年
3 劉淇;基于用戶興趣建模的推薦方法及應(yīng)用研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
4 郭巖;網(wǎng)絡(luò)日志中用戶興趣的挖掘及利用[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
5 吳麗輝;個(gè)性化的Web信息采集技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
6 謝興;社會(huì)網(wǎng)絡(luò)中興趣發(fā)現(xiàn)與信息組織的研究[D];復(fù)旦大學(xué);2011年
7 李東勝;基于興趣與保護(hù)隱私的在線社區(qū)推薦技術(shù)研究[D];復(fù)旦大學(xué);2012年
8 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
9 姜邵巍;基于競(jìng)爭(zhēng)關(guān)系的推薦技術(shù)研究[D];北京郵電大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 陳媛媛;用戶興趣圖譜演化機(jī)制研究[D];武漢理工大學(xué);2014年
2 梁潤(rùn)庭(Runting Leung);面向微博用戶的興趣識(shí)別算法的研究與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
3 俞忻峰;新浪微博的數(shù)據(jù)采集和推薦方案研究[D];南京理工大學(xué);2015年
4 楊梅;基于樹型網(wǎng)絡(luò)的多源用戶興趣數(shù)據(jù)融合方法研究[D];四川師范大學(xué);2015年
5 石光蓮;基于形式概念分析的Folksonomy用戶興趣識(shí)別研究[D];西南大學(xué);2015年
6 湯文清;微博用戶的興趣及性格分析[D];上海大學(xué);2015年
7 梅佩;基于瀏覽內(nèi)容的用戶興趣研究[D];北京化工大學(xué);2015年
8 張少杰;基于用戶興趣的微博廣告投放系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山西大學(xué);2015年
9 黃龍偉;基于蟻群算法的WEB日志用戶興趣路徑研究[D];江西師范大學(xué);2015年
10 方正;微博短文本分析技術(shù)研究及應(yīng)用[D];電子科技大學(xué);2014年
,本文編號(hào):1499519
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1499519.html