個性化微博信息流推薦技術(shù)研究
本文選題:微博推薦 + 信息檢索; 參考:《蘭州交通大學》2014年碩士論文
【摘要】:微博作為社交網(wǎng)絡(luò)的新型代表以其快速、新穎和便捷的特點吸引了大量用戶,隨著微博的大規(guī)模發(fā)展越來越多的用戶選擇使用微博閱讀即時的新聞、發(fā)表對事物的看法、分享有趣的事情。進而促使微博服務越來越趨向于信息的分享和傳播平臺,微博信息隨之出現(xiàn)爆炸式增長。信息過載問題是社交網(wǎng)絡(luò)中最嚴重的危險,,隨著微博信息過載的問題困擾著越來越多的用戶,微博也面臨著越來越多用戶流失的危險,因此如何從大量的微博信息中快速有效的找出用戶感興趣的內(nèi)容是解決信息過載問題的關(guān)鍵。 首先要為用戶提供個性化的微博信息流推薦服務,就要準確把握用戶的愛好和興趣,如何通過用戶的博文分析而準確把握用戶的興趣是目前的研究熱點,而微博信息的短文本格式以及微博的社交網(wǎng)絡(luò)特性給微博個性化信息流推薦帶來了巨大的挑戰(zhàn),現(xiàn)有的微博信息流推薦正是由于目前主體模型研究的局限性和微博數(shù)據(jù)本身帶來的挑戰(zhàn)而無法達到較高的準確率。本文在現(xiàn)有微博信息流推薦研究的基礎(chǔ)之上,針對為微博用戶推薦符合其興趣和喜好的微博信息的問題,對基于TF-IDF(Term Frequency inverseDocument Frequency)模型的微博信息流相似度計算方法進行改進,結(jié)合LDA(LatentDirichlet Allocation)主題模型的相似度評分,最終達到較高的推薦準確率。論文主要研究內(nèi)容如下: (1)論文基于TF-IDF模型,綜合考慮微博短文本數(shù)據(jù)特征,將單個詞語權(quán)重和多個詞語權(quán)重相結(jié)合用于計算微博信息流的相似性進而評估用戶的興趣度,結(jié)合協(xié)同過濾的思想進一步分析用戶的冷啟動的問題和個性化特點,有效降低無關(guān)微博信息的排名,優(yōu)化用戶微博信息排序。 (2)引入概率主題模型LDA來對微博內(nèi)容進行建模,模型將每個微博集合視為一些隱含的主題特定比例的混合,而一個主題則視為經(jīng)常同時出現(xiàn)的詞語的分布,進而在計算微博信息流相似性時將微博內(nèi)容映射到主題維度以提高推薦準確率。 (3)將基于TF-IDF模型的改進型方法和基于LDA的模型的方法集成用于微博個性化信息流推薦,實驗基于新浪微博數(shù)據(jù)集與現(xiàn)有的余弦相似性和標簽向量的微博推薦方法進行了對比實驗,并利用查準率、成功率和平均精度來評估算法效果,結(jié)果證明該算法的有效性。 論文下一步研究方向?qū)⒅乜紤]微博數(shù)據(jù)的多特征關(guān)聯(lián)性,由于微博本質(zhì)上是一種社會關(guān)系網(wǎng)絡(luò),即使單單在內(nèi)容上,微博信息也有很多特點,因此微博信息流集合了多個影響特征,如何將這些特征融入并建模仍是一個開放待解決的問題。在未來的研究中將考慮用戶或者微博的多個特征以進一步提高微博推薦的精確度。
[Abstract]:Weibo, as a new representative of social networks, has attracted a large number of users with its rapid, novel and convenient characteristics. With the large-scale development of Weibo, more and more users choose to use Weibo to read instant news and express their views on things.Share interesting things.Thus, Weibo's service tends to share and spread information more and more.The problem of information overload is the most serious danger in the social network. With the problem of information overload of Weibo puzzling more and more users, Weibo is also facing the danger of more and more users losing.So it is the key to solve the problem of information overload that how to quickly and effectively find out the content of user's interest from a large amount of Weibo information.First of all, to provide users with personalized Weibo information flow recommendation service, it is necessary to accurately grasp users' hobbies and interests. How to accurately grasp users' interests through user blog analysis is a hot research topic at present.However, the short text format of Weibo's message and the social network features of Weibo have brought great challenges to the personalized information flow recommendation of Weibo.The current recommendation of Weibo information flow is unable to achieve a higher accuracy due to the limitations of the current research on the subject model and the challenges brought by Weibo data itself.In this paper, based on the research of Weibo information flow recommendation, the similarity calculation method based on TF-IDF(Term Frequency and inverseDocument frequency model is improved to solve the problem of recommending Weibo information according to the user's interest and preference.Combining the similarity score of LDA(LatentDirichlet allocation model, the accuracy of recommendation is higher.The main contents of this thesis are as follows:1) based on the TF-IDF model, this paper combines the weight of single words with the weight of several words to calculate the similarity between the information flow of Weibo and evaluate the interest of users by considering the data features of Weibo's short text.Combined with the idea of collaborative filtering, this paper further analyzes the cold start problem and personalized characteristics of users, effectively reduces the ranking of irrelevant Weibo information, and optimizes the ranking of user Weibo information.(2) the probabilistic thematic model (LDA) is introduced to model Weibo's content. The model regards each set of Weibo as a mixture of implicit themes with a specific proportion, while a topic is regarded as the distribution of words that often occur at the same time.Then, when calculating the similarity of Weibo's information flow, we map Weibo's content to thematic dimension to improve the accuracy of recommendation.The improved method based on TF-IDF model and the method based on LDA model are integrated into Weibo's personalized information flow recommendation.The experiment is based on the comparison between Weibo data set of Sina and the current recommended method for recommending cosine similarity and tag vector. The effectiveness of the algorithm is evaluated by using precision ratio, success rate and average precision. The results show that the algorithm is effective.The next research direction of the thesis will focus on the multi-feature correlation of Weibo data. Because Weibo is essentially a social network, even in terms of content alone, Weibo information also has many characteristics.Therefore, Weibo information flow gathers many influence features, and how to integrate these features and model them is still an open problem to be solved.Several features of users or Weibo will be taken into account in future studies to further improve the accuracy of Weibo recommendations.
【學位授予單位】:蘭州交通大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP393.092;TP391.3
【相似文獻】
相關(guān)期刊論文 前10條
1 張付志;張啟鳳;;融合多系統(tǒng)用戶信息的協(xié)同過濾算法[J];計算機工程;2009年21期
2 周麗娟;徐明升;張研研;張璋;;基于協(xié)同過濾的課程推薦模型[J];計算機應用研究;2010年04期
3 劉淇;陳恩紅;;結(jié)合二部圖投影與排序的協(xié)同過濾[J];小型微型計算機系統(tǒng);2010年05期
4 董全德;;基于雙信息源的協(xié)同過濾算法研究[J];合肥工業(yè)大學學報(自然科學版);2010年07期
5 李聰;;電子商務協(xié)同過濾可擴展性研究綜述[J];現(xiàn)代圖書情報技術(shù);2010年11期
6 傅鶴崗;李冉;;基于用戶實時反饋的協(xié)同過濾算法[J];計算機應用;2011年07期
7 辛勤芳;;基于項目聚類的協(xié)同過濾算法研究[J];赤峰學院學報(自然科學版);2011年09期
8 楊君;汪會玲;艾丹祥;;一種基于情景的多維協(xié)同過濾新方法研究[J];圖書情報工作;2011年21期
9 王宗武;;基于信任用戶聯(lián)合聚類的協(xié)同過濾算法[J];計算機與現(xiàn)代化;2013年09期
10 杜永萍;黃亮;何明;;融合信任計算的協(xié)同過濾推薦方法[J];模式識別與人工智能;2014年05期
相關(guān)會議論文 前10條
1 周軍鋒;湯顯;郭景峰;;一種優(yōu)化的協(xié)同過濾推薦算法[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2004年
2 沈杰峰;杜亞軍;唐俊;;一種基于項目分類的協(xié)同過濾算法[A];第二十二屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2005年
3 董全德;;基于雙信息源的協(xié)同過濾算法研究[A];全國第20屆計算機技術(shù)與應用學術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應用學術(shù)會議論文集(上冊)[C];2009年
4 張光衛(wèi);康建初;李鶴松;劉常昱;李德毅;;面向場景的協(xié)同過濾推薦算法[A];中國系統(tǒng)仿真學會第五次全國會員代表大會暨2006年全國學術(shù)年會論文集[C];2006年
5 李建國;姚良超;湯庸;郭歡;;基于認知度的協(xié)同過濾推薦算法[A];第26屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2009年
6 王明文;陶紅亮;熊小勇;;雙向聚類迭代的協(xié)同過濾推薦算法[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
7 胡必云;李舟軍;王君;;基于心理測量學的協(xié)同過濾相似度方法(英文)[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集(B輯)[C];2010年
8 林麗冰;師瑞峰;周一民;李月雷;;基于雙聚類的協(xié)同過濾推薦算法[A];2008'中國信息技術(shù)與應用學術(shù)論壇論文集(一)[C];2008年
9 羅喜軍;王韜丞;杜小勇;劉紅巖;何軍;;基于類別的推薦——一種解決協(xié)同推薦中冷啟動問題的方法[A];第二十四屆中國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2007年
10 黃創(chuàng)光;印鑒;汪靜;劉玉葆;王甲海;;不確定近鄰的協(xié)同過濾推薦算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學術(shù)會議論文集A輯一[C];2010年
相關(guān)博士學位論文 前9條
1 郭艷紅;推薦系統(tǒng)的協(xié)同過濾算法與應用研究[D];大連理工大學;2008年
2 李聰;電子商務推薦系統(tǒng)中協(xié)同過濾瓶頸問題研究[D];合肥工業(yè)大學;2009年
3 羅恒;基于協(xié)同過濾視角的受限玻爾茲曼機研究[D];上海交通大學;2011年
4 薛福亮;電子商務協(xié)同過濾推薦質(zhì)量影響因素及其改進機制研究[D];天津大學;2012年
5 高e
本文編號:1755073
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1755073.html