個(gè)性化微博信息流推薦技術(shù)研究
本文選題:微博推薦 + 信息檢索。 參考:《蘭州交通大學(xué)》2014年碩士論文
【摘要】:微博作為社交網(wǎng)絡(luò)的新型代表以其快速、新穎和便捷的特點(diǎn)吸引了大量用戶,隨著微博的大規(guī)模發(fā)展越來越多的用戶選擇使用微博閱讀即時(shí)的新聞、發(fā)表對事物的看法、分享有趣的事情。進(jìn)而促使微博服務(wù)越來越趨向于信息的分享和傳播平臺(tái),微博信息隨之出現(xiàn)爆炸式增長。信息過載問題是社交網(wǎng)絡(luò)中最嚴(yán)重的危險(xiǎn),,隨著微博信息過載的問題困擾著越來越多的用戶,微博也面臨著越來越多用戶流失的危險(xiǎn),因此如何從大量的微博信息中快速有效的找出用戶感興趣的內(nèi)容是解決信息過載問題的關(guān)鍵。 首先要為用戶提供個(gè)性化的微博信息流推薦服務(wù),就要準(zhǔn)確把握用戶的愛好和興趣,如何通過用戶的博文分析而準(zhǔn)確把握用戶的興趣是目前的研究熱點(diǎn),而微博信息的短文本格式以及微博的社交網(wǎng)絡(luò)特性給微博個(gè)性化信息流推薦帶來了巨大的挑戰(zhàn),現(xiàn)有的微博信息流推薦正是由于目前主體模型研究的局限性和微博數(shù)據(jù)本身帶來的挑戰(zhàn)而無法達(dá)到較高的準(zhǔn)確率。本文在現(xiàn)有微博信息流推薦研究的基礎(chǔ)之上,針對為微博用戶推薦符合其興趣和喜好的微博信息的問題,對基于TF-IDF(Term Frequency inverseDocument Frequency)模型的微博信息流相似度計(jì)算方法進(jìn)行改進(jìn),結(jié)合LDA(LatentDirichlet Allocation)主題模型的相似度評分,最終達(dá)到較高的推薦準(zhǔn)確率。論文主要研究內(nèi)容如下: (1)論文基于TF-IDF模型,綜合考慮微博短文本數(shù)據(jù)特征,將單個(gè)詞語權(quán)重和多個(gè)詞語權(quán)重相結(jié)合用于計(jì)算微博信息流的相似性進(jìn)而評估用戶的興趣度,結(jié)合協(xié)同過濾的思想進(jìn)一步分析用戶的冷啟動(dòng)的問題和個(gè)性化特點(diǎn),有效降低無關(guān)微博信息的排名,優(yōu)化用戶微博信息排序。 (2)引入概率主題模型LDA來對微博內(nèi)容進(jìn)行建模,模型將每個(gè)微博集合視為一些隱含的主題特定比例的混合,而一個(gè)主題則視為經(jīng)常同時(shí)出現(xiàn)的詞語的分布,進(jìn)而在計(jì)算微博信息流相似性時(shí)將微博內(nèi)容映射到主題維度以提高推薦準(zhǔn)確率。 (3)將基于TF-IDF模型的改進(jìn)型方法和基于LDA的模型的方法集成用于微博個(gè)性化信息流推薦,實(shí)驗(yàn)基于新浪微博數(shù)據(jù)集與現(xiàn)有的余弦相似性和標(biāo)簽向量的微博推薦方法進(jìn)行了對比實(shí)驗(yàn),并利用查準(zhǔn)率、成功率和平均精度來評估算法效果,結(jié)果證明該算法的有效性。 論文下一步研究方向?qū)⒅乜紤]微博數(shù)據(jù)的多特征關(guān)聯(lián)性,由于微博本質(zhì)上是一種社會(huì)關(guān)系網(wǎng)絡(luò),即使單單在內(nèi)容上,微博信息也有很多特點(diǎn),因此微博信息流集合了多個(gè)影響特征,如何將這些特征融入并建模仍是一個(gè)開放待解決的問題。在未來的研究中將考慮用戶或者微博的多個(gè)特征以進(jìn)一步提高微博推薦的精確度。
[Abstract]:Weibo, as a new representative of social networks, has attracted a large number of users with its rapid, novel and convenient characteristics. With the large-scale development of Weibo, more and more users choose to use Weibo to read instant news and express their views on things.Share interesting things.Thus, Weibo's service tends to share and spread information more and more.The problem of information overload is the most serious danger in the social network. With the problem of information overload of Weibo puzzling more and more users, Weibo is also facing the danger of more and more users losing.So it is the key to solve the problem of information overload that how to quickly and effectively find out the content of user's interest from a large amount of Weibo information.First of all, to provide users with personalized Weibo information flow recommendation service, it is necessary to accurately grasp users' hobbies and interests. How to accurately grasp users' interests through user blog analysis is a hot research topic at present.However, the short text format of Weibo's message and the social network features of Weibo have brought great challenges to the personalized information flow recommendation of Weibo.The current recommendation of Weibo information flow is unable to achieve a higher accuracy due to the limitations of the current research on the subject model and the challenges brought by Weibo data itself.In this paper, based on the research of Weibo information flow recommendation, the similarity calculation method based on TF-IDF(Term Frequency and inverseDocument frequency model is improved to solve the problem of recommending Weibo information according to the user's interest and preference.Combining the similarity score of LDA(LatentDirichlet allocation model, the accuracy of recommendation is higher.The main contents of this thesis are as follows:1) based on the TF-IDF model, this paper combines the weight of single words with the weight of several words to calculate the similarity between the information flow of Weibo and evaluate the interest of users by considering the data features of Weibo's short text.Combined with the idea of collaborative filtering, this paper further analyzes the cold start problem and personalized characteristics of users, effectively reduces the ranking of irrelevant Weibo information, and optimizes the ranking of user Weibo information.(2) the probabilistic thematic model (LDA) is introduced to model Weibo's content. The model regards each set of Weibo as a mixture of implicit themes with a specific proportion, while a topic is regarded as the distribution of words that often occur at the same time.Then, when calculating the similarity of Weibo's information flow, we map Weibo's content to thematic dimension to improve the accuracy of recommendation.The improved method based on TF-IDF model and the method based on LDA model are integrated into Weibo's personalized information flow recommendation.The experiment is based on the comparison between Weibo data set of Sina and the current recommended method for recommending cosine similarity and tag vector. The effectiveness of the algorithm is evaluated by using precision ratio, success rate and average precision. The results show that the algorithm is effective.The next research direction of the thesis will focus on the multi-feature correlation of Weibo data. Because Weibo is essentially a social network, even in terms of content alone, Weibo information also has many characteristics.Therefore, Weibo information flow gathers many influence features, and how to integrate these features and model them is still an open problem to be solved.Several features of users or Weibo will be taken into account in future studies to further improve the accuracy of Weibo recommendations.
【學(xué)位授予單位】:蘭州交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092;TP391.3
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張付志;張啟鳳;;融合多系統(tǒng)用戶信息的協(xié)同過濾算法[J];計(jì)算機(jī)工程;2009年21期
2 周麗娟;徐明升;張研研;張璋;;基于協(xié)同過濾的課程推薦模型[J];計(jì)算機(jī)應(yīng)用研究;2010年04期
3 劉淇;陳恩紅;;結(jié)合二部圖投影與排序的協(xié)同過濾[J];小型微型計(jì)算機(jī)系統(tǒng);2010年05期
4 董全德;;基于雙信息源的協(xié)同過濾算法研究[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年07期
5 李聰;;電子商務(wù)協(xié)同過濾可擴(kuò)展性研究綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2010年11期
6 傅鶴崗;李冉;;基于用戶實(shí)時(shí)反饋的協(xié)同過濾算法[J];計(jì)算機(jī)應(yīng)用;2011年07期
7 辛勤芳;;基于項(xiàng)目聚類的協(xié)同過濾算法研究[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年09期
8 楊君;汪會(huì)玲;艾丹祥;;一種基于情景的多維協(xié)同過濾新方法研究[J];圖書情報(bào)工作;2011年21期
9 王宗武;;基于信任用戶聯(lián)合聚類的協(xié)同過濾算法[J];計(jì)算機(jī)與現(xiàn)代化;2013年09期
10 杜永萍;黃亮;何明;;融合信任計(jì)算的協(xié)同過濾推薦方法[J];模式識(shí)別與人工智能;2014年05期
相關(guān)會(huì)議論文 前10條
1 周軍鋒;湯顯;郭景峰;;一種優(yōu)化的協(xié)同過濾推薦算法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
2 沈杰峰;杜亞軍;唐俊;;一種基于項(xiàng)目分類的協(xié)同過濾算法[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
3 董全德;;基于雙信息源的協(xié)同過濾算法研究[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊)[C];2009年
4 張光衛(wèi);康建初;李鶴松;劉常昱;李德毅;;面向場景的協(xié)同過濾推薦算法[A];中國系統(tǒng)仿真學(xué)會(huì)第五次全國會(huì)員代表大會(huì)暨2006年全國學(xué)術(shù)年會(huì)論文集[C];2006年
5 李建國;姚良超;湯庸;郭歡;;基于認(rèn)知度的協(xié)同過濾推薦算法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2009年
6 王明文;陶紅亮;熊小勇;;雙向聚類迭代的協(xié)同過濾推薦算法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
7 胡必云;李舟軍;王君;;基于心理測量學(xué)的協(xié)同過濾相似度方法(英文)[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 林麗冰;師瑞峰;周一民;李月雷;;基于雙聚類的協(xié)同過濾推薦算法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
9 羅喜軍;王韜丞;杜小勇;劉紅巖;何軍;;基于類別的推薦——一種解決協(xié)同推薦中冷啟動(dòng)問題的方法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
10 黃創(chuàng)光;印鑒;汪靜;劉玉葆;王甲海;;不確定近鄰的協(xié)同過濾推薦算法[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集A輯一[C];2010年
相關(guān)博士學(xué)位論文 前9條
1 郭艷紅;推薦系統(tǒng)的協(xié)同過濾算法與應(yīng)用研究[D];大連理工大學(xué);2008年
2 李聰;電子商務(wù)推薦系統(tǒng)中協(xié)同過濾瓶頸問題研究[D];合肥工業(yè)大學(xué);2009年
3 羅恒;基于協(xié)同過濾視角的受限玻爾茲曼機(jī)研究[D];上海交通大學(xué);2011年
4 薛福亮;電子商務(wù)協(xié)同過濾推薦質(zhì)量影響因素及其改進(jìn)機(jī)制研究[D];天津大學(xué);2012年
5 高e
本文編號(hào):1755073
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1755073.html