基于多源數(shù)據(jù)融合的微博用戶興趣挖掘方法
本文關(guān)鍵詞:基于多源數(shù)據(jù)融合的微博用戶興趣挖掘方法 出處:《哈爾濱工業(yè)大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 微博 用戶興趣模型 LDA 主題特征
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,社交網(wǎng)絡(luò)得到人們的廣泛認(rèn)可。在國內(nèi)社交網(wǎng)絡(luò)方面,越來越多的人開始通過微博發(fā)布信息,而微博網(wǎng)站也成為主流海量信息的發(fā)布體,對(duì)微博的研究也從顯性的興趣標(biāo)簽到微博本身潛在的內(nèi)容進(jìn)行主題挖掘。LDA(latent Dirichlet allocation)模型是近幾年比較流行的一種非監(jiān)督的主題模型,已經(jīng)有一些研究通過在Twitter數(shù)據(jù)集上對(duì)LDA模型進(jìn)行主題挖掘,但在中文微博的主題挖掘上的研究并不多。基于微博內(nèi)容的用戶興趣挖掘可以獲得較為精準(zhǔn)的挖掘結(jié)果,但會(huì)面臨冷啟動(dòng)和數(shù)據(jù)稀疏問題;诮换リP(guān)系的用戶興趣挖掘方法和基于交互信息的用戶興趣挖掘方法可以從兩個(gè)不同的角度彌補(bǔ)基于微博內(nèi)容的用戶興趣挖掘方法的缺陷。本文爬取新浪微博用戶不同層次的數(shù)據(jù)用于進(jìn)行多源數(shù)據(jù)融合微博用戶興趣建模研究。主要研究成果包括以下幾個(gè)方面:首先,結(jié)合傳統(tǒng)LDA模型提出一種適合中文微博的有監(jiān)督的興趣主題挖掘模型,即基于內(nèi)容主題挖掘微博生成模型CTM-LDA。該模型有效的利用了先驗(yàn)主題信息,根據(jù)微博用戶信息及用戶原創(chuàng)內(nèi)容相融合挖掘微博用戶興趣主題。其次,利用基于交互關(guān)系和交互信息的等信息源分別構(gòu)建興趣模型,利用交互關(guān)系矩陣和關(guān)注人興趣標(biāo)簽以及詞語間相似度生成關(guān)注人興趣主題。最后,針對(duì)微博自定義內(nèi)容,話題微博,交互信息,以及用戶自定義標(biāo)簽等不同數(shù)據(jù)進(jìn)行實(shí)驗(yàn),構(gòu)建微博用戶興趣模型,研究并設(shè)計(jì)了多源數(shù)據(jù)融合的用戶興趣模型,利用空間向量構(gòu)建出用戶最終的興趣主題。本文提出了不同數(shù)據(jù)源的微博用戶興趣融合模型,通過研究發(fā)現(xiàn)可以有效利用用戶之間的交互關(guān)聯(lián)關(guān)系的信息對(duì)微博用戶進(jìn)行興趣主題挖掘,且融合模型的效果要更優(yōu)。未來通過用戶的興趣模型可有針對(duì)性的對(duì)微博用戶進(jìn)行個(gè)性化推薦,該模型可推廣到其他社會(huì)媒體網(wǎng)站平臺(tái),對(duì)于企業(yè)而言具有一定商業(yè)研究?jī)r(jià)值。
[Abstract]:With the rapid development of the Internet, social networks have been widely recognized. In the domestic social networks, more and more people began to publish information through Weibo. And Weibo website also becomes the main stream massive information release body. The study of Weibo also goes from explicit interest tags to Weibo's own potential content for topic mining. LDAlatent Dirichlet location). Model is a popular unsupervised thematic model in recent years. There has been some research on topic mining for LDA models on Twitter datasets. However, there is not much research on the Chinese Weibo topic mining. The user interest mining based on Weibo content can obtain more accurate mining results. However, it will face the problem of cold startup and sparse data. The interactive method of user interest mining and the method of user interest mining based on interactive information can make up for the user interest mining based on Weibo content from two different angles. This paper crawls different levels of data from the user of Sina Weibo to carry on the multi-source data fusion Weibo user interest modeling research. The main research results include the following aspects:. First. Based on the traditional LDA model, a supervised topic mining model for Chinese Weibo is proposed. Namely based on content topic mining Weibo generation model CTM-LDA. this model effectively utilizes the prior topic information. According to Weibo user information and user-generated content fusion mining Weibo user interest topics. Secondly using interactive and interactive information sources such as information to build interest model. Using the interaction matrix, interest labels and the similarity between words and expressions to generate topics of interest. Finally, for Weibo custom content, the topic Weibo, interactive information. As well as user defined tags and other different data experiments, build Weibo user interest model, research and design multi-source data fusion user interest model. Using space vector to construct the user's final topic of interest. In this paper, Weibo user interest fusion model with different data sources is proposed. Through the research, it is found that the information of the interaction relationship between users can be used effectively to mine the topic of interest of Weibo users. And the effect of fusion model should be better. In the future, Weibo user can be personalized recommended through user interest model, this model can be extended to other social media website platform. It has certain commercial research value for enterprises.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;F49
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王杰;使圖像的編輯更加容易[J];中文信息;1998年Z1期
2 王波,姚敏;基于信息抽取的匿名用戶興趣描述[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
3 董全德;;用戶興趣遷移模式與個(gè)性化服務(wù)[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年17期
4 鄭運(yùn)剛;馬建國;;基于分類的用戶興趣漂移模型[J];情報(bào)雜志;2008年01期
5 張濤;;基于瀏覽歷史的用戶興趣提取模型[J];軟件導(dǎo)刊;2009年06期
6 楊杰;陳恩紅;;面向個(gè)性化服務(wù)的用戶興趣偏移檢測(cè)及處理方法[J];電子技術(shù);2009年11期
7 陳圣兵;李龍澍;紀(jì)霞;;多層次用戶興趣模式的動(dòng)態(tài)捕捉[J];計(jì)算機(jī)工程與應(yīng)用;2009年36期
8 鄭曉健;龐淑英;何英;;一種面向主題的用戶興趣挖掘模型研究[J];昆明學(xué)院學(xué)報(bào);2010年03期
9 花青松;劉海峰;胡錚;;基于基尼系數(shù)的用戶興趣分布模式度量方法[J];計(jì)算機(jī)工程;2012年22期
10 孫雨生;劉偉;仇蓉蓉;黃傳慧;;國內(nèi)用戶興趣建模研究進(jìn)展[J];情報(bào)雜志;2013年05期
相關(guān)會(huì)議論文 前7條
1 趙琦;駱志剛;田文穎;李聰;丁凡;;一種基于負(fù)反饋信息的用戶興趣模型修正方法[A];中國通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(下)[C];2009年
2 孫靜;郭奇;張志強(qiáng);馮建華;;一種基于面向領(lǐng)域檢索系統(tǒng)的用戶興趣獲取方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
3 孫鐵利;教巍巍;;基于馬爾科夫模型的用戶興趣導(dǎo)航模型系統(tǒng)(英文)[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
4 廖祝華;劉建勛;易愛平;;基于用戶興趣的Web服務(wù)發(fā)現(xiàn)[A];2006年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(三)[C];2006年
5 李曉黎;史忠植;梁永全;劉福桃;;INTERNET網(wǎng)上一種識(shí)別用戶興趣的學(xué)習(xí)方法[A];第十六屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集[C];1999年
6 田萱;杜小勇;;基于SAM模型的用戶興趣表示研究[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
7 王勇;劉奕群;張敏;馬少平;茹立云;;基于用戶興趣分析的網(wǎng)頁生命周期建模(英文)[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)重要報(bào)紙文章 前1條
1 中國科學(xué)院計(jì)算技術(shù)研究所 王 斌;內(nèi)容為王[N];計(jì)算機(jī)世界;2004年
相關(guān)博士學(xué)位論文 前8條
1 張召;在線論壇用戶興趣圖譜發(fā)現(xiàn)與個(gè)性化信息推薦[D];華東師范大學(xué);2012年
2 劉淇;基于用戶興趣建模的推薦方法及應(yīng)用研究[D];中國科學(xué)技術(shù)大學(xué);2013年
3 郭巖;網(wǎng)絡(luò)日志中用戶興趣的挖掘及利用[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
4 吳麗輝;個(gè)性化的Web信息采集技術(shù)研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
5 謝興;社會(huì)網(wǎng)絡(luò)中興趣發(fā)現(xiàn)與信息組織的研究[D];復(fù)旦大學(xué);2011年
6 李東勝;基于興趣與保護(hù)隱私的在線社區(qū)推薦技術(shù)研究[D];復(fù)旦大學(xué);2012年
7 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
8 姜邵巍;基于競(jìng)爭(zhēng)關(guān)系的推薦技術(shù)研究[D];北京郵電大學(xué);2014年
相關(guān)碩士學(xué)位論文 前10條
1 陳媛媛;用戶興趣圖譜演化機(jī)制研究[D];武漢理工大學(xué);2014年
2 梁潤(rùn)庭(Runting Leung);面向微博用戶的興趣識(shí)別算法的研究與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
3 俞忻峰;新浪微博的數(shù)據(jù)采集和推薦方案研究[D];南京理工大學(xué);2015年
4 楊梅;基于樹型網(wǎng)絡(luò)的多源用戶興趣數(shù)據(jù)融合方法研究[D];四川師范大學(xué);2015年
5 石光蓮;基于形式概念分析的Folksonomy用戶興趣識(shí)別研究[D];西南大學(xué);2015年
6 湯文清;微博用戶的興趣及性格分析[D];上海大學(xué);2015年
7 梅佩;基于瀏覽內(nèi)容的用戶興趣研究[D];北京化工大學(xué);2015年
8 張少杰;基于用戶興趣的微博廣告投放系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山西大學(xué);2015年
9 黃龍偉;基于蟻群算法的WEB日志用戶興趣路徑研究[D];江西師范大學(xué);2015年
10 方正;微博短文本分析技術(shù)研究及應(yīng)用[D];電子科技大學(xué);2014年
,本文編號(hào):1383687
本文鏈接:http://sikaile.net/jingjilunwen/xxjj/1383687.html