基于LDA主題模型的用戶興趣發(fā)現(xiàn)方法
本文關(guān)鍵詞:基于LDA主題模型的用戶興趣發(fā)現(xiàn)方法
更多相關(guān)文章: 用戶興趣 短文本 LDA 特征拓展 K-means
【摘要】:用戶興趣是對(duì)微博用戶研究的重要內(nèi)容,本文使用聚類方法提取用戶興趣。由于微博短文本的特征稀疏和上下文依賴性,傳統(tǒng)方法不能取得良好的效果。本文對(duì)微博短文本進(jìn)行基于LDA主題模型的特征拓展處理。LDA主題模型引入隱含主題,通過(guò)主題相似性,在一定程度上拓展文本特征,彌補(bǔ)原文本特征稀疏的缺點(diǎn)。并且,在處理多義詞時(shí),主題相似性能明顯區(qū)分不同詞義,以解決上下文依賴問(wèn)題。在此基礎(chǔ)上,通過(guò)文本聚類方法提取用戶興趣。通過(guò)實(shí)驗(yàn)表明,在引入LDA模型下,聚類效果和用戶興趣抽取的到明顯提升,有效解決的微博用戶興趣發(fā)現(xiàn)中文博短文本特征稀疏和上下文依賴問(wèn)題。
【作者單位】: 北京郵電大學(xué)計(jì)算機(jī)學(xué)院;
【關(guān)鍵詞】: 用戶興趣 短文本 LDA 特征拓展 K-means
【基金】:國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973)(2013CB329606)
【分類號(hào)】:TP391.1
【正文快照】: 0引言用戶興趣是對(duì)微博用戶研究的重要內(nèi)容,本研究中使用文本聚類方法發(fā)掘用戶興趣,文本聚類技術(shù)一直是文本挖掘領(lǐng)域的重要內(nèi)容。而微博短文本由于具有短小、新詞多、不規(guī)范等特點(diǎn),如果直接使用傳統(tǒng)的方法往往不能取得很好的效果。對(duì)微博文本的研究,具有十分重要的理論研究和
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 楊亮;林原;林鴻飛;;基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J];中文信息學(xué)報(bào);2012年01期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 邵力;喬墩;;網(wǎng)絡(luò)熱點(diǎn)事件微博評(píng)論中的情感沖突分析[J];蘭州大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2016年06期
2 李燕飛;;高校心理困難學(xué)生動(dòng)態(tài)監(jiān)測(cè)系統(tǒng)的建構(gòu)[J];赤峰學(xué)院學(xué)報(bào)(自然科學(xué)版);2016年17期
3 李明;王高飛;;基于微博平臺(tái)的企業(yè)網(wǎng)絡(luò)口碑危機(jī)預(yù)警研究[J];北方經(jīng)貿(mào);2016年08期
4 萬(wàn)紅新;彭云;鄭睿穎;;時(shí)序化LDA的輿情文本動(dòng)態(tài)主題提取[J];計(jì)算機(jī)與現(xiàn)代化;2016年07期
5 張梅;程利偉;;基于Apriori算法的事件識(shí)別方法研究[J];數(shù)字技術(shù)與應(yīng)用;2016年05期
6 陳福;林闖;薛超;徐月梅;孟坤;倪藝函;;短句語(yǔ)義向量計(jì)算方法[J];通信學(xué)報(bào);2016年02期
7 李進(jìn)華;安仲杰;;基于地理坐標(biāo)的微博事件檢測(cè)與分析[J];現(xiàn)代圖書情報(bào)技術(shù);2016年02期
8 王冠群;田雪;黃德根;張婧;;中文微博觀點(diǎn)句識(shí)別及要素抽取研究[J];數(shù)據(jù)采集與處理;2016年01期
9 鄧佳煜;;突發(fā)性公共危機(jī)在微博平臺(tái)上的傳播——以昆明火車站暴力恐怖事件為例[J];新媒體研究;2015年18期
10 胡改麗;陳婷;陳福集;鄭小雪;;我國(guó)網(wǎng)絡(luò)輿情熱度分析文獻(xiàn)綜述[J];情報(bào)科學(xué);2016年01期
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 黎志升;王煦法;;基于Language Model的地理信息檢索模型(英文)[J];中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào);2010年02期
2 陳建美;林鴻飛;楊志豪;;基于語(yǔ)法的情感詞匯自動(dòng)獲取[J];智能系統(tǒng)學(xué)報(bào);2009年02期
3 劉康;趙軍;;基于層疊CRFs模型的句子褒貶度分析研究[J];中文信息學(xué)報(bào);2008年01期
4 邢永康;馬少平;;統(tǒng)計(jì)語(yǔ)言模型綜述[J];計(jì)算機(jī)科學(xué);2003年09期
5 李保利,俞士汶;話題識(shí)別與跟蹤研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年17期
6 徐琳宏;林鴻飛;潘宇;任惠;陳建美;;情感詞匯本體的構(gòu)造[J];情報(bào)學(xué)報(bào);2008年02期
7 陳建美;林鴻飛;;中文情感常識(shí)知識(shí)庫(kù)的構(gòu)建[J];情報(bào)學(xué)報(bào);2009年04期
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 王杰;使圖像的編輯更加容易[J];中文信息;1998年Z1期
2 王波,姚敏;基于信息抽取的匿名用戶興趣描述[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
3 董全德;;用戶興趣遷移模式與個(gè)性化服務(wù)[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年17期
4 鄭運(yùn)剛;馬建國(guó);;基于分類的用戶興趣漂移模型[J];情報(bào)雜志;2008年01期
5 張濤;;基于瀏覽歷史的用戶興趣提取模型[J];軟件導(dǎo)刊;2009年06期
6 楊杰;陳恩紅;;面向個(gè)性化服務(wù)的用戶興趣偏移檢測(cè)及處理方法[J];電子技術(shù);2009年11期
7 陳圣兵;李龍澍;紀(jì)霞;;多層次用戶興趣模式的動(dòng)態(tài)捕捉[J];計(jì)算機(jī)工程與應(yīng)用;2009年36期
8 鄭曉健;龐淑英;何英;;一種面向主題的用戶興趣挖掘模型研究[J];昆明學(xué)院學(xué)報(bào);2010年03期
9 花青松;劉海峰;胡錚;;基于基尼系數(shù)的用戶興趣分布模式度量方法[J];計(jì)算機(jī)工程;2012年22期
10 孫雨生;劉偉;仇蓉蓉;黃傳慧;;國(guó)內(nèi)用戶興趣建模研究進(jìn)展[J];情報(bào)雜志;2013年05期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前7條
1 趙琦;駱志剛;田文穎;李聰;丁凡;;一種基于負(fù)反饋信息的用戶興趣模型修正方法[A];中國(guó)通信學(xué)會(huì)第六屆學(xué)術(shù)年會(huì)論文集(下)[C];2009年
2 孫靜;郭奇;張志強(qiáng);馮建華;;一種基于面向領(lǐng)域檢索系統(tǒng)的用戶興趣獲取方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
3 孫鐵利;教巍巍;;基于馬爾科夫模型的用戶興趣導(dǎo)航模型系統(tǒng)(英文)[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年
4 廖祝華;劉建勛;易愛(ài)平;;基于用戶興趣的Web服務(wù)發(fā)現(xiàn)[A];2006年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(三)[C];2006年
5 李曉黎;史忠植;梁永全;劉福桃;;INTERNET網(wǎng)上一種識(shí)別用戶興趣的學(xué)習(xí)方法[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
6 田萱;杜小勇;;基于SAM模型的用戶興趣表示研究[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
7 王勇;劉奕群;張敏;馬少平;茹立云;;基于用戶興趣分析的網(wǎng)頁(yè)生命周期建模(英文)[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 王 斌;內(nèi)容為王[N];計(jì)算機(jī)世界;2004年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前9條
1 梁政;面向在線社交網(wǎng)絡(luò)輿情的信息傳播分析關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2014年
2 張召;在線論壇用戶興趣圖譜發(fā)現(xiàn)與個(gè)性化信息推薦[D];華東師范大學(xué);2012年
3 劉淇;基于用戶興趣建模的推薦方法及應(yīng)用研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2013年
4 郭巖;網(wǎng)絡(luò)日志中用戶興趣的挖掘及利用[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
5 吳麗輝;個(gè)性化的Web信息采集技術(shù)研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
6 謝興;社會(huì)網(wǎng)絡(luò)中興趣發(fā)現(xiàn)與信息組織的研究[D];復(fù)旦大學(xué);2011年
7 李東勝;基于興趣與保護(hù)隱私的在線社區(qū)推薦技術(shù)研究[D];復(fù)旦大學(xué);2012年
8 陳浩;Web搜索的用戶興趣與智能優(yōu)化研究[D];中南大學(xué);2012年
9 姜邵巍;基于競(jìng)爭(zhēng)關(guān)系的推薦技術(shù)研究[D];北京郵電大學(xué);2014年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳媛媛;用戶興趣圖譜演化機(jī)制研究[D];武漢理工大學(xué);2014年
2 梁潤(rùn)庭(Runting Leung);面向微博用戶的興趣識(shí)別算法的研究與實(shí)現(xiàn)[D];西南交通大學(xué);2015年
3 俞忻峰;新浪微博的數(shù)據(jù)采集和推薦方案研究[D];南京理工大學(xué);2015年
4 楊梅;基于樹(shù)型網(wǎng)絡(luò)的多源用戶興趣數(shù)據(jù)融合方法研究[D];四川師范大學(xué);2015年
5 石光蓮;基于形式概念分析的Folksonomy用戶興趣識(shí)別研究[D];西南大學(xué);2015年
6 湯文清;微博用戶的興趣及性格分析[D];上海大學(xué);2015年
7 梅佩;基于瀏覽內(nèi)容的用戶興趣研究[D];北京化工大學(xué);2015年
8 張少杰;基于用戶興趣的微博廣告投放系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];山西大學(xué);2015年
9 黃龍偉;基于蟻群算法的WEB日志用戶興趣路徑研究[D];江西師范大學(xué);2015年
10 方正;微博短文本分析技術(shù)研究及應(yīng)用[D];電子科技大學(xué);2014年
,本文編號(hào):960956
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/960956.html