基于改進(jìn)的LDA主題模型的微博用戶聚類研究
本文關(guān)鍵詞:基于改進(jìn)的LDA主題模型的微博用戶聚類研究
更多相關(guān)文章: 微博 主題模型 文本聚類 k均值算法
【摘要】:大規(guī)模文檔集中潛藏的語(yǔ)義信息一般可以用潛在狄利克雷(LDA)主題模型識(shí)別,因?yàn)槲⒉┒涛谋菊Z(yǔ)義稀疏,所以在微博短文本聚類中的應(yīng)用并不理想。利用傳統(tǒng)的潛在狄利克雷分布的主題模型來(lái)給微博建模,得到的微博用戶分布并不直觀,通過(guò)改進(jìn)的LDA模型將用戶表示為主題概率向量,不僅能夠充分地挖掘文本隱藏的語(yǔ)義信息,同時(shí)能夠直觀地呈現(xiàn)用戶的主題分布。提出基于密度區(qū)域劃分的K-means算法對(duì)微博用戶進(jìn)行聚類。使用真實(shí)的微博數(shù)據(jù)集進(jìn)行驗(yàn)證,與傳統(tǒng)的K-means聚類方法對(duì)比,采用該方法對(duì)微博用戶的聚類能夠有較明顯的提高。
【作者單位】: 北京信息科技大學(xué)計(jì)算機(jī)學(xué)院;北京拓爾思信息技術(shù)股份有限公司;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目“網(wǎng)頁(yè)內(nèi)容真實(shí)性評(píng)價(jià)研究”(項(xiàng)目編號(hào):61171159) 北京市發(fā)改委項(xiàng)目“異構(gòu)大數(shù)據(jù)分析挖掘整合技術(shù)北京市工程實(shí)驗(yàn)室創(chuàng)新能力建設(shè)項(xiàng)目”的成果
【分類號(hào)】:TP391.1;G206
【正文快照】: 隨著互聯(lián)網(wǎng)的不斷發(fā)展,特別是最近10年,Web 2.0的到來(lái)標(biāo)志著社交網(wǎng)絡(luò)的興起,每天在Facebook、Twitter、微信以及微博上產(chǎn)生的數(shù)據(jù)呈幾何指數(shù)增長(zhǎng),這些信息中很大一部分都是垃圾或者冗余無(wú)用信息,如何通過(guò)一種有效的手段精準(zhǔn)地發(fā)現(xiàn)、組織和利用這些社交網(wǎng)絡(luò)海量短文本背后隱含
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 趙亞琴;周獻(xiàn)中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計(jì)算機(jī)工程;2006年06期
2 劉務(wù)華;羅鐵堅(jiān);王文杰;;文本聚類技術(shù)的有效性驗(yàn)證[J];計(jì)算機(jī)工程;2007年01期
3 丁X;許侃;;基于文本聚類方法的我國(guó)科技管理研究領(lǐng)域的計(jì)量研究[J];科學(xué)學(xué)研究;2007年S1期
4 孫愛(ài)香;楊鑫華;;關(guān)于文本聚類有效性評(píng)價(jià)的研究[J];山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年05期
5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報(bào);2007年06期
6 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報(bào);2008年02期
7 李江華;楊書(shū)新;劉利峰;;基于概念格的文本聚類[J];計(jì)算機(jī)應(yīng)用;2008年09期
8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期
9 章成志;;文本聚類結(jié)果描述研究綜述[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2009年02期
10 馬娜;;文本聚類研究[J];電腦知識(shí)與技術(shù);2009年20期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
2 王洪俊;俞士汶;蘇祺;施水才;肖詩(shī)斌;;中文文本聚類的特征單元比較[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王明文;付劍波;羅遠(yuǎn)勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 張猛;王大玲;于戈;;一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
7 王樂(lè);田李;賈焰;韓偉紅;;一個(gè)并行的文本聚類混合算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年
9 張寶艷;王慶輝;;中文文本聚類的研究與實(shí)現(xiàn)[A];第一屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2002年
10 章成志;;基于多語(yǔ)文本聚類的主題層次體系生成研究1)[A];國(guó)家自然科學(xué)基金委員會(huì)管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會(huì)論文集[C];2010年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 高茂庭;文本聚類分析若干問(wèn)題研究[D];天津大學(xué);2007年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年
2 張培偉;基于改進(jìn)Single-Pass算法的熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年
3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年
4 邵明來(lái);中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年
5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年
6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年
7 樊兆欣;個(gè)性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];北京理工大學(xué);2015年
8 蘇圣瞳;微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2014年
9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年
10 李蕓;基于爬蟲(chóng)和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
,本文編號(hào):1285696
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1285696.html