特征融合在微博數(shù)據(jù)挖掘中的應(yīng)用研究
本文關(guān)鍵詞:特征融合在微博數(shù)據(jù)挖掘中的應(yīng)用研究
更多相關(guān)文章: 微博 聚類(lèi) 融合數(shù)據(jù)
【摘要】:針對(duì)傳統(tǒng)的微博聚類(lèi)分析中,只單獨(dú)針對(duì)微博閱讀數(shù)、評(píng)論數(shù)等數(shù)據(jù)(下稱(chēng)微博結(jié)構(gòu)化數(shù)據(jù))進(jìn)行分類(lèi)或者單獨(dú)針對(duì)由微博內(nèi)容進(jìn)行文本分詞得到的分詞數(shù)據(jù)(下稱(chēng)微博分詞)進(jìn)行分類(lèi)的問(wèn)題,本文采用了Kohonen聚類(lèi),研究結(jié)合微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞的融合數(shù)據(jù)聚類(lèi)的效果是否比單獨(dú)對(duì)微博結(jié)構(gòu)化數(shù)據(jù)或?qū)ξ⒉┓衷~聚類(lèi)有所提高。實(shí)證數(shù)據(jù)實(shí)驗(yàn)結(jié)果顯示,微博結(jié)構(gòu)化數(shù)據(jù)單獨(dú)聚類(lèi)會(huì)出現(xiàn)一個(gè)類(lèi)的標(biāo)準(zhǔn)差特別大(本文稱(chēng)為離群類(lèi)),而對(duì)融合數(shù)據(jù)聚類(lèi),微博結(jié)構(gòu)化數(shù)據(jù)則不會(huì)出現(xiàn)離群類(lèi);融合數(shù)據(jù)聚類(lèi)結(jié)果對(duì)微博分詞的影響不顯著。
【作者單位】: 華南理工大學(xué)電子商務(wù)系;
【分類(lèi)號(hào)】:TP311.13;TP393.092
【正文快照】: 微博是當(dāng)今流行的信息發(fā)布和交流的工具,微博蘊(yùn)含著大量的信息資源,成為數(shù)據(jù)分析的重要數(shù)據(jù)來(lái)源。微博數(shù)據(jù)可以分為兩類(lèi),一類(lèi)是結(jié)構(gòu)化數(shù)據(jù),微博的用戶名、閱讀數(shù)、轉(zhuǎn)播數(shù)、發(fā)表日期等微博相關(guān)的信息(下稱(chēng)“微博結(jié)構(gòu)化數(shù)據(jù)”);另一類(lèi)是非結(jié)構(gòu)化數(shù)據(jù)即微博用戶發(fā)表微博內(nèi)容的文
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 張國(guó)安;鐘紹輝;;基于k均值聚類(lèi)的微博用戶分類(lèi)的研究[J];電腦知識(shí)與技術(shù);2012年26期
2 潘大慶;;基于層次聚類(lèi)的微博敏感話題檢測(cè)算法研究[J];廣西民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
3 路榮;項(xiàng)亮;劉明榮;楊青;;基于隱主題分析和文本聚類(lèi)的微博客中新聞話題的發(fā)現(xiàn)[J];模式識(shí)別與人工智能;2012年03期
4 馬彬;洪宇;陸劍江;姚建民;朱巧明;;基于線索樹(shù)雙層聚類(lèi)的微博話題檢測(cè)[J];中文信息學(xué)報(bào);2012年06期
5 熊祖濤;;基于稀疏特征的中文微博短文本聚類(lèi)方法研究[J];軟件導(dǎo)刊;2014年01期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 潘大慶;;基于數(shù)據(jù)挖掘的輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)[J];大眾科技;2014年11期
2 史劍虹;陳興蜀;王文賢;;基于隱主題分析的中文微博話題發(fā)現(xiàn)[J];計(jì)算機(jī)應(yīng)用研究;2014年03期
3 吳樹(shù)芳;徐建民;孫曉磊;;基于貝葉斯信念網(wǎng)絡(luò)的話題識(shí)別模型[J];計(jì)算機(jī)應(yīng)用研究;2014年03期
4 孫國(guó)梓;黃斯琪;張禹森;陳國(guó)蘭;;基于數(shù)據(jù)挖掘的微博話題檢測(cè)方法研究進(jìn)展[J];金陵科技學(xué)院學(xué)報(bào);2014年01期
5 韓忠明;陳妮;張慧;楊偉杰;;一種非對(duì)稱(chēng)距離下的層次聚類(lèi)算法[J];模式識(shí)別與人工智能;2014年05期
6 邱云飛;郭彌綸;邵良杉;;基于主題樹(shù)的微博突發(fā)話題檢測(cè)[J];計(jì)算機(jī)應(yīng)用;2014年08期
7 劉業(yè)政;杜亞楠;姜元春;杜非;;基于熱度曲線分類(lèi)建模的微博熱門(mén)話題預(yù)測(cè)[J];模式識(shí)別與人工智能;2015年01期
8 王連喜;;微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J];圖書(shū)情報(bào)工作;2013年11期
9 楊尊琦;張倩楠;;基于k-means算法的微博用戶推薦功能研究[J];情報(bào)雜志;2013年08期
10 林曉麗;胡可可;胡青;;基于Python的微博用戶關(guān)系挖掘研究[J];情報(bào)雜志;2014年06期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 王嬋;基于Dirichlet過(guò)程混合模型的話題識(shí)別與追蹤[D];北京郵電大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王政霄;基于微博的熱點(diǎn)事件挖掘與情感分析[D];上海交通大學(xué);2013年
2 張紅衛(wèi);基于科技文獻(xiàn)的時(shí)序主題鏈構(gòu)建方法研究[D];大連理工大學(xué);2013年
3 邱洋;微博數(shù)據(jù)提取及話題檢測(cè)方法研究[D];大連理工大學(xué);2013年
4 孫勵(lì);基于微博的熱點(diǎn)話題發(fā)現(xiàn)[D];北京郵電大學(xué);2013年
5 楊文漪;面向微博的事件檢測(cè)算法研究[D];北京郵電大學(xué);2013年
6 詹勇;基于主題模型和混合模型的微博客交叉話題發(fā)現(xiàn)研究[D];西南交通大學(xué);2013年
7 張東霞;基于高校學(xué)生微博的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)及輿情分析研究[D];華南理工大學(xué);2013年
8 王娟;基于本體的微博話題發(fā)現(xiàn)與傾向性分析研究[D];河南師范大學(xué);2013年
9 張思龍;微博熱點(diǎn)話題預(yù)判技術(shù)研究[D];解放軍信息工程大學(xué);2013年
10 張朕;基于多數(shù)據(jù)源的熱點(diǎn)話題自動(dòng)發(fā)現(xiàn)技術(shù)研究[D];山東師范大學(xué);2014年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 丁藎;涂浩;;微博感知突發(fā)重大新聞事件的研究與分析[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年S1期
2 李鋒,周凱波,馮珊;基于統(tǒng)計(jì)特征的屬性相似度計(jì)算模型[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年06期
3 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J];計(jì)算機(jī)研究與發(fā)展;2004年07期
4 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期
5 程傳鵬;夏敏捷;;微博自動(dòng)標(biāo)引關(guān)鍵技術(shù)的研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年34期
6 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測(cè)的方法[J];計(jì)算機(jī)科學(xué);2012年01期
7 李鋒;魏瑩;;分布式環(huán)境下基于語(yǔ)義相似的案例檢索[J];計(jì)算機(jī)工程;2007年09期
8 王永恒;賈焰;楊樹(shù)強(qiáng);;海量短語(yǔ)信息文本聚類(lèi)技術(shù)研究[J];計(jì)算機(jī)工程;2007年14期
9 賈世杰;黃青松;馬世霞;;基于網(wǎng)格聚類(lèi)的案例檢索策略[J];計(jì)算機(jī)工程;2009年10期
10 黃承慧;印鑒;侯f ;;一種結(jié)合詞項(xiàng)語(yǔ)義信息和TF-IDF方法的文本相似度量方法[J];計(jì)算機(jī)學(xué)報(bào);2011年05期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 倪興良;問(wèn)答系統(tǒng)中的短文本聚類(lèi)研究與應(yīng)用[D];中國(guó)科學(xué)技術(shù)大學(xué);2011年
2 王樂(lè);短語(yǔ)消息聚類(lèi)相關(guān)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2008年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李自平,徐蓉芬,陳芝萍;結(jié)構(gòu)化數(shù)據(jù)獲取與處理系統(tǒng)[J];核電子學(xué)與探測(cè)技術(shù);1988年01期
2 蘇祖輝;;一種結(jié)構(gòu)化數(shù)據(jù)交換格式及方法[J];中小企業(yè)管理與科技(上旬刊);2012年07期
3 劉大滏;趙盛;;非結(jié)構(gòu)化數(shù)據(jù)的ETL設(shè)計(jì)方法探討[J];科技創(chuàng)新與應(yīng)用;2014年14期
4 文必龍;王瑞;姚建蓬;黃俊蓮;;一種Excel數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換方法[J];佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年03期
5 金更達(dá);潘燕軍;;結(jié)構(gòu)化數(shù)據(jù)長(zhǎng)期保存問(wèn)題探析[J];檔案學(xué)通訊;2006年05期
6 周進(jìn)剛;邢鐵軍;紀(jì)勇;趙大哲;;一種結(jié)構(gòu)化數(shù)據(jù)緩存方法[J];計(jì)算機(jī)工程;2010年20期
7 戴弘寧,文貴華,丁月華,范崇貴;非結(jié)構(gòu)化數(shù)據(jù)的可視化編輯系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;2003年06期
8 李?lèi)?ài)民;譚獻(xiàn)海;;基于XML技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換的研究[J];鐵路計(jì)算機(jī)應(yīng)用;2012年10期
9 曹金山;張澤濱;;非結(jié)構(gòu)化數(shù)據(jù)的ETL設(shè)計(jì)[J];現(xiàn)代電子技術(shù);2011年10期
10 潘順,金遠(yuǎn)平,歐陽(yáng)曄;結(jié)構(gòu)化數(shù)據(jù)到XML數(shù)據(jù)的語(yǔ)義映射[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前4條
1 陶曉鵬;胡運(yùn)發(fā);周水庚;王寧;;面向功能集成的結(jié)構(gòu)化數(shù)據(jù)采掘語(yǔ)言[A];第十五屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1998年
2 金更達(dá);潘燕軍;;結(jié)構(gòu)化數(shù)據(jù)長(zhǎng)期保存問(wèn)題探析[A];2007年浙江省高等學(xué)校檔案優(yōu)秀論文集[C];2007年
3 黃正行;呂旭東;段會(huì)龍;李昊e,
本文編號(hào):1276910
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1276910.html