特征融合在微博數(shù)據(jù)挖掘中的應(yīng)用研究
本文關(guān)鍵詞:特征融合在微博數(shù)據(jù)挖掘中的應(yīng)用研究
更多相關(guān)文章: 微博 聚類 融合數(shù)據(jù)
【摘要】:針對傳統(tǒng)的微博聚類分析中,只單獨(dú)針對微博閱讀數(shù)、評論數(shù)等數(shù)據(jù)(下稱微博結(jié)構(gòu)化數(shù)據(jù))進(jìn)行分類或者單獨(dú)針對由微博內(nèi)容進(jìn)行文本分詞得到的分詞數(shù)據(jù)(下稱微博分詞)進(jìn)行分類的問題,本文采用了Kohonen聚類,研究結(jié)合微博結(jié)構(gòu)化數(shù)據(jù)和微博分詞的融合數(shù)據(jù)聚類的效果是否比單獨(dú)對微博結(jié)構(gòu)化數(shù)據(jù)或?qū)ξ⒉┓衷~聚類有所提高。實(shí)證數(shù)據(jù)實(shí)驗(yàn)結(jié)果顯示,微博結(jié)構(gòu)化數(shù)據(jù)單獨(dú)聚類會出現(xiàn)一個類的標(biāo)準(zhǔn)差特別大(本文稱為離群類),而對融合數(shù)據(jù)聚類,微博結(jié)構(gòu)化數(shù)據(jù)則不會出現(xiàn)離群類;融合數(shù)據(jù)聚類結(jié)果對微博分詞的影響不顯著。
【作者單位】: 華南理工大學(xué)電子商務(wù)系;
【分類號】:TP311.13;TP393.092
【正文快照】: 微博是當(dāng)今流行的信息發(fā)布和交流的工具,微博蘊(yùn)含著大量的信息資源,成為數(shù)據(jù)分析的重要數(shù)據(jù)來源。微博數(shù)據(jù)可以分為兩類,一類是結(jié)構(gòu)化數(shù)據(jù),微博的用戶名、閱讀數(shù)、轉(zhuǎn)播數(shù)、發(fā)表日期等微博相關(guān)的信息(下稱“微博結(jié)構(gòu)化數(shù)據(jù)”);另一類是非結(jié)構(gòu)化數(shù)據(jù)即微博用戶發(fā)表微博內(nèi)容的文
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前5條
1 張國安;鐘紹輝;;基于k均值聚類的微博用戶分類的研究[J];電腦知識與技術(shù);2012年26期
2 潘大慶;;基于層次聚類的微博敏感話題檢測算法研究[J];廣西民族大學(xué)學(xué)報(自然科學(xué)版);2012年04期
3 路榮;項(xiàng)亮;劉明榮;楊青;;基于隱主題分析和文本聚類的微博客中新聞話題的發(fā)現(xiàn)[J];模式識別與人工智能;2012年03期
4 馬彬;洪宇;陸劍江;姚建民;朱巧明;;基于線索樹雙層聚類的微博話題檢測[J];中文信息學(xué)報;2012年06期
5 熊祖濤;;基于稀疏特征的中文微博短文本聚類方法研究[J];軟件導(dǎo)刊;2014年01期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 潘大慶;;基于數(shù)據(jù)挖掘的輿情監(jiān)測系統(tǒng)設(shè)計[J];大眾科技;2014年11期
2 史劍虹;陳興蜀;王文賢;;基于隱主題分析的中文微博話題發(fā)現(xiàn)[J];計算機(jī)應(yīng)用研究;2014年03期
3 吳樹芳;徐建民;孫曉磊;;基于貝葉斯信念網(wǎng)絡(luò)的話題識別模型[J];計算機(jī)應(yīng)用研究;2014年03期
4 孫國梓;黃斯琪;張禹森;陳國蘭;;基于數(shù)據(jù)挖掘的微博話題檢測方法研究進(jìn)展[J];金陵科技學(xué)院學(xué)報;2014年01期
5 韓忠明;陳妮;張慧;楊偉杰;;一種非對稱距離下的層次聚類算法[J];模式識別與人工智能;2014年05期
6 邱云飛;郭彌綸;邵良杉;;基于主題樹的微博突發(fā)話題檢測[J];計算機(jī)應(yīng)用;2014年08期
7 劉業(yè)政;杜亞楠;姜元春;杜非;;基于熱度曲線分類建模的微博熱門話題預(yù)測[J];模式識別與人工智能;2015年01期
8 王連喜;;微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J];圖書情報工作;2013年11期
9 楊尊琦;張倩楠;;基于k-means算法的微博用戶推薦功能研究[J];情報雜志;2013年08期
10 林曉麗;胡可可;胡青;;基于Python的微博用戶關(guān)系挖掘研究[J];情報雜志;2014年06期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 王嬋;基于Dirichlet過程混合模型的話題識別與追蹤[D];北京郵電大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王政霄;基于微博的熱點(diǎn)事件挖掘與情感分析[D];上海交通大學(xué);2013年
2 張紅衛(wèi);基于科技文獻(xiàn)的時序主題鏈構(gòu)建方法研究[D];大連理工大學(xué);2013年
3 邱洋;微博數(shù)據(jù)提取及話題檢測方法研究[D];大連理工大學(xué);2013年
4 孫勵;基于微博的熱點(diǎn)話題發(fā)現(xiàn)[D];北京郵電大學(xué);2013年
5 楊文漪;面向微博的事件檢測算法研究[D];北京郵電大學(xué);2013年
6 詹勇;基于主題模型和混合模型的微博客交叉話題發(fā)現(xiàn)研究[D];西南交通大學(xué);2013年
7 張東霞;基于高校學(xué)生微博的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)及輿情分析研究[D];華南理工大學(xué);2013年
8 王娟;基于本體的微博話題發(fā)現(xiàn)與傾向性分析研究[D];河南師范大學(xué);2013年
9 張思龍;微博熱點(diǎn)話題預(yù)判技術(shù)研究[D];解放軍信息工程大學(xué);2013年
10 張朕;基于多數(shù)據(jù)源的熱點(diǎn)話題自動發(fā)現(xiàn)技術(shù)研究[D];山東師范大學(xué);2014年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 丁藎;涂浩;;微博感知突發(fā)重大新聞事件的研究與分析[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2011年S1期
2 李鋒,周凱波,馮珊;基于統(tǒng)計特征的屬性相似度計算模型[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2005年06期
3 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動態(tài)進(jìn)化模型的事件探測和追蹤算法[J];計算機(jī)研究與發(fā)展;2004年07期
4 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計算機(jī)研究與發(fā)展;2011年10期
5 程傳鵬;夏敏捷;;微博自動標(biāo)引關(guān)鍵技術(shù)的研究[J];計算機(jī)工程與應(yīng)用;2011年34期
6 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計算機(jī)科學(xué);2012年01期
7 李鋒;魏瑩;;分布式環(huán)境下基于語義相似的案例檢索[J];計算機(jī)工程;2007年09期
8 王永恒;賈焰;楊樹強(qiáng);;海量短語信息文本聚類技術(shù)研究[J];計算機(jī)工程;2007年14期
9 賈世杰;黃青松;馬世霞;;基于網(wǎng)格聚類的案例檢索策略[J];計算機(jī)工程;2009年10期
10 黃承慧;印鑒;侯f ;;一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法[J];計算機(jī)學(xué)報;2011年05期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 倪興良;問答系統(tǒng)中的短文本聚類研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2011年
2 王樂;短語消息聚類相關(guān)技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2008年
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李自平,徐蓉芬,陳芝萍;結(jié)構(gòu)化數(shù)據(jù)獲取與處理系統(tǒng)[J];核電子學(xué)與探測技術(shù);1988年01期
2 蘇祖輝;;一種結(jié)構(gòu)化數(shù)據(jù)交換格式及方法[J];中小企業(yè)管理與科技(上旬刊);2012年07期
3 劉大滏;趙盛;;非結(jié)構(gòu)化數(shù)據(jù)的ETL設(shè)計方法探討[J];科技創(chuàng)新與應(yīng)用;2014年14期
4 文必龍;王瑞;姚建蓬;黃俊蓮;;一種Excel數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換方法[J];佳木斯大學(xué)學(xué)報(自然科學(xué)版);2006年03期
5 金更達(dá);潘燕軍;;結(jié)構(gòu)化數(shù)據(jù)長期保存問題探析[J];檔案學(xué)通訊;2006年05期
6 周進(jìn)剛;邢鐵軍;紀(jì)勇;趙大哲;;一種結(jié)構(gòu)化數(shù)據(jù)緩存方法[J];計算機(jī)工程;2010年20期
7 戴弘寧,文貴華,丁月華,范崇貴;非結(jié)構(gòu)化數(shù)據(jù)的可視化編輯系統(tǒng)[J];計算機(jī)應(yīng)用研究;2003年06期
8 李愛民;譚獻(xiàn)海;;基于XML技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換的研究[J];鐵路計算機(jī)應(yīng)用;2012年10期
9 曹金山;張澤濱;;非結(jié)構(gòu)化數(shù)據(jù)的ETL設(shè)計[J];現(xiàn)代電子技術(shù);2011年10期
10 潘順,金遠(yuǎn)平,歐陽曄;結(jié)構(gòu)化數(shù)據(jù)到XML數(shù)據(jù)的語義映射[J];東南大學(xué)學(xué)報(自然科學(xué)版);2002年03期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 陶曉鵬;胡運(yùn)發(fā);周水庚;王寧;;面向功能集成的結(jié)構(gòu)化數(shù)據(jù)采掘語言[A];第十五屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1998年
2 金更達(dá);潘燕軍;;結(jié)構(gòu)化數(shù)據(jù)長期保存問題探析[A];2007年浙江省高等學(xué)校檔案優(yōu)秀論文集[C];2007年
3 黃正行;呂旭東;段會龍;李昊e,
本文編號:1276910
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1276910.html