一種新的網(wǎng)絡(luò)熱點(diǎn)話題提取方法
本文選題:熱點(diǎn)話題 + 極大相容塊; 參考:《小型微型計(jì)算機(jī)系統(tǒng)》2013年04期
【摘要】:網(wǎng)絡(luò)熱點(diǎn)話題提取是網(wǎng)絡(luò)輿情分析的重要手段,已成為信息檢索領(lǐng)域研究的熱點(diǎn)內(nèi)容之一.傳統(tǒng)聚類方法因其聚類結(jié)果不允許相交等因素,暴露了其在基于(主題)詞聚類進(jìn)行話題發(fā)現(xiàn)中的諸多缺點(diǎn).本文基于小世界理論建立詞的共現(xiàn)網(wǎng)絡(luò)模型并去除大量冗余詞,然后運(yùn)用極大相容塊技術(shù)并基于過濾后的詞共現(xiàn)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)相交話題的提取,獲取網(wǎng)絡(luò)熱點(diǎn)話題.本文方法與傳統(tǒng)聚類方法有本質(zhì)區(qū)別,基于(主題)詞聚類進(jìn)行話題發(fā)現(xiàn)具有獨(dú)特的優(yōu)勢(shì),較好克服了已有方法的缺點(diǎn).實(shí)驗(yàn)說明了本文方法對(duì)提取網(wǎng)絡(luò)熱點(diǎn)話題是有效和可行的,比同類算法具有更好的性能,且具有較好的可伸縮性.
[Abstract]:Network hot topic extraction is an important means of network public opinion analysis, and has become one of the hot topics in the field of information retrieval. Due to the fact that the traditional clustering method does not allow the intersection of the clustering results, it exposes its shortcomings in topic discovery based on (topic) word clustering. Based on the theory of small world, this paper establishes a co-occurrence network model of words and removes a large number of redundant words. Then we use the technology of maximal compatible block and the filtered co-occurrence network to extract intersecting topics and obtain hot topics on the network. The method in this paper is different from the traditional clustering method. The topic discovery based on topic clustering has its unique advantages and overcomes the shortcomings of the existing methods. Experiments show that this method is effective and feasible for extracting hot topics in network, and has better performance and better scalability than similar algorithms.
【作者單位】: 廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院;
【基金】:國家自然科學(xué)基金項(xiàng)目(61063032)資助 廣西自然科學(xué)基金項(xiàng)目(2012GXNSFAA053225)資助 廣西教育廳科研基金項(xiàng)目(201012MS010)資助
【分類號(hào)】:TP393.09
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 洪宇;張宇;范基禮;劉挺;李生;;基于語義域語言模型的中文話題關(guān)聯(lián)檢測(cè)[J];軟件學(xué)報(bào);2008年09期
2 曹玉娟;牛振東;趙X;彭學(xué)平;;基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測(cè)算法[J];軟件學(xué)報(bào);2011年08期
3 龍志yN;程葳;;基于詞聚類的熱點(diǎn)話題檢測(cè)算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年06期
4 曾依靈;許洪波;;網(wǎng)絡(luò)熱點(diǎn)信息發(fā)現(xiàn)研究[J];通信學(xué)報(bào);2007年12期
5 楊寧;唐常杰;王悅;陳瑜;鄭皎凌;李紅軍;;基于流信息距離的多文本流熱點(diǎn)挖掘[J];軟件學(xué)報(bào);2011年08期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王小華;徐寧;諶志群;;基于共詞分析的文本主題詞聚類與主題發(fā)現(xiàn)[J];情報(bào)科學(xué);2011年11期
2 余傳明;張小青;陳雷;;基于LDA模型的評(píng)論熱點(diǎn)挖掘:原理與實(shí)現(xiàn)[J];情報(bào)理論與實(shí)踐;2010年05期
3 逯萬輝;馬建霞;趙迎光;;爆發(fā)詞識(shí)別與主題探測(cè)技術(shù)研究綜述[J];情報(bào)理論與實(shí)踐;2012年06期
4 陸蓓;程肖;諶志群;;互聯(lián)網(wǎng)輿情挖掘研究述略[J];情報(bào)資料工作;2010年02期
5 龍志yN;程葳;;基于詞聚類的熱點(diǎn)話題檢測(cè)算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2011年06期
6 康小利;;基于時(shí)序的突發(fā)事件跟蹤研究[J];數(shù)字技術(shù)與應(yīng)用;2011年04期
7 劉霽;周亞東;高峰;趙俊舟;薛峰;;一種基于文本語義的網(wǎng)絡(luò)敏感話題識(shí)別方法[J];深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2011年03期
8 饒洋輝;葉良;常紅旭;程潔;;新話題監(jiān)測(cè)研究進(jìn)展[J];圖書館雜志;2009年07期
9 陳焱;;網(wǎng)絡(luò)輿情話題的數(shù)據(jù)立方體模型分析[J];圖書情報(bào)工作;2011年24期
10 劉曉娟;楊倩;;基于文獻(xiàn)計(jì)量學(xué)的熱點(diǎn)話題演化比較研究[J];圖書情報(bào)工作網(wǎng)刊;2012年05期
相關(guān)會(huì)議論文 前6條
1 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 劉星星;何婷婷;龔海軍;陳龍;;網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年
3 楚克明;李芳;;基于LDA新聞話題的演化[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
4 李恒訓(xùn);張華平;秦鵬;于滿泉;劉金剛;;基于主題詞的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
5 單斌;李芳;;基于種子文檔和話題模型的話題演化研究[A];第六屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
6 曹俊喜;劉云;徐希源;;電力行業(yè)網(wǎng)絡(luò)輿情監(jiān)測(cè)分析技術(shù)研究與系統(tǒng)設(shè)計(jì)[A];2012年電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2013年
相關(guān)博士學(xué)位論文 前10條
1 陳偉;基于時(shí)序文本挖掘的新聞內(nèi)容理解與推薦技術(shù)研究[D];浙江大學(xué);2010年
2 郭戈;數(shù)字視頻語義信息提取與分析[D];解放軍信息工程大學(xué);2010年
3 張曉艷;新聞話題表示模型和關(guān)聯(lián)追蹤技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年
4 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
5 劉玉國;基于內(nèi)容的互聯(lián)網(wǎng)輿情信息挖掘關(guān)鍵技術(shù)研究[D];山東大學(xué);2011年
6 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
7 黃九鳴;面向輿情分析和屬性發(fā)現(xiàn)的網(wǎng)絡(luò)文本挖掘技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
8 姚益平;基于能耗與作物生產(chǎn)潛力的中國溫室氣候區(qū)劃[D];南京農(nóng)業(yè)大學(xué);2011年
9 郝秀蘭;文本分類技術(shù)與應(yīng)用研究[D];復(fù)旦大學(xué);2008年
10 鐘茂生;基于內(nèi)容相關(guān)度計(jì)算的文本結(jié)構(gòu)分析方法研究[D];上海交通大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 李振;網(wǎng)絡(luò)輿情預(yù)測(cè)關(guān)鍵技術(shù)研究[D];鄭州大學(xué);2010年
2 趙慧杰;面向論壇的話題發(fā)現(xiàn)、跟蹤及傳播技術(shù)研究[D];哈爾濱工程大學(xué);2010年
3 秦宏宇;網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)相關(guān)技術(shù)研究[D];哈爾濱工程大學(xué);2010年
4 印文濤;基于星型K部圖的網(wǎng)絡(luò)視頻話題挖掘和可視化的研究[D];浙江大學(xué);2011年
5 白志杰;新聞視頻主題追蹤技術(shù)研究[D];解放軍信息工程大學(xué);2009年
6 王允;網(wǎng)絡(luò)輿情數(shù)據(jù)獲取與話題分析技術(shù)研究[D];解放軍信息工程大學(xué);2010年
7 周杰;網(wǎng)絡(luò)輿情話題情感傾向性分析技術(shù)研究[D];解放軍信息工程大學(xué);2010年
8 劉嵩;網(wǎng)絡(luò)中文事件自動(dòng)檢測(cè)技術(shù)研究[D];解放軍信息工程大學(xué);2010年
9 李海林;網(wǎng)絡(luò)輿情熱點(diǎn)信息發(fā)現(xiàn)及其傾向性研究[D];武漢理工大學(xué);2010年
10 戴霖;網(wǎng)絡(luò)輿情信息挖掘關(guān)鍵技術(shù)研究與應(yīng)用[D];浙江工商大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 柴省三;內(nèi)容詞-共引聚類分析及其在科學(xué)結(jié)構(gòu)研究中的應(yīng)用[J];情報(bào)學(xué)報(bào);1997年01期
2 鮑軍鵬,沈鈞毅,劉曉東,宋擒豹;自然語言文檔復(fù)制檢測(cè)研究綜述[J];軟件學(xué)報(bào);2003年10期
3 曾依靈;許洪波;;網(wǎng)絡(luò)熱點(diǎn)信息發(fā)現(xiàn)研究[J];通信學(xué)報(bào);2007年12期
相關(guān)碩士學(xué)位論文 前2條
1 鄒綱;中文新詞語自動(dòng)檢測(cè)研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2004年
2 周昭濤;文本聚類分析效果評(píng)價(jià)及文本表示研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);2005年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 郭玉濱;;Web文本挖掘技術(shù)及其應(yīng)用的研究[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2006年08期
2 王曉斌;溫春;石昭祥;;基于獨(dú)立分量分析的隱蔽Web領(lǐng)域聚類[J];計(jì)算機(jī)工程;2009年07期
3 王繼成,潘金貴,張福炎;Web文本挖掘技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2000年05期
4 崔志明,謝春麗;基于Web的文本挖掘研究[J];微電子學(xué)與計(jì)算機(jī);2002年10期
5 朱燁行;戴冠中;李曉宇;慕德俊;;一種文本聚類方法及BBS瀏覽機(jī)制研究[J];微電子學(xué)與計(jì)算機(jī);2006年08期
6 傅華忠;茅劍;;基于DBSCAN聚類算法的Web文本挖掘[J];科技信息;2007年01期
7 趙曉靜;;Web文本挖掘綜述[J];電腦學(xué)習(xí);2008年05期
8 唐菁;Web文本挖掘系統(tǒng)及聚類算法的研究[J];電信建設(shè);2004年02期
9 馬輝民 ,胡凌 ,郭瀟;文本聚類在Web挖掘系統(tǒng)中的應(yīng)用[J];統(tǒng)計(jì)與決策;2004年06期
10 潘延軍;基于瀏覽內(nèi)容研究的一種改進(jìn)的聚類算法[J];中國科技信息;2005年14期
相關(guān)會(huì)議論文 前3條
1 黎琳;;Web內(nèi)容挖掘在數(shù)字圖書館中的應(yīng)用[A];中國工程物理研究院第七屆電子技術(shù)青年學(xué)術(shù)交流會(huì)論文集[C];2005年
2 向繼;荊繼武;高能;;一種自動(dòng)搜索閾值的中文文本層次聚類方法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(上冊(cè))[C];2007年
3 邱立坤;陶然;龍志yN;程葳;;面向互聯(lián)網(wǎng)的話題發(fā)現(xiàn)技術(shù)研究[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會(huì)論文集(下冊(cè))[C];2007年
相關(guān)博士學(xué)位論文 前1條
1 楊曉峰;基于機(jī)器學(xué)習(xí)的Web安全檢測(cè)方法研究[D];南京理工大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 龐俊;基于確定話題和情感極性的博客文本聚類研究[D];武漢理工大學(xué);2010年
2 盛江濤;網(wǎng)絡(luò)論壇話題發(fā)現(xiàn)與跟蹤技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2010年
3 張俊艷;基于SVM有聚類指導(dǎo)的Web中文文本分類器的研究及其實(shí)現(xiàn)[D];福州大學(xué);2004年
4 那力嘉;基于個(gè)人信息管理的郵件處理系統(tǒng)[D];天津大學(xué);2004年
5 楊文忠;基于近似網(wǎng)頁聚類算法的Web文本數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[D];湖南大學(xué);2005年
6 潘延軍;基于用戶瀏覽內(nèi)容的Web用戶瀏覽行為個(gè)性化研究[D];天津大學(xué);2005年
7 閆瑞;博客數(shù)據(jù)特征提取與基于分類的垃圾博客過濾[D];中國科學(xué)技術(shù)大學(xué);2009年
8 秦宏宇;網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)相關(guān)技術(shù)研究[D];哈爾濱工程大學(xué);2010年
9 戴景波;小文本聚類技術(shù)及其在電子郵件中的應(yīng)用研究[D];東北大學(xué);2011年
10 周鑫;帶噪聲的文本聚類及其在反垃圾郵件中的應(yīng)用[D];廣東工業(yè)大學(xué);2012年
,本文編號(hào):1969360
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1969360.html