基于主題模型的微博重要話題發(fā)現(xiàn)與排序方法
本文選題:微博客 切入點(diǎn):關(guān)鍵詞排序 出處:《計(jì)算機(jī)研究與發(fā)展》2013年S1期
【摘要】:近年來,以Twitter和新浪微博為代表的微博客正在世界范圍內(nèi)流行起來.根據(jù)微博的特點(diǎn),提出一種與特定主題(比如某種產(chǎn)品)相關(guān)的話題發(fā)現(xiàn)和排序的新方法.首先,在互聯(lián)網(wǎng)上收集并格式化出現(xiàn)了感興趣的詞的微博.對(duì)于這些微博中的所有詞匯,綜合考慮影響力、突發(fā)性和相關(guān)性3個(gè)要素對(duì)其重要性進(jìn)行評(píng)估.其次,對(duì)詞的重要性做出估量后,以含有同一關(guān)鍵詞的微博的集合為輸入文檔訓(xùn)練LDA模型.然后通過對(duì)主題關(guān)鍵詞的概率分布的推導(dǎo),實(shí)現(xiàn)詞的聚類和主題的挖掘.這一方法可以克服微博的長(zhǎng)度限制所帶來的數(shù)據(jù)稀缺性問題.最后,通過真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明了該方法的有效性.
[Abstract]:In recent years, micro blog in Sina Twitter and micro-blog as the representative of the world is popular. According to the characteristic of micro-blog, and presents a specific theme (such as a new product) methods related to topic detection and ranking. First, collect and format on the Internet are interested in micro-blog word. For all of these words in micro-blog, considering the influence of the 3 elements of burstiness and correlation to assess its importance. Secondly, make a measure of the importance of words, in the same micro-blog keyword set containing the input document for training the LDA model. Then through the derivation of the probability distribution of keywords, mining word clustering and topic. This method can overcome the problems caused by the scarcity of data in micro-blog's length limit. Finally, through experiments on real data sets show the effectiveness of the proposed method.
【作者單位】: 清華大學(xué)軟件學(xué)院信息系統(tǒng)與工程研究所;
【基金】:國(guó)家“八六三”高技術(shù)研究發(fā)展計(jì)劃基金項(xiàng)目(2012AA040911)
【分類號(hào)】:TP393.092;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期
2 洪宇;張宇;劉挺;李生;;話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J];中文信息學(xué)報(bào);2007年06期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 焦健;瞿有利;;知網(wǎng)的話題更新與跟蹤算法研究[J];北京交通大學(xué)學(xué)報(bào);2009年05期
2 魯明羽;姚曉娜;魏善嶺;;基于模糊聚類的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘[J];大連海事大學(xué)學(xué)報(bào);2008年04期
3 許志凱;徐志明;李棟;李生;;面向互聯(lián)網(wǎng)新聞的話題檢測(cè)與追蹤[J];智能計(jì)算機(jī)與應(yīng)用;2011年03期
4 倉(cāng)玉;洪宇;姚建民;朱巧明;;基于時(shí)序話題模型的新事件檢測(cè)[J];智能計(jì)算機(jī)與應(yīng)用;2011年03期
5 張瑛;張婭婷;;動(dòng)態(tài)文本會(huì)話抽取技術(shù)研究[J];電視技術(shù);2011年11期
6 謝林燕;戚銀城;孫卓;;地點(diǎn)信息在話題檢測(cè)中的應(yīng)用[J];電子科技;2012年01期
7 潘文富;郭友實(shí);;網(wǎng)絡(luò)輿情監(jiān)測(cè)技術(shù)研究綜述[J];福建電腦;2011年08期
8 石大文;張暉;;基于LDA模型的BBS話題演化[J];工業(yè)控制計(jì)算機(jī);2012年05期
9 施侃晟;劉海濤;白英彩;宋文濤;周書勇;;便于快速信息融合的主題檢測(cè)算法[J];電子科技大學(xué)學(xué)報(bào);2012年06期
10 孫乃利;王玉龍;沈奇威;;微博客意見領(lǐng)袖識(shí)別的研究[J];電信技術(shù);2012年12期
相關(guān)會(huì)議論文 前10條
1 彭楠峗;王厚峰;凌晨添;;基于層次聚類的網(wǎng)絡(luò)新聞熱點(diǎn)發(fā)現(xiàn)[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
2 張輝;李國(guó)輝;陳俊;;一種基于新聞要素建模的新事件探測(cè)方法[A];第七屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2011)論文集【oral】[C];2011年
3 駱衛(wèi)華;于滿泉;許洪波;王斌;程學(xué)旗;;基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
4 劉星星;何婷婷;龔海軍;陳龍;;網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
5 李軍;李涓子;;新聞專題內(nèi)子話題劃分[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 楚克明;李芳;;基于LDA新聞話題的演化[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
7 李恒訓(xùn);張華平;秦鵬;于滿泉;劉金剛;;基于主題詞的網(wǎng)絡(luò)熱點(diǎn)話題發(fā)現(xiàn)[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
8 單斌;李芳;;基于種子文檔和話題模型的話題演化研究[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
9 曹俊喜;劉云;徐希源;;電力行業(yè)網(wǎng)絡(luò)輿情監(jiān)測(cè)分析技術(shù)研究與系統(tǒng)設(shè)計(jì)[A];2012年電力通信管理暨智能電網(wǎng)通信技術(shù)論壇論文集[C];2013年
10 劉娜;肖智博;路瑩;唐曉君;肖鵬;;自適應(yīng)主題融合的多文檔自動(dòng)摘要算法[A];2013年中國(guó)智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第五分冊(cè))[C];2013年
相關(guān)博士學(xué)位論文 前10條
1 陳偉;基于時(shí)序文本挖掘的新聞內(nèi)容理解與推薦技術(shù)研究[D];浙江大學(xué);2010年
2 張曉艷;新聞話題表示模型和關(guān)聯(lián)追蹤技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年
3 劉玉國(guó);基于內(nèi)容的互聯(lián)網(wǎng)輿情信息挖掘關(guān)鍵技術(shù)研究[D];山東大學(xué);2011年
4 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測(cè)技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
5 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
6 于滿泉;面向人物追蹤的知識(shí)挖掘研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2006年
7 郝秀蘭;文本分類技術(shù)與應(yīng)用研究[D];復(fù)旦大學(xué);2008年
8 洪宇;基于語(yǔ)義結(jié)構(gòu)和時(shí)序特征的話題檢測(cè)與跟蹤技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
9 鐘茂生;基于內(nèi)容相關(guān)度計(jì)算的文本結(jié)構(gòu)分析方法研究[D];上海交通大學(xué);2010年
10 付劍鋒;面向事件的知識(shí)處理研究[D];上海大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 趙慧杰;面向論壇的話題發(fā)現(xiàn)、跟蹤及傳播技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 秦宏宇;網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)相關(guān)技術(shù)研究[D];哈爾濱工程大學(xué);2010年
3 印文濤;基于星型K部圖的網(wǎng)絡(luò)視頻話題挖掘和可視化的研究[D];浙江大學(xué);2011年
4 白志杰;新聞視頻主題追蹤技術(shù)研究[D];解放軍信息工程大學(xué);2009年
5 劉嵩;網(wǎng)絡(luò)中文事件自動(dòng)檢測(cè)技術(shù)研究[D];解放軍信息工程大學(xué);2010年
6 李恒訓(xùn);網(wǎng)絡(luò)論壇采集及熱點(diǎn)話題發(fā)現(xiàn)研究[D];首都師范大學(xué);2011年
7 蘭凱梅;BBS熱點(diǎn)話題發(fā)現(xiàn)與監(jiān)控系統(tǒng)[D];北京交通大學(xué);2011年
8 孫勝平;中文微博客熱點(diǎn)話題檢測(cè)與跟蹤技術(shù)研究[D];北京交通大學(xué);2011年
9 劉曉東;話題檢測(cè)與跟蹤系統(tǒng)的構(gòu)建[D];北京郵電大學(xué);2011年
10 吳澤衡;基于話題檢測(cè)和情感分析的互聯(lián)網(wǎng)熱點(diǎn)分析與監(jiān)控技術(shù)研究[D];華南理工大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 趙華;趙鐵軍;張姝;王浩暢;;基于內(nèi)容分析的話題檢測(cè)研究[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2006年10期
2 賈自艷 ,何清 ,張? ,李嘉佑 ,史忠植;一種基于動(dòng)態(tài)進(jìn)化模型的事件探測(cè)和追蹤算法[J];計(jì)算機(jī)研究與發(fā)展;2004年07期
3 于滿泉;駱衛(wèi)華;許洪波;白碩;;話題識(shí)別與跟蹤中的層次化話題識(shí)別技術(shù)研究[J];計(jì)算機(jī)研究與發(fā)展;2006年03期
4 李保利,俞士汶;話題識(shí)別與跟蹤研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年17期
5 駱衛(wèi)華;于滿泉;許洪波;王斌;程學(xué)旗;;基于多策略優(yōu)化的分治多層聚類算法的話題發(fā)現(xiàn)研究[J];中文信息學(xué)報(bào);2006年01期
6 宋丹;王衛(wèi)東;陳英;;基于改進(jìn)向量空間模型的話題識(shí)別與跟蹤[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年09期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 胥桂仙,樸泰雄,楊丹丹,徐小博,高旭;中文文本挖掘中最長(zhǎng)頻繁序列的發(fā)現(xiàn)算法[J];中央民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年01期
2 渡部勇;;文本挖掘技術(shù)應(yīng)用于專利檢索分析[J];微電腦世界;2007年12期
3 蘇芳仲,林世平;Web文本挖掘中的一種中文分詞算法研究及其實(shí)現(xiàn)[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期
4 付國(guó)瑜;;Web文本分類挖掘[J];科學(xué)咨詢(決策管理);2008年03期
5 曹麗君;劉西印;楊燕萍;;WEB頁(yè)面文本挖掘的價(jià)值與未來探究[J];商場(chǎng)現(xiàn)代化;2008年09期
6 韓潔;;Web文本挖掘技術(shù)在信息生產(chǎn)領(lǐng)域的應(yīng)用研究[J];硅谷;2010年08期
7 胥桂仙,楊丹丹,高旭,陳立新;中文文本挖掘中姓名特征提取技術(shù)的研究[J];中央民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年04期
8 劉春艷,張愛連,胡鐵軍;數(shù)據(jù)挖掘及其在信息服務(wù)業(yè)應(yīng)用的研究現(xiàn)狀[J];醫(yī)學(xué)情報(bào)工作;2004年06期
9 呂冬煜,黨齊民;基于文本挖掘的可視化競(jìng)爭(zhēng)情報(bào)提取[J];計(jì)算機(jī)應(yīng)用與軟件;2005年02期
10 李文炬;文本挖掘技術(shù)在農(nóng)業(yè)科技基礎(chǔ)數(shù)據(jù)庫(kù)中應(yīng)用的探討[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2005年11期
相關(guān)會(huì)議論文 前10條
1 楊瀟;馬軍;楊同峰;杜言琦;邵海敏;;基于主題模型LDA的多文檔自動(dòng)摘要[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 王繼成;孫穎;張福炎;;文本挖掘-數(shù)據(jù)挖掘研究的新課題[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
3 董婧靈;李芳;何婷婷;涂新輝;萬(wàn)劍;;基于LDA模型的文本聚類研究[A];中國(guó)計(jì)算語(yǔ)言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 蔣子海;周斌;吳泉源;;基于UIMA AS的文本挖掘系統(tǒng)的性能分析與評(píng)估[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年
5 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
6 陳林;王曉華;李殿峗;文俊浩;;基于自增模式的文本挖掘研究[A];’2004計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)議論文集[C];2004年
7 翁偉;王厚峰;;基于LDA的關(guān)鍵詞抽取方法[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年
8 耿煥同;吳祥;畢碩本;;基于潛在語(yǔ)義分析的BBS主題發(fā)現(xiàn)算法研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
9 劉振鹿;王大玲;馮時(shí);張一飛;方東昊;;一種基于LDA的潛在語(yǔ)義區(qū)劃分及Web文檔聚類算法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
10 張明慧;王紅玲;周國(guó)棟;;LDA主題驅(qū)動(dòng)的中文多文檔自動(dòng)文摘方法[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年
相關(guān)重要報(bào)紙文章 前10條
1 ;用挖掘技術(shù)使學(xué)術(shù)資源利用效益最大化[N];中國(guó)計(jì)算機(jī)報(bào);2007年
2 張德政;信息挖掘商業(yè)智能之“芯”[N];中國(guó)計(jì)算機(jī)報(bào);2002年
3 劉潔;SAS分析產(chǎn)品鏈增添“新成員”[N];科技日?qǐng)?bào);2008年
4 Tazi;Excel排序有技巧[N];電腦報(bào);2003年
5 龍馬;Excel排序技巧兩則[N];中國(guó)電腦教育報(bào);2003年
6 廣東 黃陀;基本算法簡(jiǎn)介(四)[N];電腦報(bào);2001年
7 中國(guó)蟲;算法演義[N];電腦報(bào);2003年
8 PALADIN;對(duì)算法進(jìn)行分析(2)[N];電腦報(bào);2003年
9 伍裕標(biāo);列示文件有妙法[N];中國(guó)電腦教育報(bào);2003年
10 ;讓中文文件名按筆畫排序[N];中國(guó)電腦教育報(bào);2004年
相關(guān)博士學(xué)位論文 前10條
1 李芳;文本挖掘若干關(guān)鍵技術(shù)研究[D];北京化工大學(xué);2010年
2 周亦鵬;基于軟件人的情境主題分析及應(yīng)用研究[D];北京科技大學(xué);2012年
3 陳偉;基于時(shí)序文本挖掘的新聞內(nèi)容理解與推薦技術(shù)研究[D];浙江大學(xué);2010年
4 李博;基于LDA和LSA的醫(yī)學(xué)文本和影像分析模型及應(yīng)用研究[D];吉林大學(xué);2012年
5 文翰;面向信息檢索的Web文本挖掘方法研究[D];華南理工大學(xué);2012年
6 張金松;基于引文上下文分析的文獻(xiàn)檢索技術(shù)研究[D];大連海事大學(xué);2013年
7 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險(xiǎn)信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年
8 周雪忠;文本挖掘在中醫(yī)藥中的若干應(yīng)用研究[D];浙江大學(xué);2004年
9 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
10 劉永丹;文檔數(shù)據(jù)庫(kù)若干關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2004年
相關(guān)碩士學(xué)位論文 前10條
1 劉明巖;面向語(yǔ)義關(guān)系發(fā)現(xiàn)的文本挖掘研究[D];南京理工大學(xué);2010年
2 李鈍;基于粗糙集理論的文本挖掘技術(shù)研究[D];山西大學(xué);2003年
3 程春惠;公安犯罪案件文本挖掘關(guān)鍵技術(shù)研究[D];浙江大學(xué);2010年
4 徐愛華;面向文本分類的中文文本挖掘技術(shù)研究及實(shí)現(xiàn)[D];武漢理工大學(xué);2004年
5 姚繼偉;基于XML的Web文本挖掘的研究[D];吉林大學(xué);2010年
6 楊斌;中文文本數(shù)據(jù)挖掘研究[D];湘潭大學(xué);2002年
7 唐明;文本挖掘及其在多文化交流平臺(tái)中的應(yīng)用[D];西南大學(xué);2006年
8 李明;數(shù)據(jù)清洗技術(shù)在文本挖掘中的應(yīng)用[D];南京理工大學(xué);2008年
9 靳曉恩;數(shù)字圖書館的知識(shí)發(fā)現(xiàn)研究[D];湘潭大學(xué);2008年
10 周榮鵬;生物醫(yī)學(xué)文獻(xiàn)中命名實(shí)體的識(shí)別[D];大連理工大學(xué);2009年
,本文編號(hào):1687390
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1687390.html