微博文本聚類中特征擴(kuò)展策略研究
本文選題:微博文本 切入點(diǎn):高維稀疏 出處:《計(jì)算機(jī)工程與應(yīng)用》2017年13期 論文類型:期刊論文
【摘要】:針對微博文本高維、稀疏的特點(diǎn),比較基于同義詞詞林等外部知識庫的文本擴(kuò)展策略,利用Word2vec訓(xùn)練微博語料,并構(gòu)建微博上下文相關(guān)詞詞表,通過種子詞表和微博標(biāo)簽信息去擴(kuò)展微博文本流中的關(guān)鍵詞,最后提出了提取微博文本關(guān)鍵詞及區(qū)分詞向量中相似詞和相關(guān)詞的方法。實(shí)驗(yàn)結(jié)果證明,微博短文本經(jīng)過Word2vec詞向量相關(guān)詞及微博標(biāo)簽擴(kuò)展后,其聚類效果有了明顯提高。
[Abstract]:Aiming at the high dimension and sparse character of Weibo's text, this paper compares the text expansion strategy based on the external knowledge base such as synonym forest, uses Word2vec to train Weibo corpus, and constructs a lexical list of Weibo context-related words. By using seed vocabulary and Weibo tagging information to extend the keywords in Weibo text stream, a method of extracting similar words and related words in Weibo text vector and differentiating similar words and related words in the vector is put forward. The experimental results show that, The clustering effect of Weibo short text is improved obviously after the expansion of Word2vec word vector related words and Weibo label.
【作者單位】: 北京信息科技大學(xué)智能信息處理研究所;
【基金】:國家自然科學(xué)基金(No.61370139) 北京市屬高等學(xué)校創(chuàng)新團(tuán)隊(duì)建設(shè)與教師職業(yè)發(fā)展計(jì)劃項(xiàng)目(No.IDHT20130519)
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 王東;熊世桓;;基于同義詞詞林?jǐn)U展的短文本分類[J];蘭州理工大學(xué)學(xué)報(bào);2015年04期
2 呂超鎮(zhèn);姬東鴻;吳飛飛;;基于LDA特征擴(kuò)展的短文本分類[J];計(jì)算機(jī)工程與應(yīng)用;2015年04期
3 袁滿;歐陽元新;熊璋;羅建輝;;一種基于頻繁詞集的短文本特征擴(kuò)展方法[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期
4 朱征宇;孫俊華;;改進(jìn)的基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J];計(jì)算機(jī)應(yīng)用;2013年08期
5 楊婉霞;孫理和;黃永峰;;結(jié)合語義與統(tǒng)計(jì)的特征降維短文本聚類[J];計(jì)算機(jī)工程;2012年22期
6 毛典輝;;基于MapReduce的Canopy-Kmeans改進(jìn)算法[J];計(jì)算機(jī)工程與應(yīng)用;2012年27期
7 彭澤映;俞曉明;許洪波;劉春陽;;大規(guī)模短文本的不完全聚類[J];中文信息學(xué)報(bào);2011年01期
相關(guān)碩士學(xué)位論文 前2條
1 郭永輝;面向短文本分類的特征擴(kuò)展方法[D];哈爾濱工業(yè)大學(xué);2013年
2 闞洳沂;基于詞語網(wǎng)絡(luò)的關(guān)鍵字提取策略研究[D];西南大學(xué);2008年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 袁滿;歐陽元新;熊璋;羅建輝;;一種基于頻繁詞集的短文本特征擴(kuò)展方法[J];東南大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年02期
2 張素智;劉婧姣;;基于語義的KNN短文本分類算法研究[J];鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版);2012年06期
3 范云杰;劉懷亮;;基于維基百科的中文短文本分類研究[J];現(xiàn)代圖書情報(bào)技術(shù);2012年03期
4 翟延冬;王康平;張東娜;黃嵐;周春光;;一種基于WordNet的短文本語義相似性算法[J];電子學(xué)報(bào);2012年03期
5 王小林;王義;;改進(jìn)的基于知網(wǎng)的詞語相似度算法[J];計(jì)算機(jī)應(yīng)用;2011年11期
6 劉金嶺;嚴(yán)云洋;;基于上下文的短信文本分類方法[J];計(jì)算機(jī)工程;2011年10期
7 姚全珠;宋志理;彭程;;基于LDA模型的文本分類研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年13期
8 魯婷;王浩;姚宏亮;;一種基于中心文檔的KNN中文文本分類算法[J];計(jì)算機(jī)工程與應(yīng)用;2011年02期
9 劉青磊;顧小豐;;基于《知網(wǎng)》的詞語相似度算法研究[J];中文信息學(xué)報(bào);2010年06期
10 王盛;樊興華;陳現(xiàn)麟;;利用上下位關(guān)系的中文短文本分類[J];計(jì)算機(jī)應(yīng)用;2010年03期
相關(guān)碩士學(xué)位論文 前5條
1 呂向楠;微博客主題分類的特征擴(kuò)展方法[D];哈爾濱工業(yè)大學(xué);2013年
2 曹葉盛;基于關(guān)聯(lián)擴(kuò)展的中文短文本分類方法研究[D];北京郵電大學(xué);2012年
3 柴春梅;互聯(lián)網(wǎng)短文本信息分類關(guān)鍵技術(shù)研究[D];上海交通大學(xué);2009年
4 宋爽;共現(xiàn)分析在文本知識挖掘中的應(yīng)用研究[D];南京理工大學(xué);2006年
5 董洛兵;基于SWN理論的文本復(fù)合關(guān)鍵字提取算法的研究[D];西安電子科技大學(xué);2006年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙亞琴;周獻(xiàn)中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計(jì)算機(jī)工程;2006年06期
2 劉務(wù)華;羅鐵堅(jiān);王文杰;;文本聚類技術(shù)的有效性驗(yàn)證[J];計(jì)算機(jī)工程;2007年01期
3 丁X;許侃;;基于文本聚類方法的我國科技管理研究領(lǐng)域的計(jì)量研究[J];科學(xué)學(xué)研究;2007年S1期
4 孫愛香;楊鑫華;;關(guān)于文本聚類有效性評價(jià)的研究[J];山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年05期
5 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報(bào);2007年06期
6 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報(bào);2008年02期
7 李江華;楊書新;劉利峰;;基于概念格的文本聚類[J];計(jì)算機(jī)應(yīng)用;2008年09期
8 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期
9 章成志;;文本聚類結(jié)果描述研究綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期
10 馬娜;;文本聚類研究[J];電腦知識與技術(shù);2009年20期
相關(guān)會(huì)議論文 前10條
1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
2 王洪俊;俞士汶;蘇祺;施水才;肖詩斌;;中文文本聚類的特征單元比較[A];第二屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年
3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王明文;付劍波;羅遠(yuǎn)勝;陸旭;;基于協(xié)同聚類的兩階段文本聚類方法研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 張猛;王大玲;于戈;;一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
7 王樂;田李;賈焰;韓偉紅;;一個(gè)并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
8 王瑩;劉楊;;維基百科的文本聚類方法分析[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年
9 張寶艷;王慶輝;;中文文本聚類的研究與實(shí)現(xiàn)[A];第一屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2002年
10 章成志;;基于多語文本聚類的主題層次體系生成研究1)[A];國家自然科學(xué)基金委員會(huì)管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會(huì)論文集[C];2010年
相關(guān)博士學(xué)位論文 前3條
1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
2 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年
2 張培偉;基于改進(jìn)Single-Pass算法的熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年
3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年
4 邵明來;中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年
5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年
6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年
7 樊兆欣;個(gè)性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];北京理工大學(xué);2015年
8 蘇圣瞳;微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2014年
9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年
10 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
,本文編號:1614149
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1614149.html