天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于詞嵌入與概率主題模型的社會媒體話題識別

發(fā)布時間:2018-12-11 08:07
【摘要】:詞嵌入技術(shù)能從大語料庫中捕獲詞語的語義信息,將其與概率主題模型結(jié)合可解決標準主題模型缺乏語義信息的問題。為此,同時對詞嵌入和主題模型進行改進,構(gòu)建詞-主題混合模型。在主題詞嵌入(TWE)模型中引入外部語料庫獲得初始主題和單詞表示,通過定義主題向量和詞嵌入的條件概率分布,將詞嵌入特征表示和主題向量集成到主題模型中,同時最小化新詞-主題分布函數(shù)和原始詞-主題分布函數(shù)的KL散度。實驗結(jié)果表明,與Word2vec、TWE、LDA和LFLDA模型相比,該模型在詞表示和主題檢測方面性能更好。
[Abstract]:Word embedding technology can capture the semantic information of words from large corpus and combine it with probabilistic topic model to solve the problem of lack of semantic information in standard subject model. Therefore, the word-topic mixed model is constructed by improving the word embedding and topic model. An external corpus is introduced into the topic embedding (TWE) model to obtain the initial topic and word representation. By defining the conditional probability distribution of the topic vector and word embedding, the feature representation and the topic vector are integrated into the topic model. At the same time, the KL divergence of neologism-theme distribution function and original word-theme distribution function is minimized. Experimental results show that the proposed model performs better in word representation and topic detection than Word2vec,TWE,LDA and LFLDA models.
【作者單位】: 深圳大學計算機與軟件學院;
【基金】:國家自然科學基金(61472258) 深圳市基礎(chǔ)研究計劃項目(JCYJ20140509172609162)
【分類號】:TP391.1

【相似文獻】

相關(guān)期刊論文 前10條

1 周亦鵬;杜軍平;;基于時空情境模型的主題跟蹤[J];華南理工大學學報(自然科學版);2012年08期

2 何利益;陸國鋒;羅鵬;;動態(tài)新聞主題信息推薦系統(tǒng)設(shè)計[J];指揮信息系統(tǒng)與技術(shù);2013年04期

3 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計算機研究與發(fā)展;2012年06期

4 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學學報(自然科學版);2005年S1期

5 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報技術(shù);2008年12期

6 劉艷敏;劉飚;封化民;宋國森;方勇;;Web頁面主題信息抽取研究與實現(xiàn)[J];計算機工程與應(yīng)用;2006年21期

7 姚雙良;;基于主題的Deep Web聚焦爬蟲研究與設(shè)計[J];西北師范大學學報(自然科學版);2013年02期

8 王鑫;;元數(shù)據(jù)在主題信息網(wǎng)關(guān)中的應(yīng)用[J];情報探索;2009年05期

9 李衛(wèi)疆;趙鐵軍;樸星海;;一種新的面向主題的爬行算法[J];計算機應(yīng)用研究;2009年05期

10 王玉國,王淑霞,李啟鵬;注重Html型幫助制作的規(guī)范化及主題大綱的作用[J];通化師范學院學報;2005年02期

相關(guān)會議論文 前4條

1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學術(shù)會議論文集[C];2009年

2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2002年

3 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年

4 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評論發(fā)現(xiàn)[A];中國計算語言學研究前沿進展(2009-2011)[C];2011年

相關(guān)博士學位論文 前10條

1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學;2014年

2 薛利;面向證券應(yīng)用的WEB主題觀點挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學;2013年

3 杜建光;面向社會媒體的文本和屬性分析技術(shù)研究[D];北京理工大學;2015年

4 丁效;基于社會媒體的市場行情預(yù)測方法研究[D];哈爾濱工業(yè)大學;2016年

5 付博;面向社會媒體的用戶消費意圖分析關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學;2015年

6 沈鈞戈;基于社會媒體的旅游數(shù)據(jù)挖掘與個性化推薦[D];西安電子科技大學;2016年

7 秦海龍;面向社會媒體的用戶在線社交圈識別與分析[D];哈爾濱工業(yè)大學;2016年

8 李洋;社會媒體信息推薦關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學;2017年

9 郭亮;基于社會媒體挖掘的社會化搜索研究[D];北京郵電大學;2014年

10 周厚奎;概率主題模型的研究及其在多媒體主題發(fā)現(xiàn)和演化中的應(yīng)用[D];浙江大學;2017年

相關(guān)碩士學位論文 前10條

1 解琰;主題優(yōu)化過濾方法研究與應(yīng)用[D];大連海事大學;2015年

2 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學;2014年

3 黃志;基于維基歧義頁的搜索結(jié)果聚類方法研究[D];北京理工大學;2015年

4 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學;2015年

5 任昱鳳;基于Hadoop的分布式主題爬蟲及其實現(xiàn)[D];陜西師范大學;2015年

6 韓琳;基于貝葉斯主題爬蟲的研究與實現(xiàn)[D];北京工業(yè)大學;2015年

7 黎楠;面向?qū)@闹黝}挖掘技術(shù)研究及應(yīng)用[D];北京工業(yè)大學;2015年

8 黃文強;安卓技術(shù)信息的主題爬蟲技術(shù)研究與實現(xiàn)[D];東南大學;2015年

9 yち,

本文編號:2372198


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2372198.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶bc180***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com