詞向量與LDA相融合的短文本分類(lèi)方法
[Abstract]:[objective] to solve the problem of poor focus and serious characteristic sparsity in the short essay. This paper designs a short text classification method based on the combination of word vector and LDA subject model. [methods] Fine semantic modeling of short text is carried out at the level of "word" granularity and "text" granularity at the same time. Firstly, based on the Word2Vec training word vector and the additive averaging method, we synthesize the short text vector of word granularity level, train the LDA topic model based on Gibbs sampling method, and extend the feature of the short text according to the principle of maximum subject probability. Then, based on the word vector similarity, the extended feature weights are calculated to get the text vector at the granularity level of "text". Finally, a short text representation model combining word vector and LDA is constructed by vector splicing. On this basis, the nearest neighbor classification algorithm is used to complete the short text classification. [results] compared with the traditional vector space model, word vector and LDA topic model, these three classification methods are based on a single model. The accuracy rate of word vector and LDA fusion method was improved, and the recall rate and FK-1 value were increased by at least 3.741% and 3.9% respectively. [limitation] was only applied to nearest neighbor classifier. It has not been extended to many different classifiers, such as naive Bayes and support vector machines. [conclusion] based on the combination of word vector and LDA, the text representation model is used to classify. It can effectively overcome the problem of short text focus and feature sparsity, and improve the performance of short text classification.
【作者單位】: 中國(guó)人民解放軍電子工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目“動(dòng)態(tài)數(shù)據(jù)挖掘的構(gòu)造性機(jī)器學(xué)習(xí)方法研究”(項(xiàng)目編號(hào):61273302)的研究成果之一
【分類(lèi)號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 胡吉明;陳果;;基于動(dòng)態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J];圖書(shū)情報(bào)工作;2014年02期
2 劉培奇;孫捷焓;;基于LDA主題模型的標(biāo)簽傳遞算法[J];計(jì)算機(jī)應(yīng)用;2012年02期
3 程艷花;譚怒濤;黃磊;王建英;;圖像分塊重構(gòu)和LDA融合的人臉識(shí)別方法[J];計(jì)算機(jī)工程與應(yīng)用;2009年27期
4 黃正鵬;;一種改進(jìn)的LDA+算法[J];福建電腦;2008年08期
5 張燕平;竇蓉蓉;趙姝;曹振田;;基于集成學(xué)習(xí)的規(guī)范化LDA人臉識(shí)別[J];計(jì)算機(jī)工程;2010年14期
6 趙煒;陳俊杰;李海芳;;融合LDA和多類(lèi)SVM的圖像語(yǔ)義映射研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年18期
7 吳秀清;范麗亞;;基于QR分解和支持向量的偽逆LDA[J];聊城大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
8 鄭世卓;崔曉燕;;基于半監(jiān)督LDA的文本分類(lèi)應(yīng)用研究[J];軟件;2014年01期
9 楚克明;李芳;;基于LDA話題關(guān)聯(lián)的話題演化[J];上海交通大學(xué)學(xué)報(bào);2010年11期
10 劉杰;張福生;馮達(dá);;基于LDA的潛艇機(jī)械噪聲識(shí)別算法研究[J];艦船電子工程;2013年04期
相關(guān)會(huì)議論文 前2條
1 楚克明;李芳;;基于LDA新聞話題的演化[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 Jussi Koskinen;藺春濤;高冬;;線陣探測(cè)器(LDA)的現(xiàn)狀及發(fā)展趨勢(shì)(英文)[A];2004年CT和三維成像學(xué)術(shù)年會(huì)論文集[C];2004年
相關(guān)碩士學(xué)位論文 前10條
1 陳小艷;融合結(jié)構(gòu)信息的LDA扣件狀態(tài)識(shí)別研究[D];西南交通大學(xué);2015年
2 袁勝文;基于LDA的中文科技文獻(xiàn)話題演化研究[D];河南工業(yè)大學(xué);2015年
3 雷鵬;基于LDA的智能電視家庭成員識(shí)別方法研究[D];山東大學(xué);2016年
4 楊帆;基于LDA主題模型和標(biāo)簽聚類(lèi)的黨建信息推送策略研究[D];云南大學(xué);2016年
5 黃勇;改進(jìn)的互信息與LDA結(jié)合的特征降維方法研究[D];華中師范大學(xué);2016年
6 楚克明;基于LDA的新聞話題演化研究[D];上海交通大學(xué);2010年
7 王敏;基于LDA主題模型的圖像場(chǎng)景分類(lèi)[D];西安電子科技大學(xué);2013年
8 程龍龍;基于LDA的行為定向廣告投放算法研究[D];遼寧大學(xué);2014年
9 劉海旭;基于PCA和LDA的文本分類(lèi)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年
10 周振宇;基于LDA的微博與傳統(tǒng)媒體的話題對(duì)比研究[D];上海交通大學(xué);2013年
,本文編號(hào):2159541
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2159541.html