詞向量與LDA相融合的短文本分類(lèi)方法

發(fā)布時(shí)間：2018-08-02 13:10

【摘要】：【目的】針對(duì)短文本主題聚焦性差以及嚴(yán)重的特征稀疏問(wèn)題,設(shè)計(jì)一種基于詞向量與LDA主題模型相融合的短文本分類(lèi)方法�！痉椒ā繌�"詞"粒度及"文本"粒度層面同時(shí)對(duì)短文本進(jìn)行精細(xì)語(yǔ)義建模,首先基于Word2Vec訓(xùn)練詞向量并通過(guò)相加平均法合成"詞"粒度層面的短文本向量,基于吉布斯采樣法訓(xùn)練LDA主題模型并根據(jù)主題概率最大原則對(duì)短文本進(jìn)行特征擴(kuò)展,然后基于詞向量相似度計(jì)算擴(kuò)展特征權(quán)重得到"文本"粒度層面的短文本向量,最后通過(guò)向量拼接構(gòu)建詞向量與LDA相融合的短文本表示模型,在此基礎(chǔ)上通過(guò)最近鄰分類(lèi)算法完成短文本分類(lèi)。【結(jié)果】相比傳統(tǒng)的基于向量空間模型、基于詞向量、基于LDA主題模型這三種基于單一模型的分類(lèi)方法,詞向量與LDA相融合的分類(lèi)方法準(zhǔn)確率、召回率、F_1值均有提升,分別至少提升3.7%,4.1%和3.9%�！揪窒蕖�?jī)H應(yīng)用于最近鄰分類(lèi)器,尚未推廣應(yīng)用到樸素貝葉斯和支持向量機(jī)等多種不同的分類(lèi)器�！窘Y(jié)論】基于詞向量與LDA相融合的短文本表示模型進(jìn)行分類(lèi),能有效克服短文本的主題聚焦性差及特征稀疏性問(wèn)題,提高短文本分類(lèi)性能。
[Abstract]:[objective] to solve the problem of poor focus and serious characteristic sparsity in the short essay. This paper designs a short text classification method based on the combination of word vector and LDA subject model. [methods] Fine semantic modeling of short text is carried out at the level of "word" granularity and "text" granularity at the same time. Firstly, based on the Word2Vec training word vector and the additive averaging method, we synthesize the short text vector of word granularity level, train the LDA topic model based on Gibbs sampling method, and extend the feature of the short text according to the principle of maximum subject probability. Then, based on the word vector similarity, the extended feature weights are calculated to get the text vector at the granularity level of "text". Finally, a short text representation model combining word vector and LDA is constructed by vector splicing. On this basis, the nearest neighbor classification algorithm is used to complete the short text classification. [results] compared with the traditional vector space model, word vector and LDA topic model, these three classification methods are based on a single model. The accuracy rate of word vector and LDA fusion method was improved, and the recall rate and FK-1 value were increased by at least 3.741% and 3.9% respectively. [limitation] was only applied to nearest neighbor classifier. It has not been extended to many different classifiers, such as naive Bayes and support vector machines. [conclusion] based on the combination of word vector and LDA, the text representation model is used to classify. It can effectively overcome the problem of short text focus and feature sparsity, and improve the performance of short text classification.
【作者單位】：中國(guó)人民解放軍電子工程學(xué)院;
【基金】：國(guó)家自然科學(xué)基金項(xiàng)目“動(dòng)態(tài)數(shù)據(jù)挖掘的構(gòu)造性機(jī)器學(xué)習(xí)方法研究”(項(xiàng)目編號(hào):61273302)的研究成果之一
【分類(lèi)號(hào)】：TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 胡吉明;陳果;;基于動(dòng)態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J];圖書(shū)情報(bào)工作;2014年02期

2 劉培奇;孫捷焓;;基于LDA主題模型的標(biāo)簽傳遞算法[J];計(jì)算機(jī)應(yīng)用;2012年02期

3 程艷花;譚怒濤;黃磊;王建英;;圖像分塊重構(gòu)和LDA融合的人臉識(shí)別方法[J];計(jì)算機(jī)工程與應(yīng)用;2009年27期

4 黃正鵬;;一種改進(jìn)的LDA+算法[J];福建電腦;2008年08期

5 張燕平;竇蓉蓉;趙姝;曹振田;;基于集成學(xué)習(xí)的規(guī)范化LDA人臉識(shí)別[J];計(jì)算機(jī)工程;2010年14期

6 趙煒;陳俊杰;李海芳;;融合LDA和多類(lèi)SVM的圖像語(yǔ)義映射研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年18期

7 吳秀清;范麗亞;;基于QR分解和支持向量的偽逆LDA[J];聊城大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期

8 鄭世卓;崔曉燕;;基于半監(jiān)督LDA的文本分類(lèi)應(yīng)用研究[J];軟件;2014年01期

9 楚克明;李芳;;基于LDA話題關(guān)聯(lián)的話題演化[J];上海交通大學(xué)學(xué)報(bào);2010年11期

10 劉杰;張福生;馮達(dá);;基于LDA的潛艇機(jī)械噪聲識(shí)別算法研究[J];艦船電子工程;2013年04期

相關(guān)會(huì)議論文前2條

1 楚克明;李芳;;基于LDA新聞話題的演化[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

2 Jussi Koskinen;藺春濤;高冬;;線陣探測(cè)器(LDA)的現(xiàn)狀及發(fā)展趨勢(shì)(英文)[A];2004年CT和三維成像學(xué)術(shù)年會(huì)論文集[C];2004年

相關(guān)碩士學(xué)位論文前10條

1 陳小艷;融合結(jié)構(gòu)信息的LDA扣件狀態(tài)識(shí)別研究[D];西南交通大學(xué);2015年

2 袁勝文;基于LDA的中文科技文獻(xiàn)話題演化研究[D];河南工業(yè)大學(xué);2015年

3 雷鵬;基于LDA的智能電視家庭成員識(shí)別方法研究[D];山東大學(xué);2016年

4 楊帆;基于LDA主題模型和標(biāo)簽聚類(lèi)的黨建信息推送策略研究[D];云南大學(xué);2016年

5 黃勇;改進(jìn)的互信息與LDA結(jié)合的特征降維方法研究[D];華中師范大學(xué);2016年

6 楚克明;基于LDA的新聞話題演化研究[D];上海交通大學(xué);2010年

7 王敏;基于LDA主題模型的圖像場(chǎng)景分類(lèi)[D];西安電子科技大學(xué);2013年

8 程龍龍;基于LDA的行為定向廣告投放算法研究[D];遼寧大學(xué);2014年

9 劉海旭;基于PCA和LDA的文本分類(lèi)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年

10 周振宇;基于LDA的微博與傳統(tǒng)媒體的話題對(duì)比研究[D];上海交通大學(xué);2013年

，

本文編號(hào)：2159541

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2159541.html

上一篇：貴陽(yáng)市政府?dāng)?shù)據(jù)開(kāi)放平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
下一篇：基于超擴(kuò)展規(guī)則的知識(shí)編譯方法

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

詞向量與LDA相融合的短文本分類(lèi)方法