天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

詞向量與LDA相融合的短文本分類(lèi)方法

發(fā)布時(shí)間:2018-08-02 13:10
【摘要】:【目的】針對(duì)短文本主題聚焦性差以及嚴(yán)重的特征稀疏問(wèn)題,設(shè)計(jì)一種基于詞向量與LDA主題模型相融合的短文本分類(lèi)方法!痉椒ā繌"詞"粒度及"文本"粒度層面同時(shí)對(duì)短文本進(jìn)行精細(xì)語(yǔ)義建模,首先基于Word2Vec訓(xùn)練詞向量并通過(guò)相加平均法合成"詞"粒度層面的短文本向量,基于吉布斯采樣法訓(xùn)練LDA主題模型并根據(jù)主題概率最大原則對(duì)短文本進(jìn)行特征擴(kuò)展,然后基于詞向量相似度計(jì)算擴(kuò)展特征權(quán)重得到"文本"粒度層面的短文本向量,最后通過(guò)向量拼接構(gòu)建詞向量與LDA相融合的短文本表示模型,在此基礎(chǔ)上通過(guò)最近鄰分類(lèi)算法完成短文本分類(lèi)!窘Y(jié)果】相比傳統(tǒng)的基于向量空間模型、基于詞向量、基于LDA主題模型這三種基于單一模型的分類(lèi)方法,詞向量與LDA相融合的分類(lèi)方法準(zhǔn)確率、召回率、F_1值均有提升,分別至少提升3.7%,4.1%和3.9%!揪窒蕖?jī)H應(yīng)用于最近鄰分類(lèi)器,尚未推廣應(yīng)用到樸素貝葉斯和支持向量機(jī)等多種不同的分類(lèi)器!窘Y(jié)論】基于詞向量與LDA相融合的短文本表示模型進(jìn)行分類(lèi),能有效克服短文本的主題聚焦性差及特征稀疏性問(wèn)題,提高短文本分類(lèi)性能。
[Abstract]:[objective] to solve the problem of poor focus and serious characteristic sparsity in the short essay. This paper designs a short text classification method based on the combination of word vector and LDA subject model. [methods] Fine semantic modeling of short text is carried out at the level of "word" granularity and "text" granularity at the same time. Firstly, based on the Word2Vec training word vector and the additive averaging method, we synthesize the short text vector of word granularity level, train the LDA topic model based on Gibbs sampling method, and extend the feature of the short text according to the principle of maximum subject probability. Then, based on the word vector similarity, the extended feature weights are calculated to get the text vector at the granularity level of "text". Finally, a short text representation model combining word vector and LDA is constructed by vector splicing. On this basis, the nearest neighbor classification algorithm is used to complete the short text classification. [results] compared with the traditional vector space model, word vector and LDA topic model, these three classification methods are based on a single model. The accuracy rate of word vector and LDA fusion method was improved, and the recall rate and FK-1 value were increased by at least 3.741% and 3.9% respectively. [limitation] was only applied to nearest neighbor classifier. It has not been extended to many different classifiers, such as naive Bayes and support vector machines. [conclusion] based on the combination of word vector and LDA, the text representation model is used to classify. It can effectively overcome the problem of short text focus and feature sparsity, and improve the performance of short text classification.
【作者單位】: 中國(guó)人民解放軍電子工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目“動(dòng)態(tài)數(shù)據(jù)挖掘的構(gòu)造性機(jī)器學(xué)習(xí)方法研究”(項(xiàng)目編號(hào):61273302)的研究成果之一
【分類(lèi)號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 胡吉明;陳果;;基于動(dòng)態(tài)LDA主題模型的內(nèi)容主題挖掘與演化[J];圖書(shū)情報(bào)工作;2014年02期

2 劉培奇;孫捷焓;;基于LDA主題模型的標(biāo)簽傳遞算法[J];計(jì)算機(jī)應(yīng)用;2012年02期

3 程艷花;譚怒濤;黃磊;王建英;;圖像分塊重構(gòu)和LDA融合的人臉識(shí)別方法[J];計(jì)算機(jī)工程與應(yīng)用;2009年27期

4 黃正鵬;;一種改進(jìn)的LDA+算法[J];福建電腦;2008年08期

5 張燕平;竇蓉蓉;趙姝;曹振田;;基于集成學(xué)習(xí)的規(guī)范化LDA人臉識(shí)別[J];計(jì)算機(jī)工程;2010年14期

6 趙煒;陳俊杰;李海芳;;融合LDA和多類(lèi)SVM的圖像語(yǔ)義映射研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年18期

7 吳秀清;范麗亞;;基于QR分解和支持向量的偽逆LDA[J];聊城大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期

8 鄭世卓;崔曉燕;;基于半監(jiān)督LDA的文本分類(lèi)應(yīng)用研究[J];軟件;2014年01期

9 楚克明;李芳;;基于LDA話題關(guān)聯(lián)的話題演化[J];上海交通大學(xué)學(xué)報(bào);2010年11期

10 劉杰;張福生;馮達(dá);;基于LDA的潛艇機(jī)械噪聲識(shí)別算法研究[J];艦船電子工程;2013年04期

相關(guān)會(huì)議論文 前2條

1 楚克明;李芳;;基于LDA新聞話題的演化[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

2 Jussi Koskinen;藺春濤;高冬;;線陣探測(cè)器(LDA)的現(xiàn)狀及發(fā)展趨勢(shì)(英文)[A];2004年CT和三維成像學(xué)術(shù)年會(huì)論文集[C];2004年

相關(guān)碩士學(xué)位論文 前10條

1 陳小艷;融合結(jié)構(gòu)信息的LDA扣件狀態(tài)識(shí)別研究[D];西南交通大學(xué);2015年

2 袁勝文;基于LDA的中文科技文獻(xiàn)話題演化研究[D];河南工業(yè)大學(xué);2015年

3 雷鵬;基于LDA的智能電視家庭成員識(shí)別方法研究[D];山東大學(xué);2016年

4 楊帆;基于LDA主題模型和標(biāo)簽聚類(lèi)的黨建信息推送策略研究[D];云南大學(xué);2016年

5 黃勇;改進(jìn)的互信息與LDA結(jié)合的特征降維方法研究[D];華中師范大學(xué);2016年

6 楚克明;基于LDA的新聞話題演化研究[D];上海交通大學(xué);2010年

7 王敏;基于LDA主題模型的圖像場(chǎng)景分類(lèi)[D];西安電子科技大學(xué);2013年

8 程龍龍;基于LDA的行為定向廣告投放算法研究[D];遼寧大學(xué);2014年

9 劉海旭;基于PCA和LDA的文本分類(lèi)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年

10 周振宇;基于LDA的微博與傳統(tǒng)媒體的話題對(duì)比研究[D];上海交通大學(xué);2013年



本文編號(hào):2159541

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2159541.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)3d8a6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
毛片在线观看免费日韩| 91人妻人澡人人爽人人精品| 国产日韩熟女中文字幕| 日韩国产亚洲欧美另类| 欧美精品专区一区二区| 久久国产精品熟女一区二区三区 | 国语对白刺激高潮在线视频| 久久精品中文字幕人妻中文| 九九热精品视频在线观看 | 日韩精品免费一区二区三区| 日韩人妻精品免费一区二区三区| 欧美日韩国产另类一区二区| 亚洲日本韩国一区二区三区 | 亚洲天堂精品1024| 在线观看那种视频你懂的| 高跟丝袜av在线一区二区三区 | 国产av一区二区三区久久不卡| 亚洲人午夜精品射精日韩| 丰满人妻少妇精品一区二区三区 | 日韩高清毛片免费观看| 中文字幕日韩无套内射| 日韩18一区二区三区| 国产精品不卡一区二区三区四区| 国产乱淫av一区二区三区| 99热在线精品视频观看| 成人国产一区二区三区精品麻豆| 日韩精品中文字幕亚洲| 国产精品午夜视频免费观看| 日本大学生精油按摩在线观看| 亚洲最新一区二区三区| 草草夜色精品国产噜噜竹菊| 久久99午夜福利视频| 亚洲av专区在线观看| 亚洲欧洲一区二区综合精品| 日韩丝袜诱惑一区二区| 日韩免费av一区二区三区| 国产精品制服丝袜美腿丝袜| 午夜国产成人福利视频| 亚洲午夜精品视频观看| 亚洲欧美日韩国产成人| 国产中文另类天堂二区|