天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于詞向量的短文本主題建模研究

發(fā)布時(shí)間:2017-12-15 01:16

  本文關(guān)鍵詞:基于詞向量的短文本主題建模研究


  更多相關(guān)文章: 短文本 主題建模 word2vec 詞向量 高斯分布


【摘要】:隨著網(wǎng)絡(luò)技術(shù)和社交媒體的快速發(fā)展,越來(lái)越多的用戶(hù)可以隨時(shí)隨地接入網(wǎng)絡(luò),便捷地使用網(wǎng)絡(luò)服務(wù),如新浪微博、Twitter、百度知道、新聞評(píng)論、購(gòu)物評(píng)價(jià)等。用戶(hù)使用這些應(yīng)用服務(wù),會(huì)在互聯(lián)網(wǎng)領(lǐng)域內(nèi)留下海量的短文本信息,其中隱藏著有價(jià)值的內(nèi)容,面對(duì)如此海量的短文本資源,如何挖掘這些信息,是目前短文本處理亟待解決的重要問(wèn)題。近年來(lái),主題模型技術(shù)取得了很大的成功,已成為智能化處理文本信息的主要方式之一。然而,直接將傳統(tǒng)主題模型應(yīng)用在短文本上會(huì)面臨嚴(yán)重的稀疏問(wèn)題,主要由于短文本長(zhǎng)度較短,詞共現(xiàn)信息不足,傳統(tǒng)主題模型在文檔水平利用詞共現(xiàn)信息推理主題會(huì)非常困難。針對(duì)短文本主題建模面臨的稀疏問(wèn)題,本文利用詞向量相加,融合詞向量的語(yǔ)義,擴(kuò)充短文本的表示,解決短文本稀疏問(wèn)題,提出了隱含詞向量模型(Latent Word Embedding Modeling,LWEM)。主要工作如下:(1)分析研究短文本主題建模稀疏問(wèn)題。短文本經(jīng)過(guò)預(yù)處理之后,通常少則幾個(gè)詞,多則十幾個(gè)詞,在文檔水平詞頻和詞共現(xiàn)信息都很稀疏,上下文信息不豐富,基于如此有限的信息推理短文本的主題結(jié)構(gòu)會(huì)非常困難。(2)利用詞向量相加擴(kuò)充短文本的表示,提出基于詞向量的短文本主題建模模型。詞向量可以從大量的語(yǔ)料集合中學(xué)習(xí)到詞語(yǔ)的語(yǔ)義關(guān)系,利用詞向量增強(qiáng)短文本主題建模的能力是本文的目的。本文提出利用詞向量的基本數(shù)學(xué)性質(zhì)——可加性,即利用詞向量A加詞向量B,融合詞向量A和詞向量B的語(yǔ)義生成詞向量C,并將其加入到原來(lái)的短文本文檔中,擴(kuò)充短文本的表示,解決短文本的稀疏問(wèn)題。LWEM模型假設(shè)存在文檔、主題和詞向量的三層結(jié)構(gòu),考慮到短文本在文檔級(jí)別的稀疏問(wèn)題,LWEM模型假設(shè)整個(gè)語(yǔ)料集合服從一個(gè)主題分布,主題服從高斯分布,在詞向量上進(jìn)行建模。(3)通過(guò)實(shí)驗(yàn)評(píng)估本文提出的LWEM模型主題建模的能力。本文通過(guò)利用Twitter和新浪微博等實(shí)際應(yīng)用的短文本資料為基礎(chǔ)構(gòu)建了實(shí)驗(yàn)的數(shù)據(jù)集,使用gensim庫(kù)的Word2Vec工具訓(xùn)練詞向量。在這兩個(gè)數(shù)據(jù)集上分別應(yīng)用了DMM模型、LDA模型、BTM模型和本文提出的LWEM模型,對(duì)主題一致性、分類(lèi)性能進(jìn)行了比較,實(shí)驗(yàn)結(jié)果證實(shí)了本文提出的方法可以有效解決短文本主題建模稀疏問(wèn)題。
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.1

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 王小芳;王瑞芳;張樹(shù)功;;基于最優(yōu)化控制模型的文本主題域劃分[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2009年04期

2 高瑋軍;馬棟林;張其文;;一種基于本體的文本主題提取方法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2012年02期

3 麻志毅,姚天順;基于情境的文本主題求解[J];計(jì)算機(jī)研究與發(fā)展;1998年04期

4 王小華;徐寧;諶志群;;基于共詞分析的文本主題詞聚類(lèi)與主題發(fā)現(xiàn)[J];情報(bào)科學(xué);2011年11期

5 張其文;李明;;文本主題的自動(dòng)提取方法研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年15期

6 侯風(fēng)巍;郭東軍;李世磊;徐釗峰;;基于信息反饋的文本主題分類(lèi)過(guò)濾方法[J];通信學(xué)報(bào);2009年S1期

7 劉興林;彭宏;馬千里;;基于增量詞集頻率的文本主題詞提取算法研究[J];計(jì)算機(jī)應(yīng)用研究;2010年09期

8 康愷;林坤輝;周昌樂(lè);;基于主題詞頻數(shù)特征的文本主題劃分[J];計(jì)算機(jī)應(yīng)用;2006年08期

9 王科,劉淵,羅萬(wàn)伯,高行宇,高常波;基于中文文本主題跟蹤的網(wǎng)絡(luò)信息分析[J];四川大學(xué)學(xué)報(bào)(工程科學(xué)版);2004年01期

10 劉菲;黃萱菁;吳立德;;利用關(guān)聯(lián)規(guī)則挖掘文本主題詞的方法[J];計(jì)算機(jī)工程;2008年07期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條

1 丁秉公;黃昌寧;黃德根;;文本主題識(shí)別研究及應(yīng)用[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 常鵬;基于詞共現(xiàn)的文本主題挖掘模型和算法研究[D];天津大學(xué);2010年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 張文躍;基于改進(jìn)shark-search算法的主題爬蟲(chóng)的研究與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2015年

2 梁劍;基于LDA文本主題挖掘的個(gè)性化推送及其在Spark平臺(tái)的實(shí)現(xiàn)[D];華南理工大學(xué);2016年

3 吳敏;網(wǎng)絡(luò)短文本主題聚類(lèi)研究[D];華中科技大學(xué);2015年

4 鄒遠(yuǎn)航;面向短文本主題發(fā)現(xiàn)及分類(lèi)研究[D];南京大學(xué);2015年

5 蔡洋;基于詞三角的短文本主題模型算法[D];南京大學(xué);2017年

6 劉世群;基于詞向量的短文本主題建模研究[D];吉林大學(xué);2017年

7 梁文婷;漢語(yǔ)文本主題分析技術(shù)的研究與實(shí)現(xiàn)[D];重慶大學(xué);2008年

8 蔣建慧;文本主題段落內(nèi)部概念關(guān)系抽取技術(shù)研究[D];上海交通大學(xué);2009年

9 郭劍飛;基于LDA多模型中文短文本主題分類(lèi)體系構(gòu)建與分類(lèi)[D];哈爾濱工業(yè)大學(xué);2014年

10 田鈺琨;基于主題鏈的海量投訴文本主題抽取方法研究[D];東北師范大學(xué);2012年



本文編號(hào):1290082

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1290082.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)04b58***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com