基于LDA主題模型的短文本分類

發(fā)布時(shí)間：2017-11-16 15:18

本文關(guān)鍵詞：基于LDA主題模型的短文本分類

【摘要】：針對(duì)傳統(tǒng)VSM(vector space model)在短文本分類中維數(shù)高、語義特征不明顯的問題,提出基于LDA(latent Dirichlet allocation)模型主題分布相似度分類方法;針對(duì)短文本內(nèi)容少、長度短、特征稀疏的問題,提出基于LDA模型主題-詞分布矩陣的主題分布向量改進(jìn)方法。與傳統(tǒng)VSM分類方法相比,該方法降低了相似度計(jì)算維度,融合了一定語義特征。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)VSM分類方法相比,基于主題分布相似度方法的平均F1值提高了4.5%,基于LDA模型主題-詞分布矩陣主題分布向量改進(jìn)方法的平均F1值提高了5.2%,驗(yàn)證了以上方法的有效性。
【作者單位】：新疆大學(xué)信息科學(xué)與工程學(xué)院;
【基金】：國家自然科學(xué)基金項(xiàng)目(61365005、60965002)
【分類號(hào)】：TP391.1
【正文快照】： 0引言短文本分類面臨特征稀疏、用詞不規(guī)范、大量信息即時(shí)生成、存在噪音等問題,如何從短文本中提取有效特征并進(jìn)行快速分類成為目前短文本分類研究熱點(diǎn)。傳統(tǒng)的文本分類方法有KNN[1]、貝葉斯分類[2]、決策樹[3]、SVM[4]、最大熵[5]等,但由于這些方法均要求有足夠的詞頻共現(xiàn)信

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前6條

1 李鋒剛;梁鈺;GAO Xiao-zhi;ZENGER Kai;;基于LDA-wSVM模型的文本分類研究[J];計(jì)算機(jī)應(yīng)用研究;2015年01期

2 李湘東;廖香鵬;黃莉;;LDA模型下書目信息分類系統(tǒng)的研究與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2014年05期

3 王振振;何明;杜永萍;;基于LDA主題模型的文本相似度計(jì)算[J];計(jì)算機(jī)科學(xué);2013年12期

4 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計(jì)算機(jī)應(yīng)用;2013年06期

5 孫昌年;鄭誠;夏青松;;基于LDA的中文文本相似度計(jì)算[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年01期

6 姚全珠;宋志理;彭程;;基于LDA模型的文本分類研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年13期

中國碩士學(xué)位論文全文數(shù)據(jù)庫前1條

1 胡文靜;基于語義理解與PLSA的文本情感分類研究[D];天津師范大學(xué);2012年

【共引文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 楊萌萌;黃浩;程露紅;馬平;包武杰;;基于LDA主題模型的短文本分類[J];計(jì)算機(jī)工程與設(shè)計(jì);2016年12期

2 王震;代巖巖;陳亮;林曉蘭;;基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析[J];電子技術(shù)與軟件工程;2016年22期

3 李揚(yáng);孔雯婧;謝邦昌;;基于主題模型的半監(jiān)督網(wǎng)絡(luò)文本情感分類研究[J];數(shù)理統(tǒng)計(jì)與管理;2016年06期

4 王亞民;胡悅;;基于BTM的微博輿情熱點(diǎn)發(fā)現(xiàn)[J];情報(bào)雜志;2016年11期

5 董魯豫;;基于監(jiān)督學(xué)習(xí)的虛假評(píng)論檢測(cè)研究[J];黑龍江科技信息;2016年29期

6 詹增榮;程丹;;基于LDA與距離度量學(xué)習(xí)的文本分類研究[J];湖南師范大學(xué)自然科學(xué)學(xué)報(bào);2016年05期

7 薛行貴;高見文;張伯虎;黃立勤;;基于MapReduce的并行LAD模型評(píng)論主題提取算法研究[J];福州大學(xué)學(xué)報(bào)(自然科學(xué)版);2016年05期

8 李湘東;巴志超;高凡;;數(shù)字文本自動(dòng)分類中特征語義關(guān)聯(lián)及加權(quán)策略研究綜述與展望[J];現(xiàn)代圖書情報(bào)技術(shù);2016年09期

9 呂亞偉;李芳;戴龍龍;;基于LDA的中文詞語相似度計(jì)算[J];北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版);2016年05期

10 彭杰;石永革;高勝保;;基于對(duì)話內(nèi)容的交互型文本會(huì)話主題挖掘[J];電信科學(xué);2016年09期

中國碩士學(xué)位論文全文數(shù)據(jù)庫前1條

1 趙利軍;基于語義分析的網(wǎng)絡(luò)服務(wù)智能交互系統(tǒng)研究[D];西南交通大學(xué);2013年

【二級(jí)參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計(jì)算機(jī)應(yīng)用;2013年06期

2 孫李斌;馬賢明;趙明明;;基于LDA主題模型的遙感圖像表示與分類[J];科技視界;2013年07期

3 孫世杰;濮建忠;;基于LDA模型的Twitter中文微博熱點(diǎn)主題詞組發(fā)現(xiàn)[J];洛陽師范學(xué)院學(xué)報(bào);2012年11期

4 廖曉鋒;王永吉;范修斌;吳敬征;;基于LDA主題模型的安全漏洞分類[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年10期

5 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測(cè)的方法[J];計(jì)算機(jī)科學(xué);2012年01期

6 黃小亮;郁抒思;關(guān)佶紅;;基于LDA主題模型的軟件缺陷分派方法[J];計(jì)算機(jī)工程;2011年21期

7 張明慧;王紅玲;周國棟;;基于LDA主題特征的自動(dòng)文摘方法[J];計(jì)算機(jī)應(yīng)用與軟件;2011年10期

8 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期

9 黃承慧;印鑒;侯f ;;一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法[J];計(jì)算機(jī)學(xué)報(bào);2011年05期

10 姚全珠;宋志理;彭程;;基于LDA模型的文本分類研究[J];計(jì)算機(jī)工程與應(yīng)用;2011年13期

中國碩士學(xué)位論文全文數(shù)據(jù)庫前1條

1 李本陽;句子和篇章文本傾向分析[D];哈爾濱工業(yè)大學(xué);2010年

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 王鈞;趙曰利;;浙大中藥指紋圖譜相似度計(jì)算軟件在煙用香精香料色譜分析中的引入應(yīng)用[J];現(xiàn)代儀器;2007年03期

2 單建芳;劉宗田;周文;;事件相似度計(jì)算[J];小型微型計(jì)算機(jī)系統(tǒng);2010年04期

3 劉文劍;郭寧;金天國;;制造資源本體的相似度計(jì)算模型[J];計(jì)算機(jī)集成制造系統(tǒng);2010年11期

4 邸書靈;劉曉飛;李歡;;基于分詞的語句相似度計(jì)算的改進(jìn)[J];石家莊鐵道大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期

5 秦學(xué)勇;張潤梅;;兩級(jí)相似度計(jì)算在主觀題機(jī)器閱卷中的應(yīng)用[J];計(jì)算機(jī)工程;2012年11期

6 田衛(wèi)東;強(qiáng)繼朋;;基于問句類型的問句相似度計(jì)算[J];計(jì)算機(jī)應(yīng)用研究;2014年04期

7 周凱波,馮珊,李鋒;基于案例屬性特征的相似度計(jì)算模型研究[J];武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版);2003年01期

8 易麗萍,竹勇 ,雷小春;知網(wǎng)在詞語相似度計(jì)算方面的應(yīng)用[J];信息技術(shù)與信息化;2005年01期

9 廉站俊;呂學(xué)強(qiáng);張玉杰;施水才;;基于句子相似度計(jì)算的信息抽取[J];現(xiàn)代圖書情報(bào)技術(shù);2007年06期

10 李偉;;中文語句相似度計(jì)算的方法初探[J];蘭州工業(yè)高等專科學(xué)校學(xué)報(bào);2009年04期

中國重要會(huì)議論文全文數(shù)據(jù)庫前10條

1 劉磊;張桂平;蔡?hào)|風(fēng);季鐸;;基于語義預(yù)測(cè)的雙語術(shù)語相似度計(jì)算[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集（上）[C];2008年

2 郭麗;蔡?hào)|風(fēng);季鐸;白宇;;統(tǒng)計(jì)與語義相融合的詞語相似度計(jì)算[A];第四屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年

3 吳志雄;;不精確數(shù)據(jù)的相似度計(jì)算[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年

4 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計(jì)算理論與方法[A];中國農(nóng)業(yè)工程學(xué)會(huì)電氣信息與自動(dòng)化專業(yè)委員會(huì)、中國電機(jī)工程學(xué)會(huì)農(nóng)村電氣化分會(huì)科技與教育專委會(huì)2010年學(xué)術(shù)年會(huì)論文摘要[C];2010年

5 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計(jì)算研究[A];江蘇省系統(tǒng)工程學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年

6 車萬翔;劉挺;秦兵;李生;;面向雙語句對(duì)檢索的漢語句子相似度計(jì)算[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年

7 郭文宏;范學(xué)峰;;基于語義詞典和本體知識(shí)的概念相似度計(jì)算[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集（二）[C];2008年

8 宋彥;張桂平;蔡?hào)|風(fēng);;基于N-gram的句子相似度計(jì)算技術(shù)[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

9 關(guān)毅;王曉龍;王強(qiáng);;論系統(tǒng)相似的度量[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議（JSCL-2005）論文集[C];2005年

10 林民;宋柔;;基于結(jié)構(gòu)描述的漢字字形相似度計(jì)算[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

中國重要報(bào)紙全文數(shù)據(jù)庫前1條

1 海量智能計(jì)算技術(shù)研究中心霍剛;新興技術(shù)為互聯(lián)網(wǎng)加速[N];計(jì)算機(jī)世界;2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫前4條

1 馮曉文;基于GPU的相似度計(jì)算關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2014年

2 王秀紅;文本相似度計(jì)算核函數(shù)的構(gòu)造及其在分布式信息檢索中的應(yīng)用研究[D];江蘇大學(xué);2012年

3 劉磊;概念內(nèi)涵屬性計(jì)算研究[D];上海交通大學(xué);2011年

4 任磊;推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 梁韜;中文微博新詞與熱點(diǎn)話題發(fā)現(xiàn)技術(shù)研究[D];湖南工業(yè)大學(xué);2015年

2 汪建成;漢越雙語新聞話題分析方法研究[D];昆明理工大學(xué);2015年

3 唐海燕;基于全文的教育資源檢索模型研究[D];四川師范大學(xué);2015年

4 舒佳根;中文實(shí)體鏈接研究[D];蘇州大學(xué);2015年

5 孔行;基于主題推薦的輔助寫作系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2015年

6 孫潤志;基于語義理解的文本相似度計(jì)算研究與實(shí)現(xiàn)[D];中國科學(xué)院研究生院（沈陽計(jì)算技術(shù)研究所）;2015年

7 劉敏;基于詞向量的句子相似度計(jì)算及其在基于實(shí)例的機(jī)器翻譯中的應(yīng)用[D];北京理工大學(xué);2015年

8 康毅;面向客服的自動(dòng)問答系統(tǒng)關(guān)鍵技術(shù)研究[D];東北大學(xué);2014年

9 吳宇浩;南海檔案數(shù)字化半自動(dòng)校勘中的底本推薦探討[D];南京大學(xué);2015年

10 吐爾遜阿依·阿不來提;小學(xué)維吾爾語文教材中的單句相似度研究[D];新疆師范大學(xué);2015年

，

本文編號(hào)：1192780

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1192780.html

上一篇：基于BIM技術(shù)的工業(yè)化建筑協(xié)同設(shè)計(jì)探討
下一篇：彭城古韻農(nóng)家樂交互設(shè)計(jì)與實(shí)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于LDA主題模型的短文本分類