基于LDA主題模型的短文本分類
本文關(guān)鍵詞:基于LDA主題模型的短文本分類
更多相關(guān)文章: 潛在狄利克雷分布(LDA) 向量空間模型(VSM) 短文本分類 K近鄰(K-nearest neighbor) 吉布斯采樣 相似度計算
【摘要】:針對傳統(tǒng)VSM(vector space model)在短文本分類中維數(shù)高、語義特征不明顯的問題,提出基于LDA(latent Dirichlet allocation)模型主題分布相似度分類方法;針對短文本內(nèi)容少、長度短、特征稀疏的問題,提出基于LDA模型主題-詞分布矩陣的主題分布向量改進方法。與傳統(tǒng)VSM分類方法相比,該方法降低了相似度計算維度,融合了一定語義特征。實驗結(jié)果表明,與傳統(tǒng)VSM分類方法相比,基于主題分布相似度方法的平均F1值提高了4.5%,基于LDA模型主題-詞分布矩陣主題分布向量改進方法的平均F1值提高了5.2%,驗證了以上方法的有效性。
【作者單位】: 新疆大學(xué)信息科學(xué)與工程學(xué)院;
【基金】:國家自然科學(xué)基金項目(61365005、60965002)
【分類號】:TP391.1
【正文快照】: 0引言短文本分類面臨特征稀疏、用詞不規(guī)范、大量信息即時生成、存在噪音等問題,如何從短文本中提取有效特征并進行快速分類成為目前短文本分類研究熱點。傳統(tǒng)的文本分類方法有KNN[1]、貝葉斯分類[2]、決策樹[3]、SVM[4]、最大熵[5]等,但由于這些方法均要求有足夠的詞頻共現(xiàn)信
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 李鋒剛;梁鈺;GAO Xiao-zhi;ZENGER Kai;;基于LDA-wSVM模型的文本分類研究[J];計算機應(yīng)用研究;2015年01期
2 李湘東;廖香鵬;黃莉;;LDA模型下書目信息分類系統(tǒng)的研究與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2014年05期
3 王振振;何明;杜永萍;;基于LDA主題模型的文本相似度計算[J];計算機科學(xué);2013年12期
4 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計算機應(yīng)用;2013年06期
5 孫昌年;鄭誠;夏青松;;基于LDA的中文文本相似度計算[J];計算機技術(shù)與發(fā)展;2013年01期
6 姚全珠;宋志理;彭程;;基于LDA模型的文本分類研究[J];計算機工程與應(yīng)用;2011年13期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 胡文靜;基于語義理解與PLSA的文本情感分類研究[D];天津師范大學(xué);2012年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊萌萌;黃浩;程露紅;馬平;包武杰;;基于LDA主題模型的短文本分類[J];計算機工程與設(shè)計;2016年12期
2 王震;代巖巖;陳亮;林曉蘭;;基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析[J];電子技術(shù)與軟件工程;2016年22期
3 李揚;孔雯婧;謝邦昌;;基于主題模型的半監(jiān)督網(wǎng)絡(luò)文本情感分類研究[J];數(shù)理統(tǒng)計與管理;2016年06期
4 王亞民;胡悅;;基于BTM的微博輿情熱點發(fā)現(xiàn)[J];情報雜志;2016年11期
5 董魯豫;;基于監(jiān)督學(xué)習(xí)的虛假評論檢測研究[J];黑龍江科技信息;2016年29期
6 詹增榮;程丹;;基于LDA與距離度量學(xué)習(xí)的文本分類研究[J];湖南師范大學(xué)自然科學(xué)學(xué)報;2016年05期
7 薛行貴;高見文;張伯虎;黃立勤;;基于MapReduce的并行LAD模型評論主題提取算法研究[J];福州大學(xué)學(xué)報(自然科學(xué)版);2016年05期
8 李湘東;巴志超;高凡;;數(shù)字文本自動分類中特征語義關(guān)聯(lián)及加權(quán)策略研究綜述與展望[J];現(xiàn)代圖書情報技術(shù);2016年09期
9 呂亞偉;李芳;戴龍龍;;基于LDA的中文詞語相似度計算[J];北京化工大學(xué)學(xué)報(自然科學(xué)版);2016年05期
10 彭杰;石永革;高勝保;;基于對話內(nèi)容的交互型文本會話主題挖掘[J];電信科學(xué);2016年09期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 趙利軍;基于語義分析的網(wǎng)絡(luò)服務(wù)智能交互系統(tǒng)研究[D];西南交通大學(xué);2013年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計算機應(yīng)用;2013年06期
2 孫李斌;馬賢明;趙明明;;基于LDA主題模型的遙感圖像表示與分類[J];科技視界;2013年07期
3 孫世杰;濮建忠;;基于LDA模型的Twitter中文微博熱點主題詞組發(fā)現(xiàn)[J];洛陽師范學(xué)院學(xué)報;2012年11期
4 廖曉鋒;王永吉;范修斌;吳敬征;;基于LDA主題模型的安全漏洞分類[J];清華大學(xué)學(xué)報(自然科學(xué)版);2012年10期
5 鄭斐然;苗奪謙;張志飛;高燦;;一種中文微博新聞話題檢測的方法[J];計算機科學(xué);2012年01期
6 黃小亮;郁抒思;關(guān)佶紅;;基于LDA主題模型的軟件缺陷分派方法[J];計算機工程;2011年21期
7 張明慧;王紅玲;周國棟;;基于LDA主題特征的自動文摘方法[J];計算機應(yīng)用與軟件;2011年10期
8 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機學(xué)報;2011年08期
9 黃承慧;印鑒;侯f ;;一種結(jié)合詞項語義信息和TF-IDF方法的文本相似度量方法[J];計算機學(xué)報;2011年05期
10 姚全珠;宋志理;彭程;;基于LDA模型的文本分類研究[J];計算機工程與應(yīng)用;2011年13期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 李本陽;句子和篇章文本傾向分析[D];哈爾濱工業(yè)大學(xué);2010年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王鈞;趙曰利;;浙大中藥指紋圖譜相似度計算軟件在煙用香精香料色譜分析中的引入應(yīng)用[J];現(xiàn)代儀器;2007年03期
2 單建芳;劉宗田;周文;;事件相似度計算[J];小型微型計算機系統(tǒng);2010年04期
3 劉文劍;郭寧;金天國;;制造資源本體的相似度計算模型[J];計算機集成制造系統(tǒng);2010年11期
4 邸書靈;劉曉飛;李歡;;基于分詞的語句相似度計算的改進[J];石家莊鐵道大學(xué)學(xué)報(自然科學(xué)版);2011年04期
5 秦學(xué)勇;張潤梅;;兩級相似度計算在主觀題機器閱卷中的應(yīng)用[J];計算機工程;2012年11期
6 田衛(wèi)東;強繼朋;;基于問句類型的問句相似度計算[J];計算機應(yīng)用研究;2014年04期
7 周凱波,馮珊,李鋒;基于案例屬性特征的相似度計算模型研究[J];武漢理工大學(xué)學(xué)報(信息與管理工程版);2003年01期
8 易麗萍,竹勇 ,雷小春;知網(wǎng)在詞語相似度計算方面的應(yīng)用[J];信息技術(shù)與信息化;2005年01期
9 廉站俊;呂學(xué)強;張玉杰;施水才;;基于句子相似度計算的信息抽取[J];現(xiàn)代圖書情報技術(shù);2007年06期
10 李偉;;中文語句相似度計算的方法初探[J];蘭州工業(yè)高等?茖W(xué)校學(xué)報;2009年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 劉磊;張桂平;蔡東風(fēng);季鐸;;基于語義預(yù)測的雙語術(shù)語相似度計算[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
2 郭麗;蔡東風(fēng);季鐸;白宇;;統(tǒng)計與語義相融合的詞語相似度計算[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
3 吳志雄;;不精確數(shù)據(jù)的相似度計算[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會議論文集[C];2008年
4 王凱;李紹穩(wěn);張友華;劉超;;缺值背景中的粗糙形式概念相似度計算理論與方法[A];中國農(nóng)業(yè)工程學(xué)會電氣信息與自動化專業(yè)委員會、中國電機工程學(xué)會農(nóng)村電氣化分會科技與教育專委會2010年學(xué)術(shù)年會論文摘要[C];2010年
5 陳立;宋自林;鄭世明;張英;;基于本體的概念相似度計算研究[A];江蘇省系統(tǒng)工程學(xué)會第十一屆學(xué)術(shù)年會論文集[C];2009年
6 車萬翔;劉挺;秦兵;李生;;面向雙語句對檢索的漢語句子相似度計算[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
7 郭文宏;范學(xué)峰;;基于語義詞典和本體知識的概念相似度計算[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
8 宋彥;張桂平;蔡東風(fēng);;基于N-gram的句子相似度計算技術(shù)[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
9 關(guān)毅;王曉龍;王強;;論系統(tǒng)相似的度量[A];全國第八屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
10 林民;宋柔;;基于結(jié)構(gòu)描述的漢字字形相似度計算[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 海量智能計算技術(shù)研究中心 霍剛;新興技術(shù)為互聯(lián)網(wǎng)加速[N];計算機世界;2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 馮曉文;基于GPU的相似度計算關(guān)鍵技術(shù)研究[D];華中科技大學(xué);2014年
2 王秀紅;文本相似度計算核函數(shù)的構(gòu)造及其在分布式信息檢索中的應(yīng)用研究[D];江蘇大學(xué);2012年
3 劉磊;概念內(nèi)涵屬性計算研究[D];上海交通大學(xué);2011年
4 任磊;推薦系統(tǒng)關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 梁韜;中文微博新詞與熱點話題發(fā)現(xiàn)技術(shù)研究[D];湖南工業(yè)大學(xué);2015年
2 汪建成;漢越雙語新聞話題分析方法研究[D];昆明理工大學(xué);2015年
3 唐海燕;基于全文的教育資源檢索模型研究[D];四川師范大學(xué);2015年
4 舒佳根;中文實體鏈接研究[D];蘇州大學(xué);2015年
5 孔行;基于主題推薦的輔助寫作系統(tǒng)[D];哈爾濱工業(yè)大學(xué);2015年
6 孫潤志;基于語義理解的文本相似度計算研究與實現(xiàn)[D];中國科學(xué)院研究生院(沈陽計算技術(shù)研究所);2015年
7 劉敏;基于詞向量的句子相似度計算及其在基于實例的機器翻譯中的應(yīng)用[D];北京理工大學(xué);2015年
8 康毅;面向客服的自動問答系統(tǒng)關(guān)鍵技術(shù)研究[D];東北大學(xué);2014年
9 吳宇浩;南海檔案數(shù)字化半自動?敝械牡妆就扑]探討[D];南京大學(xué);2015年
10 吐爾遜阿依·阿不來提;小學(xué)維吾爾語文教材中的單句相似度研究[D];新疆師范大學(xué);2015年
,本文編號:1192780
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1192780.html