LSI__LDA:一種混合特征降維方法
發(fā)布時間:2018-02-16 09:53
本文關鍵詞: 文本分類 特征降維 潛在語義索引 潛在狄利克雷分配 出處:《計算機應用研究》2017年08期 論文類型:期刊論文
【摘要】:LDA沒有考慮到數(shù)據(jù)輸入,在原始輸入空間上對所有詞進行主題標簽,因對非作用詞同樣分配主題,致使主題分布不精確。針對其不足,提出了一種結合LSI和LDA的特征降維方法,預先采用LSI將原始詞空間映射到語義空間,再根據(jù)語義關系篩選出原始特征集中關鍵的特征,最后通過LDA模型在更小、更切題的文檔子集上采樣建模。對復旦大學中文語料進行文本分類,新方法的分類精度較單獨使用LDA模型的效果提高了1.50%。實驗表明提出的LSI__LDA模型在文本分類中有更好的分類性能。
[Abstract]:LDA does not take data input into account, and labels all words in the original input space, so the topic distribution is imprecise because of the same assignment of topics to non-functional words. In view of its inadequacies, a method of feature dimensionality reduction combining LSI and LDA is proposed. The original word space is mapped to the semantic space by LSI in advance, and then the key features in the original feature set are selected according to the semantic relations. Finally, through the LDA model, the features are smaller. Sample modeling on a more topical subset of documents. Text categorization of the Chinese corpus of Fudan University, The accuracy of the new method is 1.50% higher than that of using LDA model alone. The experimental results show that the proposed LSI__LDA model has better classification performance in text classification.
【作者單位】: 遼寧工程技術大學軟件學院;
【基金】:國家自然科學基金青年科學基金資助項目(61401185) 遼寧省教育廳科學研究一般項目(L2013133)
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前5條
1 李鋒剛;梁鈺;GAO Xiao-zhi;ZENGER Kai;;基于LDA-wSVM模型的文本分類研究[J];計算機應用研究;2015年01期
2 沈競;;基于信息增益的LDA模型的短文本分類[J];重慶文理學院學報(自然科學版);2011年06期
3 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機學報;2011年08期
4 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應最優(yōu)LDA模型選擇方法[J];計算機學報;2008年10期
5 李文波;孫樂;張大鯤;;基于Labeled-LDA模型的文本分類新算法[J];計算機學報;2008年04期
相關碩士學位論文 前1條
1 于成龍;基于特征提取的特征選擇研究[D];南京郵電大學;2011年
【共引文獻】
相關期刊論文 前10條
1 蘇婧瓊;劉建霞;謝s,
本文編號:1515236
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1515236.html
最近更新
教材專著