LSI__LDA:一種混合特征降維方法
發(fā)布時間:2018-02-16 09:53
本文關(guān)鍵詞: 文本分類 特征降維 潛在語義索引 潛在狄利克雷分配 出處:《計算機應(yīng)用研究》2017年08期 論文類型:期刊論文
【摘要】:LDA沒有考慮到數(shù)據(jù)輸入,在原始輸入空間上對所有詞進行主題標簽,因?qū)Ψ亲饔迷~同樣分配主題,致使主題分布不精確。針對其不足,提出了一種結(jié)合LSI和LDA的特征降維方法,預(yù)先采用LSI將原始詞空間映射到語義空間,再根據(jù)語義關(guān)系篩選出原始特征集中關(guān)鍵的特征,最后通過LDA模型在更小、更切題的文檔子集上采樣建模。對復(fù)旦大學中文語料進行文本分類,新方法的分類精度較單獨使用LDA模型的效果提高了1.50%。實驗表明提出的LSI__LDA模型在文本分類中有更好的分類性能。
[Abstract]:LDA does not take data input into account, and labels all words in the original input space, so the topic distribution is imprecise because of the same assignment of topics to non-functional words. In view of its inadequacies, a method of feature dimensionality reduction combining LSI and LDA is proposed. The original word space is mapped to the semantic space by LSI in advance, and then the key features in the original feature set are selected according to the semantic relations. Finally, through the LDA model, the features are smaller. Sample modeling on a more topical subset of documents. Text categorization of the Chinese corpus of Fudan University, The accuracy of the new method is 1.50% higher than that of using LDA model alone. The experimental results show that the proposed LSI__LDA model has better classification performance in text classification.
【作者單位】: 遼寧工程技術(shù)大學軟件學院;
【基金】:國家自然科學基金青年科學基金資助項目(61401185) 遼寧省教育廳科學研究一般項目(L2013133)
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前5條
1 李鋒剛;梁鈺;GAO Xiao-zhi;ZENGER Kai;;基于LDA-wSVM模型的文本分類研究[J];計算機應(yīng)用研究;2015年01期
2 沈競;;基于信息增益的LDA模型的短文本分類[J];重慶文理學院學報(自然科學版);2011年06期
3 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機學報;2011年08期
4 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應(yīng)最優(yōu)LDA模型選擇方法[J];計算機學報;2008年10期
5 李文波;孫樂;張大鯤;;基于Labeled-LDA模型的文本分類新算法[J];計算機學報;2008年04期
相關(guān)碩士學位論文 前1條
1 于成龍;基于特征提取的特征選擇研究[D];南京郵電大學;2011年
【共引文獻】
相關(guān)期刊論文 前10條
1 蘇婧瓊;劉建霞;謝s,
本文編號:1515236
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1515236.html
最近更新
教材專著