基于自身特征擴展的短文本分類方法
本文選題:短文本 + 稀疏; 參考:《計算機應用研究》2017年04期
【摘要】:短文本具有特征稀疏、描述概念信號弱等特點,傳統(tǒng)方法對短文本進行分類很難取得較好結果。針對上述問題,提出了一種基于自身特征擴展的短文本分類方法 SC-FE。該方法首先基于類內離散度從每個類中選取高類別指示性的特征組成特征空間;其次對樣本的特征,在已選的特征空間中選取其相關度最大的特征加入短文本中進行擴充。在實際數據集上的實驗結果表明,該方法可有效提高短文本的分類效果。
[Abstract]:Short text is characterized by sparse features and weak description of conceptual signals. It is difficult to obtain good results by traditional methods for classifying short text. In order to solve the above problems, a novel short text classification method, SC-FE, is proposed, which is based on the expansion of its own features. The method firstly selects high class indicative features from each class to form a feature space based on the intra-class dispersion; secondly, the feature of the sample is selected and the feature with the highest correlation is selected in the selected feature space to be added to the short text to expand the feature space. The experimental results on actual data sets show that the proposed method can effectively improve the classification effect of short text.
【作者單位】: 合肥工業(yè)大學計算機與信息學院;
【基金】:國家自然科學基金資助項目(61503112,61305063,61673152)
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 陳林;楊丹;;獨立于語種的文本分類方法[J];計算機工程與科學;2008年06期
2 張燕平;徐慶鵬;蘇守寶;邢猛;;一種基于貪婪覆蓋的文本分類方法[J];計算機技術與發(fā)展;2009年01期
3 焦慶爭;蔚承建;;一種基于特征投票的文本分類方法[J];計算機工程;2010年09期
4 孟海東;張煉;呂海林;;基于圖模型的文本分類方法的研究[J];計算機與現(xiàn)代化;2010年09期
5 仲兆滿;李存華;;基于重要事件的文本分類方法研究[J];微電子學與計算機;2012年03期
6 赫芳;王洋;;網絡的簡監(jiān)督文本分類方法[J];計算機與網絡;2012年17期
7 朱志寧;萬小容;黃青松;;一種改進的基于信噪比的文本分類方法[J];寧波廣播電視大學學報;2005年04期
8 朱斐;刁紅軍;呂強;;一種富文本分類方法的設計和實現(xiàn)[J];計算機應用與軟件;2007年12期
9 臺德藝;謝飛;胡學鋼;;新的基于簇劃分文本分類方法[J];計算機工程與設計;2009年06期
10 楊林波;王士同;;基于類別分布特征的快速文本分類方法[J];計算機工程與設計;2009年05期
相關會議論文 前9條
1 陳克利;宗成慶;王霞;;基于大規(guī)模真實文本的平衡語料分析與文本分類方法[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
2 姚天f ;彭思崴;;漢語主客觀文本分類方法的研究[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
3 李月倫;李湘;常寶寶;袁毓林;;一種基于認知情景框架的文本分類方法[A];第五屆全國青年計算語言學研討會論文集[C];2010年
4 張永;陳思睿;楊志勇;;一種改進的文本分類方法的研究[A];第二屆全國信息檢索與內容安全學術會議(NCIRCS-2005)論文集[C];2005年
5 陳毅恒;秦兵;劉挺;林建國;李生;;基于錯誤預測的文本分類方法[A];內容計算的研究與應用前沿——第九屆全國計算語言學學術會議論文集[C];2007年
6 宋鑫穎;周志逵;;一種基于SVM的主動學習文本分類方法[A];第二十三屆中國數據庫學術會議論文集(技術報告篇)[C];2006年
7 盧嬌麗;鄭家恒;;基于粗糙集的文本分類方法研究[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年
8 牛強;王志曉;陳岱;夏士雄;;基于支持向量機的Web文本分類方法[A];2006年全國開放式分布與并行計算學術會議論文集(一)[C];2006年
9 張政;周水庚;周傲英;;一種新的基于kNN和Rocchio的文本分類方法[A];第二十一屆中國數據庫學術會議論文集(研究報告篇)[C];2004年
相關碩士學位論文 前10條
1 江大鵬;基于詞向量的短文本分類方法研究[D];浙江大學;2015年
2 陳遠超;基于MapReduce的大數據文本分類方法研究[D];浙江師范大學;2015年
3 年素磊;自由文本分類技術研究[D];南京大學;2014年
4 譚建平;基于半監(jiān)督的SVM遷移學習文本分類方法[D];廣東工業(yè)大學;2016年
5 黃旭;基于機器學習的漢語短文本分類方法研究與實現(xiàn)[D];黑龍江大學;2016年
6 王丹丹;基于特征選擇的文本分類方法研究及其應用[D];江南大學;2017年
7 朱斐;一種富文本分類方法的研究與實現(xiàn)[D];蘇州大學;2006年
8 李萍;基于改進詞語權重的文本分類方法研究[D];東北師范大學;2010年
9 王燕霞;基于相關主題模型的文本分類方法研究[D];蘇州大學;2010年
10 張建興;一種提取類核的快速文本分類方法[D];蘭州理工大學;2010年
,本文編號:2015493
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2015493.html