文本分類中基于詞頻再排序的特征選擇方法研究
本文選題:特征選擇 切入點:文本分類 出處:《南京大學》2016年碩士論文 論文類型:學位論文
【摘要】:文本自動分類作為數(shù)據(jù)挖掘技術(shù)的分支之一,是處理和組織海量信息的關(guān)鍵技術(shù)。通過文本自動分類技術(shù),取代傳統(tǒng)的、低效率的人工分類方法,對文本信息進行快速并且準確地分類,使文本信息得以有效的組織,由此提高利用效率。目前,文本自動分類技術(shù)已經(jīng)被廣泛應用,所以說文本自動分類技術(shù)不僅有重要的理論意義,還有很高的實用價值。文本分類過程主要包括文本預處理、特征降維、分類模型訓練、分類模型性能評估等,以及不均衡數(shù)據(jù)集的處理問題,這些方面都得到了相關(guān)學者的深入研究,并且取得的豐富的研究成果,但也存在一些不足之處。本文先對整個文本分類的流程以及一些經(jīng)典的文本分類算法進行一定的研究,主要是文本預處理的過程,以及樸素貝葉斯、kNN、SVM分類算法的研究。特征降維是文本分類的研究重點之一,其主要目的是依據(jù)某一種或某些評價標準對特征全集進行降維處理,從而生成一個較低維度的特征子集,為之后的分類提高速度、準確率與效率。本文對現(xiàn)有的一些經(jīng)典特征選擇算法(文檔頻率、信息增益、互信息、卡方統(tǒng)計量)進行一定的研究。然后考慮不均衡數(shù)據(jù)集問題的基礎(chǔ)上,提出一種基于詞頻再排序的特征選擇方法,提高分類器分類性能。基于詞頻再排序的特征選擇方法的思想是,在進行常用特征選擇方法后,初步選擇出一部分特征,然后對各個類別再根據(jù)特征在其類別中的詞頻,進行再一步的篩選,最終構(gòu)成特征子集。本文選用Reuters-21578數(shù)據(jù)集,通過在IG、CHI、MI三種特征選擇方法上的應用,以及在樸素貝葉斯、kNN、SVM分類器上的實驗,證明了該方法的有效性。
[Abstract]:As one of the branches of data mining technology, automatic text classification is the key technology for processing and organizing mass information. Text information can be classified quickly and accurately so that text information can be organized effectively, thus improving the utilization efficiency. At present, automatic text classification technology has been widely used. Therefore, the automatic text classification technology not only has important theoretical significance, but also has high practical value. The text classification process mainly includes text preprocessing, feature dimensionality reduction, classification model training, classification model performance evaluation, etc. And the problem of dealing with unbalanced data sets, these aspects have been deeply studied by relevant scholars, and the rich research results have been obtained. However, there are some shortcomings. Firstly, this paper studies the whole text classification process and some classical text classification algorithms, mainly the process of text preprocessing. Feature dimensionality reduction is one of the key points in text classification. The main purpose of feature reduction is to reduce the dimension of feature complete set according to some evaluation criteria. Thus, a lower dimensional feature subset is generated, which improves the speed, accuracy and efficiency of the later classification. In this paper, some classical feature selection algorithms (document frequency, information gain, mutual information, etc. Then considering the problem of unbalanced data set, a feature selection method based on word frequency reordering is proposed. The idea of the feature selection method based on word frequency reordering is to select a part of the feature after carrying out the common feature selection method, and then select the word frequency of each category according to the feature. In this paper, we select the Reuters-21578 data set, through the application of the three feature selection methods, and the experiment on naive Bayesian KNNN SVM classifier, the effectiveness of this method is proved.
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 孫霞;鄭慶華;;一種面向非平衡數(shù)據(jù)的鄰居詞特征選擇方法[J];小型微型計算機系統(tǒng);2008年12期
2 蔣盛益;鄭琪;張倩生;;基于聚類的特征選擇方法[J];電子學報;2008年S1期
3 王加龍;朱顥東;;結(jié)合類別相關(guān)性和辨識集的特征選擇方法[J];微型機與應用;2009年23期
4 朱顥東;周姝;鐘勇;;結(jié)合差別對象對集的綜合性特征選擇方法[J];計算機工程與設計;2010年03期
5 姜慧研;柴天佑;;基于可信間隔的特征選擇方法研究[J];控制與決策;2011年08期
6 姚旭;王曉丹;張玉璽;權(quán)文;;特征選擇方法綜述[J];控制與決策;2012年02期
7 王志昊;王中卿;李壽山;李培峰;;不平衡情感分類中的特征選擇方法研究[J];中文信息學報;2013年04期
8 張玉紅;周全;胡學鋼;;面向跨領(lǐng)域情感分類的特征選擇方法[J];模式識別與人工智能;2013年11期
9 李敏;卡米力·木依丁;;特征選擇方法與算法的研究[J];計算機技術(shù)與發(fā)展;2013年12期
10 申清明;閆利軍;高建民;趙靜;;基于混沌搜索的特征選擇方法[J];兵工學報;2013年12期
相關(guān)會議論文 前6條
1 徐燕;王斌;李錦濤;孫春明;;知識增益:文本分類中一種新的特征選擇方法[A];第三屆全國信息檢索與內(nèi)容安全學術(shù)會議論文集[C];2007年
2 肖婷;唐雁;;文本分類中特征選擇方法及應用[A];2008年計算機應用技術(shù)交流會論文集[C];2008年
3 徐燕;孫春明;王斌;李錦濤;;基于詞條頻率的特征選擇算法研究[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術(shù)會議論文集[C];2006年
4 陳慶軒;鄭德權(quán);鄭博文;趙鐵軍;李生;;中文文本分類中基于文檔頻度分布的特征選擇方法[A];黑龍江省計算機學會2009年學術(shù)交流年會論文集[C];2010年
5 顧成杰;張順頤;劉凱;黃河;;基于粗糙集和禁忌搜索的特征選擇方法[A];江蘇省電子學會2010年學術(shù)年會論文集[C];2010年
6 王秀娟;郭軍;鄭康鋒;;基于互信息可信度的特征選擇方法[A];2006通信理論與技術(shù)新進展——第十一屆全國青年通信學術(shù)會議論文集[C];2006年
相關(guān)博士學位論文 前4條
1 劉明霞;屬性學習若干重要問題的研究及應用[D];南京航空航天大學;2015年
2 毛勇;基于支持向量機的特征選擇方法的研究與應用[D];浙江大學;2006年
3 尹留志;關(guān)于非平衡數(shù)據(jù)特征問題的研究[D];中國科學技術(shù)大學;2014年
4 裴志利;數(shù)據(jù)挖掘技術(shù)在文本分類和生物信息學中的應用[D];吉林大學;2008年
相關(guān)碩士學位論文 前10條
1 曹晉;基于SVDD的特征選擇方法研究及其應用[D];蘇州大學;2015年
2 張強;靜態(tài)圖像上的行人檢測方法研究[D];中國科學技術(shù)大學;2015年
3 張曉梅;基于融合特征的微博主客觀分類方法研究[D];山西大學;2014年
4 王君;基于SVM-RFE的特征選擇方法研究[D];大連理工大學;2015年
5 于海珠;面向文本聚類的特征選擇方法及應用研究[D];大連理工大學;2015年
6 趙世琛;文本分類中特征選擇方法研究[D];山西大學;2014年
7 王丹;特征選擇算法研究及其在異常檢測中的應用[D];電子科技大學;2014年
8 林艷峰;中文文本分類特征選擇方法的研究與實現(xiàn)[D];西安電子科技大學;2014年
9 盧志浩;基于GEP的kNN算法改進研究[D];廣西師范學院;2015年
10 王立鵬;面向圖數(shù)據(jù)的特征選擇方法及其應用研究[D];南京航空航天大學;2015年
,本文編號:1582475
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1582475.html