基于CHI和KNN的文本特征選擇與分類算法的研究
本文選題:文本分類 + 特征選擇 ; 參考:《北京工業(yè)大學(xué)》2016年碩士論文
【摘要】:隨著文本信息的快速膨脹,從龐雜的信息中獲取對(duì)自己有用的信息越來(lái)越困難。文本自動(dòng)分類作為一種有效組織和管理文本信息的數(shù)據(jù)挖掘方法,解決了文本信息雜亂的問題,在信息檢索、信息過濾、郵件過濾、數(shù)字化圖書館等領(lǐng)域有著非常廣泛的應(yīng)用前景。研究出一套分類精度高、效率高、穩(wěn)定性好的文本分類方法具有重要的學(xué)術(shù)意義和實(shí)用價(jià)值。特征選擇、特征加權(quán)及分類是文本分類過程中較重要的環(huán)節(jié),本文以此為主要內(nèi)容展開研究。首先簡(jiǎn)要說明了文本分類的研究背景和意義,闡述了文本分類的國(guó)內(nèi)外研究現(xiàn)狀,概括了本文的研究?jī)?nèi)容和章節(jié)安排。然后介紹了文本分類過程的關(guān)鍵技術(shù)和分類性能評(píng)價(jià)指標(biāo),為后期研究打好基礎(chǔ)。最后,本文針對(duì)CHI特征選擇、TFIDF特征加權(quán)、KNN分類方法進(jìn)行了深入研究并加以改進(jìn),主要研究?jī)?nèi)容如下:(1)針對(duì)CHI模型未考慮特征項(xiàng)詞頻,及放大了在指定類中很少出現(xiàn)但在其他類中普遍存在的特征項(xiàng)權(quán)重的缺點(diǎn),本文基于傳統(tǒng)CHI算法,提出了一種自適應(yīng)的特征選擇方法,該方法引入了自適應(yīng)比例因子,可自動(dòng)調(diào)節(jié)與類別呈正、負(fù)相關(guān)特征項(xiàng)的比重,消除了人為選取比例因子帶來(lái)的誤差,又引入了詞頻因子和類間方差,使最終選擇出的特征項(xiàng)在特定類中出現(xiàn)頻數(shù)多而在其他類中分布較少。結(jié)合KNN方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,無(wú)論在平衡語(yǔ)料集上還是在非平衡語(yǔ)料集上,所提方法都有較好的分類效果,尤其提高了在非平衡語(yǔ)料集上的分類效果。(2)針對(duì)TFIDF方法未考慮特征項(xiàng)類間、類內(nèi)分布因素的不足,本文提出了一種基于CHI統(tǒng)計(jì)和信息熵的改進(jìn)型TFIDF特征加權(quán)方法,由于特征項(xiàng)的2?統(tǒng)計(jì)量和類內(nèi)信息熵分別反映了特征項(xiàng)的類間、類內(nèi)分布情況,因此,在傳統(tǒng)TFIDF方法的基礎(chǔ)上,引入了2?統(tǒng)計(jì)量調(diào)節(jié)因子和類內(nèi)分布熵因子,彌補(bǔ)了TFIDF方法的缺陷,提高了特征項(xiàng)權(quán)重計(jì)算的準(zhǔn)確性。結(jié)合KNN方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,所提方法用于權(quán)重計(jì)算后提高了分類器性能,同時(shí)證明了該方法具有較好的穩(wěn)定性。(3)針對(duì)KNN方法訓(xùn)練樣本增多而分類速度變慢的問題,本文提出了一種基于K-Medoids和隸屬度的改進(jìn)型KNN文本分類方法,在傳統(tǒng)KNN算法的基礎(chǔ)上,采用改進(jìn)K-Medoids聚類算法刪掉對(duì)KNN分類貢獻(xiàn)小的訓(xùn)練樣本,減少了分類過程中相似度的計(jì)算量,并引入了隸屬度,實(shí)現(xiàn)了有差別地處理與測(cè)試文本最近鄰的K個(gè)文本。實(shí)驗(yàn)結(jié)果表明,在保證較高文本分類精度的前提下,所提方法提高了KNN方法的分類效率,同時(shí)驗(yàn)證了綜合采用本文所提三種方法的有效性。
[Abstract]:With the rapid expansion of text information, it is becoming more and more difficult to obtain useful information from complex information. As an effective data mining method for organizing and managing text information, automatic text classification solves the problem of text information clutter, such as information retrieval, information filtering, mail filtering. Digital library and other fields have a very broad application prospects. It is of great academic significance and practical value to develop a set of text classification methods with high classification accuracy, high efficiency and good stability. Feature selection, feature weighting and classification are important links in the process of text classification. Firstly, the research background and significance of text classification are briefly explained, the current research situation of text classification at home and abroad is expounded, and the research content and chapter arrangement of this paper are summarized. Then it introduces the key technology of text classification process and classification performance evaluation index, which lays a good foundation for the later research. Finally, this paper makes an in-depth study and improvement on the classification method of CHI feature selection / TFIDF feature weighted KNN. The main research contents are as follows: (1) for the CHI model, the word frequency of feature items is not taken into account. In this paper, an adaptive feature selection method is proposed based on the traditional CHI algorithm, in which the adaptive scaling factor is introduced. It can automatically adjust the proportion of the positive and negative characteristic items, eliminate the error caused by the artificial selection of the proportion factor, and introduce the word frequency factor and inter-class variance. The final selected feature items appear more frequently in certain classes than in other classes. The experimental results with KNN method show that the proposed method has a good classification effect both on the balanced corpus and on the non-balanced corpus. In particular, the classification effect on the non-equilibrium corpus is improved. (2) aiming at the deficiency of the TFIDF method which does not take into account the inter-class and intra-class distribution factors of the feature items, an improved TFIDF feature weighting method based on CHI statistics and information entropy is proposed in this paper. Because of the 2? Statistics and intra-class information entropy reflect the distribution of feature items between classes and within classes respectively. Therefore, based on the traditional TFIDF method, we introduce 2? The statistical adjustment factor and the distribution entropy factor make up the defect of TFIDF method and improve the accuracy of calculating the weight of the feature term. The experimental results with KNN method show that the proposed method improves the performance of classifier after weight calculation, and proves that the proposed method has good stability. (3) aiming at the problem that the training sample of KNN method increases and the classification speed becomes slower, In this paper, an improved KNN text classification method based on K-Medoids and membership degree is proposed. Based on the traditional KNN algorithm, the improved K-Medoids clustering algorithm is used to delete the training samples that contribute little to the KNN classification, thus reducing the amount of computation of similarity in the classification process. The membership degree is introduced to deal with K text that is nearest to the test text. The experimental results show that the proposed method improves the classification efficiency of the KNN method and verifies the effectiveness of the three methods proposed in this paper.
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李盛瑜;何文;;一種對(duì)聊天文本進(jìn)行特征選取的方法研究[J];計(jì)算機(jī)科學(xué);2007年05期
2 蔣志方;祝翠玲;吳強(qiáng);;一個(gè)對(duì)不帶類別標(biāo)記文本進(jìn)行分類的方法[J];計(jì)算機(jī)工程;2007年12期
3 趙鋼;;從復(fù)雜文本中導(dǎo)入數(shù)據(jù)的方法[J];中國(guó)審計(jì);2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達(dá)式編程的Web文本分類研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2009年03期
7 諶志群;;文本趨勢(shì)挖掘綜述[J];情報(bào)科學(xué);2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報(bào)雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學(xué)習(xí)方法的Web文本分類的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實(shí)現(xiàn)文本文件的方便存取[J];現(xiàn)代計(jì)算機(jī);1997年05期
相關(guān)會(huì)議論文 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類中的應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2001年
10 江荻;;藏語(yǔ)文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
相關(guān)重要報(bào)紙文章 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國(guó)電腦教育報(bào);2004年
相關(guān)博士學(xué)位論文 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 韓開旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
4 韓磊;漢語(yǔ)句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年
5 劉林;面向論壇文本的大學(xué)生情緒識(shí)別研究[D];華中師范大學(xué);2016年
6 張博宇;基于局部特征的場(chǎng)景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年
7 胡明涵;面向領(lǐng)域的文本分類與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
8 孫曉華;基于聚類的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問題研究[D];哈爾濱工程大學(xué);2010年
9 尚文倩;文本分類及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內(nèi)蒙古大學(xué);2015年
2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年
3 李少卿;不良文本及其變體信息的檢測(cè)過濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
4 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年
5 鐘文波;搜索引擎中關(guān)鍵詞分類方法評(píng)估及推薦應(yīng)用[D];華南理工大學(xué);2015年
6 黃晨;基于新詞識(shí)別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年
7 陳紅陽(yáng);中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
8 王s,
本文編號(hào):1859077
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1859077.html