基于術(shù)語離散因子的特征選擇算法在文本分類中的研究
發(fā)布時(shí)間:2021-06-07 02:56
隨著社會(huì)的發(fā)展,如今到處充滿著互聯(lián)網(wǎng)“大數(shù)據(jù)”的氣息,這就使得電子文本數(shù)據(jù)信息變得越來越多。對(duì)于這些大量的文本數(shù)據(jù)信息如何處理,并從中快速、準(zhǔn)確地找到有用的信息是當(dāng)前需要解決的問題。文本分類技術(shù)的出現(xiàn)可以解決這一問題,但是數(shù)據(jù)維度過高會(huì)使文本分類的效率降低。特征選擇作為文本分類技術(shù)最關(guān)緊要的步驟,它可以降低特征空間的維度,并提高文本分類的精確率。因此,本論文主要是對(duì)文本分類中的特征選擇算法進(jìn)行研究。論文主要是對(duì)文本分類的詳細(xì)過程以及相關(guān)的技術(shù)進(jìn)行了闡述,其中主要包含文本預(yù)處理、文本表示模型、用于降低特征空間維度的特征選擇算法、以及用于文本分類的分類算法和用于評(píng)估其分類性能的評(píng)價(jià)指標(biāo),并對(duì)每一個(gè)步驟中的方法和模型都依次進(jìn)行了詳細(xì)地介紹。對(duì)于數(shù)據(jù)維度過高的問題,論文深入地分析、研究了相關(guān)的特征選擇算法,并根據(jù)術(shù)語的分布情況提出了兩個(gè)特征選擇算法。實(shí)驗(yàn)結(jié)果證明,這兩個(gè)算法可以有效提高文本分類的精確性。(1)提出了一種基于術(shù)語正率的特征選擇算法(MTFS)。根據(jù)分析比較常用的特征選擇算法,可以發(fā)現(xiàn)大多數(shù)特征選擇算法都沒有綜合地考慮過文檔頻率、詞頻和術(shù)語在類中及類間的分布問題。根據(jù)此發(fā)現(xiàn)本文所提...
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:61 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
文本分類過程圖
西安理工大學(xué)碩士學(xué)位論文14的線性分類器。在文本分類中使用SVM分類器是一個(gè)很好的選擇,分類效果是非常不錯(cuò)的。圖2-3是SVM算法解決線性分類問題的情況,圖中的圓形和方形代表的是兩個(gè)不同的類別,圖中的線是分離超平面,其中實(shí)線是間隔最大的分離超平面并且是唯一的。因此在使用SVM分類算法時(shí),選擇間隔最大的分離超平面作為決策面。圖2-3支持向量機(jī)示意圖Figure2-3Schematicdiagramofsupportvectormachine2.5.2樸素貝葉斯算法樸素貝葉斯(NB)算法是依據(jù)數(shù)學(xué)領(lǐng)域中貝葉斯定理的一種分類算法[43]。它的基本思想是假設(shè)特征之間是相互獨(dú)立的,對(duì)于未被分類的文本,計(jì)算該文本在各個(gè)類別中的概率,文本概率最大的就是該文本所在的類別并對(duì)其進(jìn)行分類。由于該分類算法既簡(jiǎn)單又高效,所以稱之為“樸素”貝葉斯算法。假定給出文本d以及一個(gè)類的集合C,其中},,,{21ncccC,要對(duì)文本d分類,就必須先計(jì)算文本d在各個(gè)類別中的概率dcP)|(n,其公式如下:NnnnnnnccdPPccdPPdcP1)|()()|()()|((2-12)PcdddcPc)|(max)|(|nnn(2-13)公式中,類nc中包含的文本數(shù)與語料庫中所有文本數(shù)的比值用)(ncP來表示。公式(2-13)代表的是找出文本所屬類別概率的最大值。2.5.3K近鄰算法K近鄰(KNN)算法的基本思想是根據(jù)對(duì)樣本間的距離進(jìn)行計(jì)算來判斷樣本間的相似性,進(jìn)而對(duì)特征空間中的樣本進(jìn)行分類[46]。K近鄰直觀上來看就是為分類的文本依據(jù)與它最近的相鄰的K個(gè)文本的相似性來預(yù)測(cè)它所屬的類別。K近鄰算法是最簡(jiǎn)單的分類算法之一。其中K值的不同,實(shí)驗(yàn)結(jié)果也將不同,因此K值是根據(jù)實(shí)驗(yàn)所需來設(shè)置的。
西安理工大學(xué)碩士學(xué)位論文24于1000時(shí),MTFS算法的Micro-F1的值漸漸高于其他算法的Micro-F1值。圖3-2(b)顯示了MTFS算法維度高于1000是Macro-F1的值高于其他算法?偟膩碚f,當(dāng)維度越高時(shí),算法MTFS的效果越好。圖3-120newsgroups數(shù)據(jù)集在NB分類器上的性能曲線Figure3-1Performancecurveof20newsgroupsdatasetonNBclassifier圖3-2顯示5種不同的特征選擇算法在20newsgroups數(shù)據(jù)集上使用SVM分類器時(shí)Micro-F1和Macro-F1的性能曲線。從圖3-2(a)中可以看出,我們所提出的MTFS算法在任何維度下Micro-F1值幾乎都高于其他算法,效果較好。圖3-2(b)中顯示,在維度低于200時(shí),算法MTFS的Macro-F1值低于NDM算法的值。在維度高于400時(shí),算法MTFS的Macro值明顯高于其他算法?偠灾谑褂肧VM分類器時(shí),MTFS算法的Micro-F1值和Macro-F1值都是隨著特征詞數(shù)量的增加而變大的。圖3-220newsgroups數(shù)據(jù)集在SVM分類器上的性能曲線Figure3-2Performancecurveof20newsgroupsdatasetonSVMclassifier
本文編號(hào):3215707
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:61 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
文本分類過程圖
西安理工大學(xué)碩士學(xué)位論文14的線性分類器。在文本分類中使用SVM分類器是一個(gè)很好的選擇,分類效果是非常不錯(cuò)的。圖2-3是SVM算法解決線性分類問題的情況,圖中的圓形和方形代表的是兩個(gè)不同的類別,圖中的線是分離超平面,其中實(shí)線是間隔最大的分離超平面并且是唯一的。因此在使用SVM分類算法時(shí),選擇間隔最大的分離超平面作為決策面。圖2-3支持向量機(jī)示意圖Figure2-3Schematicdiagramofsupportvectormachine2.5.2樸素貝葉斯算法樸素貝葉斯(NB)算法是依據(jù)數(shù)學(xué)領(lǐng)域中貝葉斯定理的一種分類算法[43]。它的基本思想是假設(shè)特征之間是相互獨(dú)立的,對(duì)于未被分類的文本,計(jì)算該文本在各個(gè)類別中的概率,文本概率最大的就是該文本所在的類別并對(duì)其進(jìn)行分類。由于該分類算法既簡(jiǎn)單又高效,所以稱之為“樸素”貝葉斯算法。假定給出文本d以及一個(gè)類的集合C,其中},,,{21ncccC,要對(duì)文本d分類,就必須先計(jì)算文本d在各個(gè)類別中的概率dcP)|(n,其公式如下:NnnnnnnccdPPccdPPdcP1)|()()|()()|((2-12)PcdddcPc)|(max)|(|nnn(2-13)公式中,類nc中包含的文本數(shù)與語料庫中所有文本數(shù)的比值用)(ncP來表示。公式(2-13)代表的是找出文本所屬類別概率的最大值。2.5.3K近鄰算法K近鄰(KNN)算法的基本思想是根據(jù)對(duì)樣本間的距離進(jìn)行計(jì)算來判斷樣本間的相似性,進(jìn)而對(duì)特征空間中的樣本進(jìn)行分類[46]。K近鄰直觀上來看就是為分類的文本依據(jù)與它最近的相鄰的K個(gè)文本的相似性來預(yù)測(cè)它所屬的類別。K近鄰算法是最簡(jiǎn)單的分類算法之一。其中K值的不同,實(shí)驗(yàn)結(jié)果也將不同,因此K值是根據(jù)實(shí)驗(yàn)所需來設(shè)置的。
西安理工大學(xué)碩士學(xué)位論文24于1000時(shí),MTFS算法的Micro-F1的值漸漸高于其他算法的Micro-F1值。圖3-2(b)顯示了MTFS算法維度高于1000是Macro-F1的值高于其他算法?偟膩碚f,當(dāng)維度越高時(shí),算法MTFS的效果越好。圖3-120newsgroups數(shù)據(jù)集在NB分類器上的性能曲線Figure3-1Performancecurveof20newsgroupsdatasetonNBclassifier圖3-2顯示5種不同的特征選擇算法在20newsgroups數(shù)據(jù)集上使用SVM分類器時(shí)Micro-F1和Macro-F1的性能曲線。從圖3-2(a)中可以看出,我們所提出的MTFS算法在任何維度下Micro-F1值幾乎都高于其他算法,效果較好。圖3-2(b)中顯示,在維度低于200時(shí),算法MTFS的Macro-F1值低于NDM算法的值。在維度高于400時(shí),算法MTFS的Macro值明顯高于其他算法?偠灾谑褂肧VM分類器時(shí),MTFS算法的Micro-F1值和Macro-F1值都是隨著特征詞數(shù)量的增加而變大的。圖3-220newsgroups數(shù)據(jù)集在SVM分類器上的性能曲線Figure3-2Performancecurveof20newsgroupsdatasetonSVMclassifier
本文編號(hào):3215707
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3215707.html
最近更新
教材專著