基于文檔層詞頻重排序的特征選擇方法的研究與應(yīng)用
發(fā)布時(shí)間:2021-01-12 13:36
隨著信息技術(shù)的快速發(fā)展,文本數(shù)據(jù)量不斷增長(zhǎng),如何高效、準(zhǔn)確地定位有效信息成為當(dāng)今時(shí)代下的迫切需求。文本分類(lèi)作為信息處理的核心技術(shù)成為解決這類(lèi)問(wèn)題的關(guān)鍵手段。在文本分類(lèi)過(guò)程中,高維數(shù)據(jù)容易引起分類(lèi)過(guò)程中的維度災(zāi)難,特征選擇是解決維度災(zāi)難,實(shí)現(xiàn)維數(shù)約減的有效方法,因此論文以文本分類(lèi)過(guò)程中的特征選擇方法作為主要研究?jī)?nèi)容。論文首先簡(jiǎn)要概述了文本分類(lèi)技術(shù),并介紹了其詳細(xì)過(guò)程,在每個(gè)步驟中都列舉了一些常用的方法。其次為解決文本分類(lèi)過(guò)程中的維度災(zāi)難,提出了兩種新的特征選擇算法。(1)提出一種基于NDM改進(jìn)的特征選擇算法(T F-NDM)。通過(guò)分析常見(jiàn)的特征選擇算法,發(fā)現(xiàn)大部分算法都依賴(lài)于文檔頻率,未考慮詞條頻率,因此本文以表現(xiàn)優(yōu)秀的NDM算法的文檔頻率為基礎(chǔ),引入詞頻權(quán)重,充分考慮類(lèi)別信息和詞條占比的情況。最后通過(guò)在五個(gè)數(shù)據(jù)集上不同的實(shí)驗(yàn)結(jié)果證明,T F-N DM算法性能良好,能夠有效地提高分類(lèi)性能。(2)提出一種基于文檔專(zhuān)一化和詞條多樣化的特征選擇算法(D S T D)。該算法在宏觀上統(tǒng)一文檔頻率的多種計(jì)算方式,在微觀上從多個(gè)角度考慮了詞條分布的情況,提出文檔專(zhuān)一性和詞條多樣性?xún)蓚(gè)全新的影響因子。...
【文章來(lái)源】:西安理工大學(xué)陜西省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-2支持向量機(jī)Fig.2-2SupportVectorMachine
發(fā)現(xiàn)詞條2t 、3t 和4t 的正負(fù)類(lèi)差值的影響因子,即 tpr 最小值的影響,我們可以選出詞條 更具有區(qū)分能力,這些?梢钥闯觯琋DM 算法避免了高頻詞與低頻詞具有相據(jù)集中也可以看出,當(dāng)我們使用 NDM 算法時(shí),1t ,3t 和個(gè)詞條更具有區(qū)分能力。圖 3-1 顯示了 NDM 等值線(xiàn),顏關(guān)于對(duì)角線(xiàn)對(duì)稱(chēng),可以看出,在該算法中仍然存在大量的特征排序,所以 NDM 算法具有一定的局限性。表 3-1 歸一化差值測(cè)量法的樣本數(shù)據(jù)集Tab.3-1 The Sample Data Set of Normalized Difference Measure詞條1t2t3t4tr0.32 0.1 0.5 0.8r0.2 0.4 0.8 0.5 fpr0.12 0.3 0.3 0.3M0.6 3.0 0.6 0.6
圖 3-2 WAP 數(shù)據(jù)集中 NB 分類(lèi)器上的性能曲線(xiàn)Fig.3-2 Performance Curve on WAP Data Set for NB圖 3-3 顯示了六種不同特征選擇算法在 WAP 數(shù)據(jù)集上使用支持向量機(jī)分類(lèi)器時(shí)Macro-F1 值和 Micro-F1 值的變化趨勢(shì)。從圖 3-3(a)中可以看出,本章提出的 TF-NDM算法僅在特征維度為50的情況下,Macro-F1值不是最高的,在其他維度下都是最優(yōu)秀的。從圖 3-3(b)中可以看出,TF-NDM 的 Micro-F1 值在 20、50 和 500 維度下不是最優(yōu)秀的,在其他維度下表現(xiàn)優(yōu)秀。從圖 3-3 中可以看出,在使用支持向量機(jī)分類(lèi)算法時(shí),TF-NDM相比其他特征選擇算法 Macro-F1 和 Micro-F1 值都提高的并不多,但是所有算法的Macro-F1 和 Micro-F1 值隨著特征詞數(shù)量的增多而增大。
【參考文獻(xiàn)】:
期刊論文
[1]基于詞干的混合策略維吾爾語(yǔ)文本聚類(lèi)特征選擇方法研究[J]. 劉源,吐?tīng)柛ひ啦祭?阿力木江·艾沙,張亞軍. 計(jì)算機(jī)應(yīng)用與軟件. 2012(12)
[2]面向?qū)哟畏诸?lèi)的文本特征選擇方法[J]. 祝翠玲,馬軍,張冬梅. 模式識(shí)別與人工智能. 2011(01)
[3]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江. 計(jì)算機(jī)應(yīng)用. 2009(S1)
[4]中文文本分類(lèi)中的特征選擇研究[J]. 周茜,趙明生,扈旻. 中文信息學(xué)報(bào). 2004(03)
[5]最優(yōu)特征子集選擇問(wèn)題[J]. 陳彬,洪家榮,王亞?wèn)|. 計(jì)算機(jī)學(xué)報(bào). 1997(02)
[6]模式識(shí)別中的特征選擇方法[J]. 楊喜壽. 信息與控制. 1987(05)
[7]模式識(shí)別中歐氏距離特征選擇新方法[J]. 宣國(guó)榮. 計(jì)算機(jī)應(yīng)用與軟件. 1985(06)
本文編號(hào):2972944
【文章來(lái)源】:西安理工大學(xué)陜西省
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-2支持向量機(jī)Fig.2-2SupportVectorMachine
發(fā)現(xiàn)詞條2t 、3t 和4t 的正負(fù)類(lèi)差值的影響因子,即 tpr 最小值的影響,我們可以選出詞條 更具有區(qū)分能力,這些?梢钥闯觯琋DM 算法避免了高頻詞與低頻詞具有相據(jù)集中也可以看出,當(dāng)我們使用 NDM 算法時(shí),1t ,3t 和個(gè)詞條更具有區(qū)分能力。圖 3-1 顯示了 NDM 等值線(xiàn),顏關(guān)于對(duì)角線(xiàn)對(duì)稱(chēng),可以看出,在該算法中仍然存在大量的特征排序,所以 NDM 算法具有一定的局限性。表 3-1 歸一化差值測(cè)量法的樣本數(shù)據(jù)集Tab.3-1 The Sample Data Set of Normalized Difference Measure詞條1t2t3t4tr0.32 0.1 0.5 0.8r0.2 0.4 0.8 0.5 fpr0.12 0.3 0.3 0.3M0.6 3.0 0.6 0.6
圖 3-2 WAP 數(shù)據(jù)集中 NB 分類(lèi)器上的性能曲線(xiàn)Fig.3-2 Performance Curve on WAP Data Set for NB圖 3-3 顯示了六種不同特征選擇算法在 WAP 數(shù)據(jù)集上使用支持向量機(jī)分類(lèi)器時(shí)Macro-F1 值和 Micro-F1 值的變化趨勢(shì)。從圖 3-3(a)中可以看出,本章提出的 TF-NDM算法僅在特征維度為50的情況下,Macro-F1值不是最高的,在其他維度下都是最優(yōu)秀的。從圖 3-3(b)中可以看出,TF-NDM 的 Micro-F1 值在 20、50 和 500 維度下不是最優(yōu)秀的,在其他維度下表現(xiàn)優(yōu)秀。從圖 3-3 中可以看出,在使用支持向量機(jī)分類(lèi)算法時(shí),TF-NDM相比其他特征選擇算法 Macro-F1 和 Micro-F1 值都提高的并不多,但是所有算法的Macro-F1 和 Micro-F1 值隨著特征詞數(shù)量的增多而增大。
【參考文獻(xiàn)】:
期刊論文
[1]基于詞干的混合策略維吾爾語(yǔ)文本聚類(lèi)特征選擇方法研究[J]. 劉源,吐?tīng)柛ひ啦祭?阿力木江·艾沙,張亞軍. 計(jì)算機(jī)應(yīng)用與軟件. 2012(12)
[2]面向?qū)哟畏诸?lèi)的文本特征選擇方法[J]. 祝翠玲,馬軍,張冬梅. 模式識(shí)別與人工智能. 2011(01)
[3]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江. 計(jì)算機(jī)應(yīng)用. 2009(S1)
[4]中文文本分類(lèi)中的特征選擇研究[J]. 周茜,趙明生,扈旻. 中文信息學(xué)報(bào). 2004(03)
[5]最優(yōu)特征子集選擇問(wèn)題[J]. 陳彬,洪家榮,王亞?wèn)|. 計(jì)算機(jī)學(xué)報(bào). 1997(02)
[6]模式識(shí)別中的特征選擇方法[J]. 楊喜壽. 信息與控制. 1987(05)
[7]模式識(shí)別中歐氏距離特征選擇新方法[J]. 宣國(guó)榮. 計(jì)算機(jī)應(yīng)用與軟件. 1985(06)
本文編號(hào):2972944
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2972944.html
最近更新
教材專(zhuān)著