天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于文檔層詞頻重排序的特征選擇方法的研究與應(yīng)用

發(fā)布時(shí)間:2021-01-12 13:36
  隨著信息技術(shù)的快速發(fā)展,文本數(shù)據(jù)量不斷增長,如何高效、準(zhǔn)確地定位有效信息成為當(dāng)今時(shí)代下的迫切需求。文本分類作為信息處理的核心技術(shù)成為解決這類問題的關(guān)鍵手段。在文本分類過程中,高維數(shù)據(jù)容易引起分類過程中的維度災(zāi)難,特征選擇是解決維度災(zāi)難,實(shí)現(xiàn)維數(shù)約減的有效方法,因此論文以文本分類過程中的特征選擇方法作為主要研究內(nèi)容。論文首先簡要概述了文本分類技術(shù),并介紹了其詳細(xì)過程,在每個(gè)步驟中都列舉了一些常用的方法。其次為解決文本分類過程中的維度災(zāi)難,提出了兩種新的特征選擇算法。(1)提出一種基于NDM改進(jìn)的特征選擇算法(T F-NDM)。通過分析常見的特征選擇算法,發(fā)現(xiàn)大部分算法都依賴于文檔頻率,未考慮詞條頻率,因此本文以表現(xiàn)優(yōu)秀的NDM算法的文檔頻率為基礎(chǔ),引入詞頻權(quán)重,充分考慮類別信息和詞條占比的情況。最后通過在五個(gè)數(shù)據(jù)集上不同的實(shí)驗(yàn)結(jié)果證明,T F-N DM算法性能良好,能夠有效地提高分類性能。(2)提出一種基于文檔專一化和詞條多樣化的特征選擇算法(D S T D)。該算法在宏觀上統(tǒng)一文檔頻率的多種計(jì)算方式,在微觀上從多個(gè)角度考慮了詞條分布的情況,提出文檔專一性和詞條多樣性兩個(gè)全新的影響因子。... 

【文章來源】:西安理工大學(xué)陜西省

【文章頁數(shù)】:58 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于文檔層詞頻重排序的特征選擇方法的研究與應(yīng)用


圖2-2支持向量機(jī)Fig.2-2SupportVectorMachine

等值線圖,等值線,詞條,算法


發(fā)現(xiàn)詞條2t 、3t 和4t 的正負(fù)類差值的影響因子,即 tpr 最小值的影響,我們可以選出詞條 更具有區(qū)分能力,這些?梢钥闯,NDM 算法避免了高頻詞與低頻詞具有相據(jù)集中也可以看出,當(dāng)我們使用 NDM 算法時(shí),1t ,3t 和個(gè)詞條更具有區(qū)分能力。圖 3-1 顯示了 NDM 等值線,顏關(guān)于對(duì)角線對(duì)稱,可以看出,在該算法中仍然存在大量的特征排序,所以 NDM 算法具有一定的局限性。表 3-1 歸一化差值測量法的樣本數(shù)據(jù)集Tab.3-1 The Sample Data Set of Normalized Difference Measure詞條1t2t3t4tr0.32 0.1 0.5 0.8r0.2 0.4 0.8 0.5 fpr0.12 0.3 0.3 0.3M0.6 3.0 0.6 0.6

性能曲線,數(shù)據(jù)集中,分類器,性能曲線


圖 3-2 WAP 數(shù)據(jù)集中 NB 分類器上的性能曲線Fig.3-2 Performance Curve on WAP Data Set for NB圖 3-3 顯示了六種不同特征選擇算法在 WAP 數(shù)據(jù)集上使用支持向量機(jī)分類器時(shí)Macro-F1 值和 Micro-F1 值的變化趨勢。從圖 3-3(a)中可以看出,本章提出的 TF-NDM算法僅在特征維度為50的情況下,Macro-F1值不是最高的,在其他維度下都是最優(yōu)秀的。從圖 3-3(b)中可以看出,TF-NDM 的 Micro-F1 值在 20、50 和 500 維度下不是最優(yōu)秀的,在其他維度下表現(xiàn)優(yōu)秀。從圖 3-3 中可以看出,在使用支持向量機(jī)分類算法時(shí),TF-NDM相比其他特征選擇算法 Macro-F1 和 Micro-F1 值都提高的并不多,但是所有算法的Macro-F1 和 Micro-F1 值隨著特征詞數(shù)量的增多而增大。

【參考文獻(xiàn)】:
期刊論文
[1]基于詞干的混合策略維吾爾語文本聚類特征選擇方法研究[J]. 劉源,吐爾根·依布拉音,阿力木江·艾沙,張亞軍.  計(jì)算機(jī)應(yīng)用與軟件. 2012(12)
[2]面向?qū)哟畏诸惖奈谋咎卣鬟x擇方法[J]. 祝翠玲,馬軍,張冬梅.  模式識(shí)別與人工智能. 2011(01)
[3]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江.  計(jì)算機(jī)應(yīng)用. 2009(S1)
[4]中文文本分類中的特征選擇研究[J]. 周茜,趙明生,扈旻.  中文信息學(xué)報(bào). 2004(03)
[5]最優(yōu)特征子集選擇問題[J]. 陳彬,洪家榮,王亞東.  計(jì)算機(jī)學(xué)報(bào). 1997(02)
[6]模式識(shí)別中的特征選擇方法[J]. 楊喜壽.  信息與控制. 1987(05)
[7]模式識(shí)別中歐氏距離特征選擇新方法[J]. 宣國榮.  計(jì)算機(jī)應(yīng)用與軟件. 1985(06)



本文編號(hào):2972944

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2972944.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶77296***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com