天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于文檔層詞頻重排序的特征選擇方法的研究與應(yīng)用

發(fā)布時(shí)間:2021-01-12 13:36
  隨著信息技術(shù)的快速發(fā)展,文本數(shù)據(jù)量不斷增長(zhǎng),如何高效、準(zhǔn)確地定位有效信息成為當(dāng)今時(shí)代下的迫切需求。文本分類(lèi)作為信息處理的核心技術(shù)成為解決這類(lèi)問(wèn)題的關(guān)鍵手段。在文本分類(lèi)過(guò)程中,高維數(shù)據(jù)容易引起分類(lèi)過(guò)程中的維度災(zāi)難,特征選擇是解決維度災(zāi)難,實(shí)現(xiàn)維數(shù)約減的有效方法,因此論文以文本分類(lèi)過(guò)程中的特征選擇方法作為主要研究?jī)?nèi)容。論文首先簡(jiǎn)要概述了文本分類(lèi)技術(shù),并介紹了其詳細(xì)過(guò)程,在每個(gè)步驟中都列舉了一些常用的方法。其次為解決文本分類(lèi)過(guò)程中的維度災(zāi)難,提出了兩種新的特征選擇算法。(1)提出一種基于NDM改進(jìn)的特征選擇算法(T F-NDM)。通過(guò)分析常見(jiàn)的特征選擇算法,發(fā)現(xiàn)大部分算法都依賴(lài)于文檔頻率,未考慮詞條頻率,因此本文以表現(xiàn)優(yōu)秀的NDM算法的文檔頻率為基礎(chǔ),引入詞頻權(quán)重,充分考慮類(lèi)別信息和詞條占比的情況。最后通過(guò)在五個(gè)數(shù)據(jù)集上不同的實(shí)驗(yàn)結(jié)果證明,T F-N DM算法性能良好,能夠有效地提高分類(lèi)性能。(2)提出一種基于文檔專(zhuān)一化和詞條多樣化的特征選擇算法(D S T D)。該算法在宏觀上統(tǒng)一文檔頻率的多種計(jì)算方式,在微觀上從多個(gè)角度考慮了詞條分布的情況,提出文檔專(zhuān)一性和詞條多樣性?xún)蓚(gè)全新的影響因子。... 

【文章來(lái)源】:西安理工大學(xué)陜西省

【文章頁(yè)數(shù)】:58 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于文檔層詞頻重排序的特征選擇方法的研究與應(yīng)用


圖2-2支持向量機(jī)Fig.2-2SupportVectorMachine

等值線(xiàn)圖,等值線(xiàn),詞條,算法


發(fā)現(xiàn)詞條2t 、3t 和4t 的正負(fù)類(lèi)差值的影響因子,即 tpr 最小值的影響,我們可以選出詞條 更具有區(qū)分能力,這些?梢钥闯觯琋DM 算法避免了高頻詞與低頻詞具有相據(jù)集中也可以看出,當(dāng)我們使用 NDM 算法時(shí),1t ,3t 和個(gè)詞條更具有區(qū)分能力。圖 3-1 顯示了 NDM 等值線(xiàn),顏關(guān)于對(duì)角線(xiàn)對(duì)稱(chēng),可以看出,在該算法中仍然存在大量的特征排序,所以 NDM 算法具有一定的局限性。表 3-1 歸一化差值測(cè)量法的樣本數(shù)據(jù)集Tab.3-1 The Sample Data Set of Normalized Difference Measure詞條1t2t3t4tr0.32 0.1 0.5 0.8r0.2 0.4 0.8 0.5 fpr0.12 0.3 0.3 0.3M0.6 3.0 0.6 0.6

性能曲線(xiàn),數(shù)據(jù)集中,分類(lèi)器,性能曲線(xiàn)


圖 3-2 WAP 數(shù)據(jù)集中 NB 分類(lèi)器上的性能曲線(xiàn)Fig.3-2 Performance Curve on WAP Data Set for NB圖 3-3 顯示了六種不同特征選擇算法在 WAP 數(shù)據(jù)集上使用支持向量機(jī)分類(lèi)器時(shí)Macro-F1 值和 Micro-F1 值的變化趨勢(shì)。從圖 3-3(a)中可以看出,本章提出的 TF-NDM算法僅在特征維度為50的情況下,Macro-F1值不是最高的,在其他維度下都是最優(yōu)秀的。從圖 3-3(b)中可以看出,TF-NDM 的 Micro-F1 值在 20、50 和 500 維度下不是最優(yōu)秀的,在其他維度下表現(xiàn)優(yōu)秀。從圖 3-3 中可以看出,在使用支持向量機(jī)分類(lèi)算法時(shí),TF-NDM相比其他特征選擇算法 Macro-F1 和 Micro-F1 值都提高的并不多,但是所有算法的Macro-F1 和 Micro-F1 值隨著特征詞數(shù)量的增多而增大。

【參考文獻(xiàn)】:
期刊論文
[1]基于詞干的混合策略維吾爾語(yǔ)文本聚類(lèi)特征選擇方法研究[J]. 劉源,吐?tīng)柛ひ啦祭?阿力木江·艾沙,張亞軍.  計(jì)算機(jī)應(yīng)用與軟件. 2012(12)
[2]面向?qū)哟畏诸?lèi)的文本特征選擇方法[J]. 祝翠玲,馬軍,張冬梅.  模式識(shí)別與人工智能. 2011(01)
[3]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江.  計(jì)算機(jī)應(yīng)用. 2009(S1)
[4]中文文本分類(lèi)中的特征選擇研究[J]. 周茜,趙明生,扈旻.  中文信息學(xué)報(bào). 2004(03)
[5]最優(yōu)特征子集選擇問(wèn)題[J]. 陳彬,洪家榮,王亞?wèn)|.  計(jì)算機(jī)學(xué)報(bào). 1997(02)
[6]模式識(shí)別中的特征選擇方法[J]. 楊喜壽.  信息與控制. 1987(05)
[7]模式識(shí)別中歐氏距離特征選擇新方法[J]. 宣國(guó)榮.  計(jì)算機(jī)應(yīng)用與軟件. 1985(06)



本文編號(hào):2972944

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2972944.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)77296***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产免费人成视频尤物| 亚洲最大的中文字幕在线视频 | 日韩免费成人福利在线| 国产精品亚洲欧美一区麻豆 | 欧美日韩综合免费视频| 国产传媒精品视频一区| 精品人妻精品一区二区三区| 亚洲一区二区三区熟女少妇| 黄色美女日本的美女日人| 日本中文在线不卡视频| 深夜福利欲求不满的人妻| 免费国产成人性生活生活片| av国产熟妇露脸在线观看| 国产又大又黄又粗又免费| 亚洲专区中文字幕在线| 色婷婷视频在线精品免费观看| 久久国产精品亚州精品毛片| 精品人妻av区波多野结依| 亚洲精品国产美女久久久99| 日韩女优视频国产一区| 激情中文字幕在线观看 | 91偷拍裸体一区二区三区| 少妇淫真视频一区二区| 日韩中文高清在线专区| 欧美不卡午夜中文字幕| 伊人网免费在线观看高清版| 黄色片国产一区二区三区| 中文字幕乱子论一区二区三区| 成年人免费看国产视频| 欧美日韩国产精品自在自线| 久久亚洲成熟女人毛片| 少妇高潮呻吟浪语91| 欧美日韩亚洲精品在线观看| 欧美日韩高清不卡在线播放| 精品一区二区三区三级视频 | 亚洲第一区二区三区女厕偷拍 | 亚洲中文字幕剧情在线播放| 国产精品一区二区视频| 国产毛片对白精品看片| 我要看日本黄色小视频| 日木乱偷人妻中文字幕在线|