天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

文本分類中特征降維算法的研究與應(yīng)用

發(fā)布時(shí)間:2021-06-22 22:00
  近年來(lái),由于互聯(lián)網(wǎng)數(shù)據(jù)大規(guī)模增長(zhǎng)而導(dǎo)致文本數(shù)據(jù)的高維稀疏性,為文本分類技術(shù)發(fā)展帶來(lái)了嚴(yán)峻的挑戰(zhàn)。因此,為應(yīng)對(duì)爆炸式數(shù)據(jù)增長(zhǎng)問(wèn)題,數(shù)據(jù)特征降維算法成為國(guó)內(nèi)外學(xué)術(shù)界日益研究的熱點(diǎn)之一。特征降維,即從特征集合中挑選或抽取與類別相關(guān)性強(qiáng)、特征間冗余度小的特征子集,降低特征空間維度,對(duì)文本分類技術(shù)的優(yōu)化具有不可忽視的作用。目前,特征降維主要分為三類,過(guò)濾式、封裝式和嵌入式方法。過(guò)濾式方法計(jì)算效率高,特征評(píng)價(jià)模型簡(jiǎn)單,但只關(guān)注單個(gè)特征,忽略了不同特征之間結(jié)合可能帶來(lái)更好效果的可能性。而封裝式方法盡管能夠產(chǎn)生對(duì)分類精度具有較高價(jià)值的特征集,但由于其較高的計(jì)算成本,而難以得到廣泛的應(yīng)用。因此,本文通過(guò)研究分析聚類有效性指標(biāo)在文本分類中的應(yīng)用,提出一種基于聚類有效性指標(biāo)的特征降維算法(WB-Index Sequential Forward Selection WBI-SFS)。由于WBI-SFS算法不依賴特定的分類器評(píng)估特征子集,因此屬于一種過(guò)濾式特征選擇算法。WBI-SFS算法既有過(guò)濾式算法的短時(shí)間開(kāi)銷特點(diǎn),又具有較高分類精度,兩者兼?zhèn)。WBI-SFS算法的主要?jiǎng)?chuàng)新點(diǎn)有兩個(gè):第一,利用高效、線性的聚類... 

【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:82 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究背景與意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
        1.2.1 國(guó)外研究現(xiàn)狀
        1.2.2 國(guó)內(nèi)研究現(xiàn)狀
    1.3 研究?jī)?nèi)容
    1.4 論文的結(jié)構(gòu)安排
第二章 文本分類理論概述
    2.1 文本分類相關(guān)理論
        2.1.1 文本分類概念
        2.1.2 文本模型表示
        2.1.3 文本分類過(guò)程
    2.2 特征處理
        2.2.1 特征降維綜述
        2.2.2 特征降維分類
    2.3 文本分類模型
        2.3.1 分類流程
        2.3.2 常用的分類算法
    2.4 分類性能評(píng)價(jià)指標(biāo)
        2.4.1 召回率和精確率
        2.4.2 宏平均值和微平均值
        2.4.3 交叉驗(yàn)證
    2.5 本章小結(jié)
第三章 基于聚類評(píng)價(jià)指標(biāo)的特征降維算法
    3.1 聚類有效性概述
        3.1.1 聚類有效性指標(biāo)分類
        3.1.2 非模糊聚類算法評(píng)估指標(biāo)介紹
    3.2 常用的特征選擇算法
        3.2.1 過(guò)濾式特征選擇
        3.2.2 封裝式特征選擇
        3.2.3 嵌入式特征選擇
    3.3 聚類有效性指標(biāo)在降維算法中的應(yīng)用
    3.4 WBI-SFS特征選擇算法
        3.4.1 聚類有效性指標(biāo)WB-index指標(biāo)
        3.4.2 WBI-SFS算法原理
        3.4.3 WBI-SFS算法流程
    3.5 本章小結(jié)
第四章 WBI-SFS算法實(shí)驗(yàn)及分析
    4.1 實(shí)驗(yàn)數(shù)據(jù)集
    4.2 文本分類實(shí)驗(yàn)設(shè)計(jì)與分析
        4.2.1 實(shí)驗(yàn)設(shè)計(jì)
        4.2.2 實(shí)驗(yàn)結(jié)果與分析
    4.3 非文本實(shí)驗(yàn)設(shè)計(jì)與分析
        4.3.1 實(shí)驗(yàn)設(shè)計(jì)
        4.3.2 實(shí)驗(yàn)結(jié)果與分析
    4.4 實(shí)驗(yàn)結(jié)論
    4.5 本章小結(jié)
第五章 “凈云”網(wǎng)絡(luò)凈化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    5.1 系統(tǒng)設(shè)計(jì)背景
    5.2 系統(tǒng)需求分析
        5.2.1 傳統(tǒng)網(wǎng)絡(luò)凈化系統(tǒng)分析
        5.2.2 功能性需求分析
        5.2.3 非功能性需求分析
    5.3 “凈云”網(wǎng)絡(luò)凈化系統(tǒng)總體架構(gòu)
    5.4 NEPS服務(wù)器設(shè)計(jì)
    5.5 功能模塊劃分
        5.5.2 內(nèi)容識(shí)別模塊
        5.5.3 黑白名單管理模塊
        5.5.4 用戶管理模塊
    5.6 數(shù)據(jù)庫(kù)設(shè)計(jì)
    5.7 系統(tǒng)測(cè)試
        5.7.1 核心分類器測(cè)試
        5.7.2 ”凈云“網(wǎng)絡(luò)凈化系統(tǒng)測(cè)試
    5.8 本章小結(jié)
第六章 總結(jié)和展望
    6.1 全文總結(jié)
    6.2 研究前景與展望
致謝
參考文獻(xiàn)


【參考文獻(xiàn)】:
期刊論文
[1]《機(jī)器學(xué)習(xí)》[J]. 周志華.  中國(guó)民商. 2016(03)
[2]使用優(yōu)化模擬退火算法的文本特征選擇[J]. 朱顥東,鐘勇.  計(jì)算機(jī)工程與應(yīng)用. 2010(04)
[3]高維數(shù)據(jù)特征降維研究綜述[J]. 胡潔.  計(jì)算機(jī)應(yīng)用研究. 2008(09)
[4]基于改進(jìn)KNN的文本分類方法[J]. 錢曉東,王正歐.  情報(bào)科學(xué). 2005(04)
[5]使用最大熵模型進(jìn)行中文文本分類[J]. 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā).  計(jì)算機(jī)研究與發(fā)展. 2005(01)
[6]多層次特定類型圖像過(guò)濾方法[J]. 段立娟,崔國(guó)勤,高文,張洪明.  計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2002(05)
[7]基于Ngram信息的中文文檔分類研究[J]. 周水庚,關(guān)佶紅,俞紅奇,胡運(yùn)發(fā).  中文信息學(xué)報(bào). 2001(01)



本文編號(hào):3243598

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3243598.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b8046***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com