文本分類(lèi)中特征降維算法的研究與應(yīng)用
發(fā)布時(shí)間:2021-06-22 22:00
近年來(lái),由于互聯(lián)網(wǎng)數(shù)據(jù)大規(guī)模增長(zhǎng)而導(dǎo)致文本數(shù)據(jù)的高維稀疏性,為文本分類(lèi)技術(shù)發(fā)展帶來(lái)了嚴(yán)峻的挑戰(zhàn)。因此,為應(yīng)對(duì)爆炸式數(shù)據(jù)增長(zhǎng)問(wèn)題,數(shù)據(jù)特征降維算法成為國(guó)內(nèi)外學(xué)術(shù)界日益研究的熱點(diǎn)之一。特征降維,即從特征集合中挑選或抽取與類(lèi)別相關(guān)性強(qiáng)、特征間冗余度小的特征子集,降低特征空間維度,對(duì)文本分類(lèi)技術(shù)的優(yōu)化具有不可忽視的作用。目前,特征降維主要分為三類(lèi),過(guò)濾式、封裝式和嵌入式方法。過(guò)濾式方法計(jì)算效率高,特征評(píng)價(jià)模型簡(jiǎn)單,但只關(guān)注單個(gè)特征,忽略了不同特征之間結(jié)合可能帶來(lái)更好效果的可能性。而封裝式方法盡管能夠產(chǎn)生對(duì)分類(lèi)精度具有較高價(jià)值的特征集,但由于其較高的計(jì)算成本,而難以得到廣泛的應(yīng)用。因此,本文通過(guò)研究分析聚類(lèi)有效性指標(biāo)在文本分類(lèi)中的應(yīng)用,提出一種基于聚類(lèi)有效性指標(biāo)的特征降維算法(WB-Index Sequential Forward Selection WBI-SFS)。由于WBI-SFS算法不依賴特定的分類(lèi)器評(píng)估特征子集,因此屬于一種過(guò)濾式特征選擇算法。WBI-SFS算法既有過(guò)濾式算法的短時(shí)間開(kāi)銷(xiāo)特點(diǎn),又具有較高分類(lèi)精度,兩者兼?zhèn)。WBI-SFS算法的主要?jiǎng)?chuàng)新點(diǎn)有兩個(gè):第一,利用高效、線性的聚類(lèi)...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 國(guó)外研究現(xiàn)狀
1.2.2 國(guó)內(nèi)研究現(xiàn)狀
1.3 研究?jī)?nèi)容
1.4 論文的結(jié)構(gòu)安排
第二章 文本分類(lèi)理論概述
2.1 文本分類(lèi)相關(guān)理論
2.1.1 文本分類(lèi)概念
2.1.2 文本模型表示
2.1.3 文本分類(lèi)過(guò)程
2.2 特征處理
2.2.1 特征降維綜述
2.2.2 特征降維分類(lèi)
2.3 文本分類(lèi)模型
2.3.1 分類(lèi)流程
2.3.2 常用的分類(lèi)算法
2.4 分類(lèi)性能評(píng)價(jià)指標(biāo)
2.4.1 召回率和精確率
2.4.2 宏平均值和微平均值
2.4.3 交叉驗(yàn)證
2.5 本章小結(jié)
第三章 基于聚類(lèi)評(píng)價(jià)指標(biāo)的特征降維算法
3.1 聚類(lèi)有效性概述
3.1.1 聚類(lèi)有效性指標(biāo)分類(lèi)
3.1.2 非模糊聚類(lèi)算法評(píng)估指標(biāo)介紹
3.2 常用的特征選擇算法
3.2.1 過(guò)濾式特征選擇
3.2.2 封裝式特征選擇
3.2.3 嵌入式特征選擇
3.3 聚類(lèi)有效性指標(biāo)在降維算法中的應(yīng)用
3.4 WBI-SFS特征選擇算法
3.4.1 聚類(lèi)有效性指標(biāo)WB-index指標(biāo)
3.4.2 WBI-SFS算法原理
3.4.3 WBI-SFS算法流程
3.5 本章小結(jié)
第四章 WBI-SFS算法實(shí)驗(yàn)及分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集
4.2 文本分類(lèi)實(shí)驗(yàn)設(shè)計(jì)與分析
4.2.1 實(shí)驗(yàn)設(shè)計(jì)
4.2.2 實(shí)驗(yàn)結(jié)果與分析
4.3 非文本實(shí)驗(yàn)設(shè)計(jì)與分析
4.3.1 實(shí)驗(yàn)設(shè)計(jì)
4.3.2 實(shí)驗(yàn)結(jié)果與分析
4.4 實(shí)驗(yàn)結(jié)論
4.5 本章小結(jié)
第五章 “凈云”網(wǎng)絡(luò)凈化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
5.1 系統(tǒng)設(shè)計(jì)背景
5.2 系統(tǒng)需求分析
5.2.1 傳統(tǒng)網(wǎng)絡(luò)凈化系統(tǒng)分析
5.2.2 功能性需求分析
5.2.3 非功能性需求分析
5.3 “凈云”網(wǎng)絡(luò)凈化系統(tǒng)總體架構(gòu)
5.4 NEPS服務(wù)器設(shè)計(jì)
5.5 功能模塊劃分
5.5.2 內(nèi)容識(shí)別模塊
5.5.3 黑白名單管理模塊
5.5.4 用戶管理模塊
5.6 數(shù)據(jù)庫(kù)設(shè)計(jì)
5.7 系統(tǒng)測(cè)試
5.7.1 核心分類(lèi)器測(cè)試
5.7.2 ”凈云“網(wǎng)絡(luò)凈化系統(tǒng)測(cè)試
5.8 本章小結(jié)
第六章 總結(jié)和展望
6.1 全文總結(jié)
6.2 研究前景與展望
致謝
參考文獻(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]《機(jī)器學(xué)習(xí)》[J]. 周志華. 中國(guó)民商. 2016(03)
[2]使用優(yōu)化模擬退火算法的文本特征選擇[J]. 朱顥東,鐘勇. 計(jì)算機(jī)工程與應(yīng)用. 2010(04)
[3]高維數(shù)據(jù)特征降維研究綜述[J]. 胡潔. 計(jì)算機(jī)應(yīng)用研究. 2008(09)
[4]基于改進(jìn)KNN的文本分類(lèi)方法[J]. 錢(qián)曉東,王正歐. 情報(bào)科學(xué). 2005(04)
[5]使用最大熵模型進(jìn)行中文文本分類(lèi)[J]. 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā). 計(jì)算機(jī)研究與發(fā)展. 2005(01)
[6]多層次特定類(lèi)型圖像過(guò)濾方法[J]. 段立娟,崔國(guó)勤,高文,張洪明. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2002(05)
[7]基于Ngram信息的中文文檔分類(lèi)研究[J]. 周水庚,關(guān)佶紅,俞紅奇,胡運(yùn)發(fā). 中文信息學(xué)報(bào). 2001(01)
本文編號(hào):3243598
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 國(guó)外研究現(xiàn)狀
1.2.2 國(guó)內(nèi)研究現(xiàn)狀
1.3 研究?jī)?nèi)容
1.4 論文的結(jié)構(gòu)安排
第二章 文本分類(lèi)理論概述
2.1 文本分類(lèi)相關(guān)理論
2.1.1 文本分類(lèi)概念
2.1.2 文本模型表示
2.1.3 文本分類(lèi)過(guò)程
2.2 特征處理
2.2.1 特征降維綜述
2.2.2 特征降維分類(lèi)
2.3 文本分類(lèi)模型
2.3.1 分類(lèi)流程
2.3.2 常用的分類(lèi)算法
2.4 分類(lèi)性能評(píng)價(jià)指標(biāo)
2.4.1 召回率和精確率
2.4.2 宏平均值和微平均值
2.4.3 交叉驗(yàn)證
2.5 本章小結(jié)
第三章 基于聚類(lèi)評(píng)價(jià)指標(biāo)的特征降維算法
3.1 聚類(lèi)有效性概述
3.1.1 聚類(lèi)有效性指標(biāo)分類(lèi)
3.1.2 非模糊聚類(lèi)算法評(píng)估指標(biāo)介紹
3.2 常用的特征選擇算法
3.2.1 過(guò)濾式特征選擇
3.2.2 封裝式特征選擇
3.2.3 嵌入式特征選擇
3.3 聚類(lèi)有效性指標(biāo)在降維算法中的應(yīng)用
3.4 WBI-SFS特征選擇算法
3.4.1 聚類(lèi)有效性指標(biāo)WB-index指標(biāo)
3.4.2 WBI-SFS算法原理
3.4.3 WBI-SFS算法流程
3.5 本章小結(jié)
第四章 WBI-SFS算法實(shí)驗(yàn)及分析
4.1 實(shí)驗(yàn)數(shù)據(jù)集
4.2 文本分類(lèi)實(shí)驗(yàn)設(shè)計(jì)與分析
4.2.1 實(shí)驗(yàn)設(shè)計(jì)
4.2.2 實(shí)驗(yàn)結(jié)果與分析
4.3 非文本實(shí)驗(yàn)設(shè)計(jì)與分析
4.3.1 實(shí)驗(yàn)設(shè)計(jì)
4.3.2 實(shí)驗(yàn)結(jié)果與分析
4.4 實(shí)驗(yàn)結(jié)論
4.5 本章小結(jié)
第五章 “凈云”網(wǎng)絡(luò)凈化系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
5.1 系統(tǒng)設(shè)計(jì)背景
5.2 系統(tǒng)需求分析
5.2.1 傳統(tǒng)網(wǎng)絡(luò)凈化系統(tǒng)分析
5.2.2 功能性需求分析
5.2.3 非功能性需求分析
5.3 “凈云”網(wǎng)絡(luò)凈化系統(tǒng)總體架構(gòu)
5.4 NEPS服務(wù)器設(shè)計(jì)
5.5 功能模塊劃分
5.5.2 內(nèi)容識(shí)別模塊
5.5.3 黑白名單管理模塊
5.5.4 用戶管理模塊
5.6 數(shù)據(jù)庫(kù)設(shè)計(jì)
5.7 系統(tǒng)測(cè)試
5.7.1 核心分類(lèi)器測(cè)試
5.7.2 ”凈云“網(wǎng)絡(luò)凈化系統(tǒng)測(cè)試
5.8 本章小結(jié)
第六章 總結(jié)和展望
6.1 全文總結(jié)
6.2 研究前景與展望
致謝
參考文獻(xiàn)
【參考文獻(xiàn)】:
期刊論文
[1]《機(jī)器學(xué)習(xí)》[J]. 周志華. 中國(guó)民商. 2016(03)
[2]使用優(yōu)化模擬退火算法的文本特征選擇[J]. 朱顥東,鐘勇. 計(jì)算機(jī)工程與應(yīng)用. 2010(04)
[3]高維數(shù)據(jù)特征降維研究綜述[J]. 胡潔. 計(jì)算機(jī)應(yīng)用研究. 2008(09)
[4]基于改進(jìn)KNN的文本分類(lèi)方法[J]. 錢(qián)曉東,王正歐. 情報(bào)科學(xué). 2005(04)
[5]使用最大熵模型進(jìn)行中文文本分類(lèi)[J]. 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā). 計(jì)算機(jī)研究與發(fā)展. 2005(01)
[6]多層次特定類(lèi)型圖像過(guò)濾方法[J]. 段立娟,崔國(guó)勤,高文,張洪明. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2002(05)
[7]基于Ngram信息的中文文檔分類(lèi)研究[J]. 周水庚,關(guān)佶紅,俞紅奇,胡運(yùn)發(fā). 中文信息學(xué)報(bào). 2001(01)
本文編號(hào):3243598
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3243598.html
最近更新
教材專著