基于改進(jìn)粗糙集模型的文本分類方法優(yōu)化研究
發(fā)布時(shí)間:2024-03-18 18:44
文本分類是指按照一定的分類體系或標(biāo)準(zhǔn)將未知文本區(qū)分一個(gè)或多個(gè)類別的過(guò)程.當(dāng)前文本數(shù)據(jù)逐步呈現(xiàn)出海量、多元、易變等新特性,給文本分類技術(shù)帶來(lái)巨大挑戰(zhàn).粗糙集在處理數(shù)據(jù)的不確定性和模糊性等問(wèn)題上,具有天然的優(yōu)勢(shì),其主要思想是在不削減分類能力的前提下,通過(guò)屬性約簡(jiǎn)得到基本的決策和分類規(guī)則.針對(duì)上述相關(guān)問(wèn)題,本文通過(guò)對(duì)粗糙集的研究,結(jié)合文本分類現(xiàn)有的技術(shù),提出了一種新的文本分類方法.具體研究工作如下:首先,通過(guò)對(duì)差異關(guān)系的研究,本文提出了改進(jìn)的差異關(guān)系和限制差異關(guān)系.在構(gòu)建關(guān)系的過(guò)程中,結(jié)合容差粗糙集的邊界控制理念,重新定義了屬性間差異度的概念.基于改進(jìn)的差異關(guān)系,構(gòu)建了不完備信息系統(tǒng)中的拓展粗糙集模型,一定程度上解決了粗糙集知識(shí)粒度過(guò)粗和經(jīng)典粗糙集對(duì)復(fù)雜數(shù)據(jù)處理的局限性等問(wèn)題.其次,在改進(jìn)差異關(guān)系上引入采用錯(cuò)誤分類率的變精度粗糙集,構(gòu)建了改進(jìn)差異關(guān)系的變精度粗糙集模型,較好地解決了數(shù)據(jù)中存在的噪聲問(wèn)題.較傳統(tǒng)的變精度粗糙集,提高了粗糙集的分類精度,分類結(jié)果更加合理、精確.在改進(jìn)粗糙集的基礎(chǔ)上提出了改進(jìn)的屬性約簡(jiǎn)算法,化解了數(shù)據(jù)的高維危機(jī),提高分類決策能力.采用UCI中的數(shù)據(jù)集開(kāi)展數(shù)值實(shí)驗(yàn),改...
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
本文編號(hào):3931652
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖4-1不同模型下的查準(zhǔn)率
集上的數(shù)值實(shí)驗(yàn)據(jù)庫(kù)中的Irsi數(shù)據(jù),其數(shù)據(jù)類別包含3類,setosa,versic本,每個(gè)樣本有4個(gè)屬性.通過(guò)自助法將初始數(shù)據(jù)集D機(jī)選取,在risi的基礎(chǔ)之上構(gòu)建不完備的數(shù)據(jù)集.通過(guò)樣本集S確定τ=0.45,β=0.92.將測(cè)試集樣本量T....
本文編號(hào):3931652
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3931652.html
最近更新
教材專著