基于改進(jìn)貝葉斯算法的中文信息分類研究
【文章頁(yè)數(shù)】:85 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1一1單一模型方法具體內(nèi)容
Learning?Weighted?Naive?研究如何從數(shù)據(jù)中學(xué)習(xí)具有因排Bayes?with?Accurate?精確排序的加權(quán)樸素貝葉?耗時(shí)Ranking?斯,提出了一種利用增益比??計(jì)算特征權(quán)重的方法1411??貝葉斯分類研究現(xiàn)狀??算法作為一種簡(jiǎn)單而有效的分類方法,在許多....
圖2-丨文本分類四大階段??第一階段是文本表示階段,主要內(nèi)容是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理、特征處理等??操作,目的是將文本表示成計(jì)算機(jī)能夠識(shí)別的向量格式[53]
文本表示模型、文本分類算法、交叉驗(yàn)證及效果評(píng)價(jià)。??2.1文本分類流程??一般來(lái)說(shuō),一個(gè)完整的中文信息分類由四個(gè)階段組成[521如圖2-1所示。?????1?|?|訓(xùn)練過(guò)程 ̄??J—????1?1??q預(yù)處理?H特征處理昀文術(shù)??^?f?IS:?f=,?!??..文術(shù)1?學(xué)習(xí)c=....
圖2一3KNN分類示例{胡
K-最近鄰算法是一種考慮到基本識(shí)別問(wèn)題的非常簡(jiǎn)單的分類器,由于性、非參數(shù)性和易于實(shí)現(xiàn)的特性,在許多應(yīng)用中得到了嘗試,但是分類時(shí)很難找到K的最優(yōu)值。K的最佳選擇和數(shù)據(jù)息息相關(guān),一般來(lái)說(shuō),K值越噪聲對(duì)分類的影響越小,但是類之間的邊界越不明顯。為了克服這一缺點(diǎn),采用各種啟發(fā)式技術(shù)來(lái)選擇....
圖2一5決策樹(shù)分類示樹(shù)l閉
葉節(jié)點(diǎn)?葉節(jié)點(diǎn)?葉節(jié)點(diǎn)?葉節(jié)點(diǎn)?葉節(jié)點(diǎn)??圖2-4決策樹(shù)分類原理??決策樹(shù)本質(zhì)上是訓(xùn)練數(shù)據(jù)空間的分層分解,其中使用屬性值或條件來(lái)分?jǐn)?shù)據(jù)空間。在決策樹(shù)中遞歸地執(zhí)行數(shù)據(jù)空間的劃分,直到葉節(jié)點(diǎn)包含特量的記錄,或類的一些條件。葉節(jié)點(diǎn)中的多數(shù)類標(biāo)簽(或成本加權(quán)多數(shù)標(biāo)分類。為了進(jìn)一步減少過(guò)擬....
本文編號(hào):3898543
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3898543.html