當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于改進(jìn)貝葉斯算法的中文信息分類研究

發(fā)布時(shí)間：2024-02-14 20:10

　　隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了成千上萬(wàn)的新文本。大多數(shù)數(shù)據(jù)以文本的形式存儲(chǔ),數(shù)據(jù)呈指數(shù)增長(zhǎng),這些條件可能會(huì)導(dǎo)致我們進(jìn)入信息爆炸時(shí)代。要管理如此龐大的文本量,文本分類問(wèn)題亟待解決。其次,基于樸素貝葉斯的文本分類是建立在條件獨(dú)立性假設(shè)的基礎(chǔ)上的,這與現(xiàn)實(shí)不符。在眾多通過(guò)弱化特征獨(dú)立性假設(shè)來(lái)提高其準(zhǔn)確性的建議中,特征加權(quán)方法受到的關(guān)注較少。而且,現(xiàn)有的特征加權(quán)方法都只是將學(xué)習(xí)到的特征權(quán)重合并到樸素貝葉斯公式中,根本沒(méi)有將學(xué)習(xí)到的特征權(quán)重合并到其條件概率中。因此,本論文從特征加權(quán)的角度出發(fā),提出了基于詞頻-逆文檔頻率特征權(quán)重和等級(jí)因子特征權(quán)重的貝葉斯算法,并將它應(yīng)用到中文文本分類中,可以有效地管理龐大而復(fù)雜的數(shù)據(jù),協(xié)助人們快速的查找信息并節(jié)約時(shí)間成本。本文的主要研究?jī)?nèi)容如下:(1)對(duì)文本分類中常用的樸素貝葉斯、KNN、支持向量機(jī)三種方法進(jìn)行了比較。通過(guò)研究和實(shí)驗(yàn),其結(jié)果說(shuō)明樸素貝葉斯算法是中文文本分類中效果最佳的算法。(2)提出了一種基于詞頻-逆文檔頻率特征權(quán)重和等級(jí)因子特征權(quán)重的樸素貝葉斯算法—特征加權(quán)樸素貝葉斯算法。該算法將詞頻-逆文檔頻率特征權(quán)重合并到貝葉斯的條件概率公式中,其次將由...

【文章頁(yè)數(shù)】：85 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖1一1單一模型方法具體內(nèi)容

Ｌｅａｒｎｉｎｇ?Ｗｅｉｇｈｔｅｄ?Ｎａｉｖｅ?研究如何從數(shù)據(jù)中學(xué)習(xí)具有因排Ｂａｙｅｓ?ｗｉｔｈ?Ａｃｃｕｒａｔｅ?精確排序的加權(quán)樸素貝葉?耗時(shí)Ｒａｎｋｉｎｇ?斯，提出了一種利用增益比??計(jì)算特征權(quán)重的方法１４１１??貝葉斯分類研究現(xiàn)狀??算法作為一種簡(jiǎn)單而有效的分類方法，在許多....

圖２－丨文本分類四大階段??第一階段是文本表示階段，主要內(nèi)容是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理、特征處理等??操作，目的是將文本表示成計(jì)算機(jī)能夠識(shí)別的向量格式［５３］

文本表示模型、文本分類算法、交叉驗(yàn)證及效果評(píng)價(jià)。??２．１文本分類流程??一般來(lái)說(shuō)，一個(gè)完整的中文信息分類由四個(gè)階段組成［５２１如圖２－１所示。?????１?｜?｜訓(xùn)練過(guò)程￣??Ｊ—????１?１??ｑ預(yù)處理?Ｈ特征處理昀文術(shù)??＾?ｆ?ＩＳ：?ｆ＝，?！??．．文術(shù)１?學(xué)習(xí)ｃ＝....

圖2一3KNN分類示例{胡

Ｋ－最近鄰算法是一種考慮到基本識(shí)別問(wèn)題的非常簡(jiǎn)單的分類器，由于性、非參數(shù)性和易于實(shí)現(xiàn)的特性，在許多應(yīng)用中得到了嘗試，但是分類時(shí)很難找到Ｋ的最優(yōu)值。Ｋ的最佳選擇和數(shù)據(jù)息息相關(guān)，一般來(lái)說(shuō)，Ｋ值越噪聲對(duì)分類的影響越小，但是類之間的邊界越不明顯。為了克服這一缺點(diǎn)，采用各種啟發(fā)式技術(shù)來(lái)選擇....

圖2一5決策樹(shù)分類示樹(shù)l閉

葉節(jié)點(diǎn)?葉節(jié)點(diǎn)?葉節(jié)點(diǎn)?葉節(jié)點(diǎn)?葉節(jié)點(diǎn)??圖２－４決策樹(shù)分類原理??決策樹(shù)本質(zhì)上是訓(xùn)練數(shù)據(jù)空間的分層分解，其中使用屬性值或條件來(lái)分?jǐn)?shù)據(jù)空間。在決策樹(shù)中遞歸地執(zhí)行數(shù)據(jù)空間的劃分，直到葉節(jié)點(diǎn)包含特量的記錄，或類的一些條件。葉節(jié)點(diǎn)中的多數(shù)類標(biāo)簽（或成本加權(quán)多數(shù)標(biāo)分類。為了進(jìn)一步減少過(guò)擬....

本文編號(hào)：3898543

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3898543.html

上一篇：通信受限下的分布式一致及優(yōu)化問(wèn)題研究
下一篇：基于改進(jìn)SSD模型面向中小目標(biāo)的檢測(cè)研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于改進(jìn)貝葉斯算法的中文信息分類研究