天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于改進(jìn)貝葉斯算法的中文信息分類研究

發(fā)布時(shí)間:2024-02-14 20:10
  隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了成千上萬(wàn)的新文本。大多數(shù)數(shù)據(jù)以文本的形式存儲(chǔ),數(shù)據(jù)呈指數(shù)增長(zhǎng),這些條件可能會(huì)導(dǎo)致我們進(jìn)入信息爆炸時(shí)代。要管理如此龐大的文本量,文本分類問(wèn)題亟待解決。其次,基于樸素貝葉斯的文本分類是建立在條件獨(dú)立性假設(shè)的基礎(chǔ)上的,這與現(xiàn)實(shí)不符。在眾多通過(guò)弱化特征獨(dú)立性假設(shè)來(lái)提高其準(zhǔn)確性的建議中,特征加權(quán)方法受到的關(guān)注較少。而且,現(xiàn)有的特征加權(quán)方法都只是將學(xué)習(xí)到的特征權(quán)重合并到樸素貝葉斯公式中,根本沒(méi)有將學(xué)習(xí)到的特征權(quán)重合并到其條件概率中。因此,本論文從特征加權(quán)的角度出發(fā),提出了基于詞頻-逆文檔頻率特征權(quán)重和等級(jí)因子特征權(quán)重的貝葉斯算法,并將它應(yīng)用到中文文本分類中,可以有效地管理龐大而復(fù)雜的數(shù)據(jù),協(xié)助人們快速的查找信息并節(jié)約時(shí)間成本。本文的主要研究?jī)?nèi)容如下:(1)對(duì)文本分類中常用的樸素貝葉斯、KNN、支持向量機(jī)三種方法進(jìn)行了比較。通過(guò)研究和實(shí)驗(yàn),其結(jié)果說(shuō)明樸素貝葉斯算法是中文文本分類中效果最佳的算法。(2)提出了一種基于詞頻-逆文檔頻率特征權(quán)重和等級(jí)因子特征權(quán)重的樸素貝葉斯算法—特征加權(quán)樸素貝葉斯算法。該算法將詞頻-逆文檔頻率特征權(quán)重合并到貝葉斯的條件概率公式中,其次將由...

【文章頁(yè)數(shù)】:85 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖1一1單一模型方法具體內(nèi)容

圖1一1單一模型方法具體內(nèi)容

Learning?Weighted?Naive?研究如何從數(shù)據(jù)中學(xué)習(xí)具有因排Bayes?with?Accurate?精確排序的加權(quán)樸素貝葉?耗時(shí)Ranking?斯,提出了一種利用增益比??計(jì)算特征權(quán)重的方法1411??貝葉斯分類研究現(xiàn)狀??算法作為一種簡(jiǎn)單而有效的分類方法,在許多....


圖2-丨文本分類四大階段??第一階段是文本表示階段,主要內(nèi)容是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理、特征處理等??操作,目的是將文本表示成計(jì)算機(jī)能夠識(shí)別的向量格式[53]

圖2-丨文本分類四大階段??第一階段是文本表示階段,主要內(nèi)容是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理、特征處理等??操作,目的是將文本表示成計(jì)算機(jī)能夠識(shí)別的向量格式[53]

文本表示模型、文本分類算法、交叉驗(yàn)證及效果評(píng)價(jià)。??2.1文本分類流程??一般來(lái)說(shuō),一個(gè)完整的中文信息分類由四個(gè)階段組成[521如圖2-1所示。?????1?|?|訓(xùn)練過(guò)程 ̄??J—????1?1??q預(yù)處理?H特征處理昀文術(shù)??^?f?IS:?f=,?!??..文術(shù)1?學(xué)習(xí)c=....


圖2一3KNN分類示例{胡

圖2一3KNN分類示例{胡

K-最近鄰算法是一種考慮到基本識(shí)別問(wèn)題的非常簡(jiǎn)單的分類器,由于性、非參數(shù)性和易于實(shí)現(xiàn)的特性,在許多應(yīng)用中得到了嘗試,但是分類時(shí)很難找到K的最優(yōu)值。K的最佳選擇和數(shù)據(jù)息息相關(guān),一般來(lái)說(shuō),K值越噪聲對(duì)分類的影響越小,但是類之間的邊界越不明顯。為了克服這一缺點(diǎn),采用各種啟發(fā)式技術(shù)來(lái)選擇....


圖2一5決策樹(shù)分類示樹(shù)l閉

圖2一5決策樹(shù)分類示樹(shù)l閉

葉節(jié)點(diǎn)?葉節(jié)點(diǎn)?葉節(jié)點(diǎn)?葉節(jié)點(diǎn)?葉節(jié)點(diǎn)??圖2-4決策樹(shù)分類原理??決策樹(shù)本質(zhì)上是訓(xùn)練數(shù)據(jù)空間的分層分解,其中使用屬性值或條件來(lái)分?jǐn)?shù)據(jù)空間。在決策樹(shù)中遞歸地執(zhí)行數(shù)據(jù)空間的劃分,直到葉節(jié)點(diǎn)包含特量的記錄,或類的一些條件。葉節(jié)點(diǎn)中的多數(shù)類標(biāo)簽(或成本加權(quán)多數(shù)標(biāo)分類。為了進(jìn)一步減少過(guò)擬....



本文編號(hào):3898543

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3898543.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c649a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com