天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于統(tǒng)計方法的中文文本分類

發(fā)布時間:2020-08-04 21:29
【摘要】:文本分類就得利用待分類文本的模型特征來進行匹配。其過程有:文本的表達、建立分類器、評價預測結(jié)果等。目前,有一些比較成熟的分類算法,比如樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)等,用到英文文本分類時效果較好,但在中文文本分類上,有時效果并不理想,原因在于英文單詞與中文詞語的區(qū)別。在英文文檔里,單詞之間都是有空格間隔開的,這樣在進行分詞處理時很容易就能完成;而中文文檔里,字與字之間沒有間隔,而且字之間不同的組合,其意思也會有很大的差別。現(xiàn)在,基于理解的分詞、基于字符串匹配的分詞和基于統(tǒng)計的分詞是解決中文分詞常用的方法。本文對中文文本的分類進行了研究,嘗試了一些提高分類準確度的設(shè)想,并做了相應的實驗。本文從搜狗實驗室(http://www.sogou.com/labs/)下載了 480個中文文本文檔,其中400個文檔的類別已知,分別為財經(jīng)類、健康類、教育類和軍事類;另外80個文本的類別需要通過計算機來自動分類。本文首先系統(tǒng)闡述了幾種分類算法的原理以及特點,接著對中文文本文檔進行基于統(tǒng)計方法的分詞處理,在去除停止詞之后,基于TF-IDF提取了特征項,根據(jù)特征項進行分類,并比較各種分類方法的好壞。本文運用了 KNN分類算法、SVM分類算法和組合學習方法來進行文本分類,并比較了各種分類算法的好壞。各種算法模型的分類準確率均能達到80%以上,以組合學習方法里的隨機森林模型的分類準確率最高,達到了 92.5%。
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:C81
【圖文】:

算法,樣本點,類別,多數(shù)表決


…l逡逑圖1邋KNN算法逡逑圖1中的方形與三角形表示已知類別的樣本點,圓點是待分類點,F(xiàn)在若取/C=3,即逡逑圈出與待分類樣本點最相近的3個樣本點,然后查看它們的類別。如圖中的實線圓中,逡逑此時與圓點最相近的三個點分別是一個方形點和兩個三角形點,這樣,就將待分類的樣逡逑本點歸為三角形點類別;若取K=5,即圈出與待分類樣本點最相近的5個樣本點,然后逡逑查看它們的類別。如圖中的虛線圓中,此時與圓點最相近的五個點分別是三個方形點和逡逑兩個三角形點,這樣,就將待分類的樣本點歸為方形點類別。逡逑數(shù)學描述如下,對每一個測試樣例2邋=(允,;/),計算它和所有訓練樣例(尤>0ez)之間逡逑的距離,以確定其最近鄰列表02。然后,利用多數(shù)表決來進行分類:逡逑多數(shù)表決:J邋=argmax邋^邋/(v邋=邋y

線性可分,數(shù)據(jù)集,超平面,邊界


怎樣找到這種最大邊緣超平面;最后,將此方法推廣到非線性可分的數(shù)據(jù)上。逡逑2.2.2最大邊緣超平面逡逑圖2里是有兩個類別的樣本點的數(shù)據(jù)集,分別用空心圓點和實心方格來表示。這個數(shù)逡逑據(jù)集是線性可分的,因為可以找到如此一個超平面,把這兩類樣本點完全分開。然而,逡逑如圖2所示,這樣的超平面可能有無窮個。這些超平面都沒有訓練誤差,但是在未知的逡逑實例上能不能都有好的效果呢?答案是否定的。逡逑5逡逑

參考圖,最大邊緣,超平面


~柊噸袘。湛煎義賢跡插濉魷咝鑰煞質(zhì)菁系目贍芫霾弒囈玨義喜慰紀跡忱錚停κ橇礁鼉霾弒囈紓扛齔矯娑加邢嚶Φ木霾弒囈纈脛雜,辶x戲直鷂、。其中,将一个平行诱a霾弒囈緄某矯嫫揭頻階罱氖敵姆礁竦玫街誨義俠嗨頻模硪桓銎叫杏誥霾弒囈緄某矯嫫揭頻階罱目招腦駁愕玫劍;2。窋S嗥韉謀咤義顯稻褪欽飭礁齔矯嫻木嗬搿O勻,巧抵\咴迪災笥冢Φ謀咴怠M跡持,桩岓边渣h義掀矯婢褪竊小e義襄危蓿玻卞澹蓿玻插邋五五義稀鰣巍鰣澹觶觶懼澹赍

本文編號:2781103

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/2781103.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fd3cc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com