天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于樸素貝葉斯方法的文本分類算法研究

發(fā)布時間:2021-07-08 06:16
  近些年來,信息技術(shù)發(fā)展迅猛,互聯(lián)網(wǎng)用戶步入了一個嶄新的時代,海量數(shù)據(jù)也為用戶帶來了前所未有的體驗。雖然用戶可以檢索更多的信息,滿足更廣泛的需求,但科技的進(jìn)步往往伴隨著一些新問題的衍生,大量的原始數(shù)據(jù)是雜亂無章的,這為用戶帶來了很大的不便,所以文本分類技術(shù)應(yīng)運而生。通過文本分類技術(shù)可以根據(jù)文本中包含的特征詞將文本自動分類,在信息檢索、自然語言處理等領(lǐng)域得到了廣泛的應(yīng)用。目前,已經(jīng)有很多方法應(yīng)用于文本分類,比如樸素貝葉斯、KNN、決策樹、SVM等等,但如何選擇高效精準(zhǔn)的方法使得文本分類達(dá)到更好的效果是當(dāng)下亟待解決的問題。本文主要圍繞樸素貝葉斯算法進(jìn)行研究,并提出了兩種改進(jìn)樸素貝葉斯算法:一種是基于泊松分布的加權(quán)樸素貝葉斯文本分類算法,另一種是基于特征深度加權(quán)的樸素貝葉斯樹文本分類算法。本文進(jìn)行的主要工作如下:(1)介紹了文本分類的研究背景和發(fā)展現(xiàn)狀,闡述了文本分類的定義,詳細(xì)介紹了文本分類的具體流程以及幾種經(jīng)典分類器的算法原理和優(yōu)缺點。(2)提出了一種基于泊松分布的加權(quán)樸素貝葉斯文本分類算法,改進(jìn)樸素貝葉斯算法在文本分類中精度不足的問題。首先將泊松隨機(jī)變量引入樸素貝葉斯的推導(dǎo)過程,然后通過... 

【文章來源】:湘潭大學(xué)湖南省

【文章頁數(shù)】:66 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于樸素貝葉斯方法的文本分類算法研究


根據(jù)文本屬性進(jìn)行分類

中英文,文本,單詞


湘潭大學(xué)碩士學(xué)位論文8據(jù)集學(xué)習(xí)得到分類模型,將新數(shù)據(jù)放入模型實現(xiàn)分類。(5)性能評價:需要對構(gòu)建的分類器進(jìn)行性能評估,以判定分類結(jié)果的好壞,現(xiàn)階段性能評估指標(biāo)有準(zhǔn)確率、召回率、F1值、ROC曲線等,如果通過指標(biāo)顯示分類性能較差,則對分類器進(jìn)行改善直至能保證優(yōu)良的分類效果。2.2文本預(yù)處理文本語料的完備程度、數(shù)據(jù)格式等都會影響到分類性能,為了消除這些影響,,規(guī)范語料庫進(jìn)行文本預(yù)處理是很有必要的,文本預(yù)處理主要包括文本分詞、詞干提娶去除停用詞等步驟。(1)文本分詞:將文本內(nèi)容分為以詞為最小單位的序列,該過程成為文本分詞。英文文本單詞之間本身通過空格分開,因此可直接完成分詞處理,中文文本則需要通過特定的算法將詞語隔開。(2)詞干提取:簡單來說就是詞形還原,主要針對英文文本,英文單詞中有很多情形下帶有前綴或者后綴,雖然它們和詞根之間的含義基本相同,但并非單詞本身的形式,這會使得存在大量重復(fù)的單詞,詞語冗余度較高,增加了后續(xù)分類的計算成本。比如:“developed”、“developing”、“development”,這3個單詞的詞根都為“develop”,且表達(dá)的意思類似,所以需要將它們進(jìn)行詞干提取,當(dāng)這3個單詞出現(xiàn)時,計算機(jī)程序認(rèn)為都是“develop”,這在很大程度上簡化了后續(xù)分類過程對特征詞的處理。(3)去除停用詞:停用詞是指反復(fù)在文本中出現(xiàn)但卻沒有實際意義的詞,部分停用詞如圖2.2所示,通常為介詞、副詞、冠詞等功能詞,這些詞對文本分類沒有起到任何作用,反而增加了數(shù)據(jù)存儲空間,為正確分類帶來了干擾,因此去除停用詞也是特征工程的重要一環(huán)。圖2.2中英文停用詞

文本,中文,特征選擇


湘潭大學(xué)碩士學(xué)位論文29圖3.2可以看出,詞與詞之間已通過間隔區(qū)分開;另外,將停用詞和標(biāo)點符號專門新建一個文檔進(jìn)行存放,英文停用詞放在ENstopwords891.txt文檔中,中文停用詞放在CNstopwords.txt文檔中,在圖2.2中已展示部分停用詞,本文通過這兩個文檔中的停用詞進(jìn)行篩選過濾。圖3.1中文文本分詞前圖3.2中文文本分詞后步驟2.文本向量化:將文本轉(zhuǎn)化為詞向量的形式,文本id表示為一個空間向量,12||{,,...,}(1,2,...,)iVdwwwin,kw為特征詞(k1,2,...,|V|),|V|為特征詞總個數(shù);通過Python中sklearn.feature_extraction.text模塊下的TfidfVectorizer()函數(shù)實現(xiàn),在TfidfVectorizer()函數(shù)中設(shè)置stop_words,將步驟1中提取的停用詞列表作為stop_words參數(shù)值,表示將文本轉(zhuǎn)化為去除停用詞之后的向量。20-newsgroups數(shù)據(jù)集中,每篇文本轉(zhuǎn)化為一個107275維的向量,英文文本訓(xùn)練數(shù)據(jù)輸出size大小為7716×107275的矩陣,7716為英文數(shù)據(jù)集訓(xùn)練樣本數(shù)量;搜狗新聞數(shù)據(jù)集中,每篇文本轉(zhuǎn)化為一個15589維的向量,中文文本訓(xùn)練數(shù)據(jù)輸出size大小14328×15589為的矩陣,14328為中文數(shù)據(jù)集訓(xùn)練樣本數(shù)量。步驟3.特征選擇:文本中包含海量的特征詞,導(dǎo)致文本向量維度過大,也為運算帶來了不便,因此做特征選擇處理。Python中有較多可直接實現(xiàn)特征選擇的方法封裝在sklearn.feature_selection模塊下,有VarianceThreshold()、SelectKBest()、SelectFromModel()等,本文是選用的SelectFromModel()函數(shù)進(jìn)行特征選擇,參數(shù)設(shè)置為ExtraTreesClassifiter(),表示基于樹模型進(jìn)行特征選擇,當(dāng)然也可以選擇其余的方法進(jìn)行特征選擇,本文僅在SelectFromModel(ExtraTreesClassifiter())下

【參考文獻(xiàn)】:
期刊論文
[1]中文文本分類方法綜述[J]. 于游,付鈺,吳曉平.  網(wǎng)絡(luò)與信息安全學(xué)報. 2019(05)
[2]最大熵判別主題模型的高效學(xué)習(xí)算法[J]. 陳鍵飛,朱軍.  模式識別與人工智能. 2019(08)
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的詞義消歧[J]. 張春祥,趙凌云,高雪瑤.  北京郵電大學(xué)學(xué)報. 2019(03)
[4]基于詞向量的文本分類研究[J]. 馬力,李沙沙.  計算機(jī)與數(shù)字工程. 2019(02)
[5]改進(jìn)樸素貝葉斯算法在文本分類中的應(yīng)用[J]. 黃勇,羅文輝,張瑞舒.  科技創(chuàng)新與應(yīng)用. 2019(05)
[6]基于詞向量的向量空間模型的改進(jìn)[J]. 殷功俊.  現(xiàn)代計算機(jī)(專業(yè)版). 2018(36)
[7]一種基于屬性加權(quán)補(bǔ)集的樸素貝葉斯文本分類算法[J]. 陳凱,黃英來,高文韜,趙鵬.  哈爾濱理工大學(xué)學(xué)報. 2018(04)
[8]基于參考點的改進(jìn)k近鄰分類算法[J]. 梁聰,夏書銀,陳子忠.  計算機(jī)工程. 2019(02)
[9]基于數(shù)據(jù)挖掘的文本分類算法[J]. 李志堅.  長春師范大學(xué)學(xué)報. 2017(12)
[10]針對樸素貝葉斯文本分類方法的改進(jìn)[J]. 漆原,喬宇.  電子科學(xué)技術(shù). 2017(05)

博士論文
[1]文本分類中特征加權(quán)算法和文本表示策略研究[D]. 賈隆嘉.東北師范大學(xué) 2016
[2]文本分類中若干問題研究[D]. 劉赫.吉林大學(xué) 2009

碩士論文
[1]多項式樸素貝葉斯文本分類算法改進(jìn)研究[D]. 張倫干.中國地質(zhì)大學(xué) 2018



本文編號:3271027

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3271027.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c2a2e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com