基于樸素貝葉斯的文本分類算法研究
發(fā)布時間:2021-08-07 06:27
互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展使得人們進入了大數(shù)據(jù)時代,互聯(lián)網(wǎng)作為當(dāng)今獲取信息的主要渠道,與人類的關(guān)系也越來越密切。然后互聯(lián)網(wǎng)中的絕大部分信息都是以文本形式存在,從而尋找一種能夠有效處理文本數(shù)據(jù)進而對文本數(shù)據(jù)進行準(zhǔn)確分類的方法成為當(dāng)今具有重要研究價值的領(lǐng)域。樸素貝葉斯算法作為機器學(xué)習(xí)算法中的經(jīng)典算法之一,以其模型簡單、分類速度快、分類效率高等優(yōu)點,成為了文本分類算法的重要研究內(nèi)容。對于樸素貝葉斯文本分類系統(tǒng)而言,一方面由于傳統(tǒng)樸素貝葉斯理論是在假設(shè)了所有特征相互獨立的基礎(chǔ)上成立的,即特征詞與特征詞之間是相互獨立的,這一定程度上影響了分類器的性能,因此如果能夠?qū)ふ乙恍┓椒▉硐魅趸蛳卣鳘毩⑿约僭O(shè)就可以相應(yīng)的提高分類器的性能。另一方面對于海量的數(shù)據(jù),如果不進行特征提取,就會增加分類系統(tǒng)的負擔(dān),降低分類器的性能,所以本文分別從文本分類系統(tǒng)的三個方向進行處理,提出了基于IGDC特征加權(quán)的樸素貝葉斯文本分類算法(IGDCNB),基于IGDC深度加權(quán)的樸素貝葉斯文本分類算法(IGDC-DWNB),改進的自定義特征維度的快速相關(guān)性過濾(IFSC-FCBF)算法。本文的主要貢獻:(1)研究并改進了樸素貝葉斯特...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
復(fù)旦大學(xué)語料庫各算法宏F1值比較
20圖 2.4 復(fù)旦大學(xué)語料庫各算法宏 F1 值比較從圖 2.1 和 2.2 可以看出,在英文數(shù)據(jù)集上,特征維度從 500 增加到 1000 的過程中,IG權(quán)的樸素貝葉斯算法的對于文本分類的宏 F1 值都要大于 TFIDFIG 加權(quán)和 TFIDF 加權(quán)樸葉斯算法,比 TFIDFIG 加權(quán)樸素貝葉斯算法高出 1%-3%,比 TFIDF 加權(quán)樸素貝葉斯算出 2%-4%,說明了本文算法在英文數(shù)據(jù)集上的有效性。
DC-DWNB 要大于 IGDCNB 算法,IGDCNB 算法要大于 DFWNB 算法,DFWNB 算法又于 OFWNB 算法。一方面顯示了本文的改進深度加權(quán)算法在原始加權(quán)算法上的有效性,方面雖然論文[46]提出的深度加權(quán)算法在英文數(shù)據(jù)集上的并沒有取得較好的效果,但是文數(shù)據(jù)集上確實要優(yōu)于原始的 TFIDF 普通加權(quán)算法。進一步觀察可以發(fā)現(xiàn)在搜狗實驗室集上本文的 IGDC-DWNB 算法在每個類別上都取得了最好的成績,比 IGDC 加權(quán)樸素貝算法平均高出 2%,比 TFIDF 深度加權(quán)樸素貝葉斯算法平均高出 5%,比 TFIDF 普通加素貝葉斯算法平均高出 7%左右。而在復(fù)旦大學(xué)語料庫上,本文的 IGDC-DWNB 算法雖經(jīng)濟和體育兩個類別上沒有超過 IGDCNB 算法,但整體上要比 IGDCNB 算法高出 1%,F(xiàn)WNB 高出 5%,比 OFWNB 高出 7%左右,也充分顯示了文本的改進深度加權(quán)的樸素貝文本分類算法在中文數(shù)據(jù)集上的有效性。為了比較算法在對于整個語料庫的分類性能,我們計算了所有類別對應(yīng)的宏 F1 值,六個不同特征維度下進行了仿真實驗,在四個數(shù)據(jù)集上六個不同維度下的類別宏 F1 值對下圖 3.1-3.4 所示。
本文編號:3327265
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
復(fù)旦大學(xué)語料庫各算法宏F1值比較
20圖 2.4 復(fù)旦大學(xué)語料庫各算法宏 F1 值比較從圖 2.1 和 2.2 可以看出,在英文數(shù)據(jù)集上,特征維度從 500 增加到 1000 的過程中,IG權(quán)的樸素貝葉斯算法的對于文本分類的宏 F1 值都要大于 TFIDFIG 加權(quán)和 TFIDF 加權(quán)樸葉斯算法,比 TFIDFIG 加權(quán)樸素貝葉斯算法高出 1%-3%,比 TFIDF 加權(quán)樸素貝葉斯算出 2%-4%,說明了本文算法在英文數(shù)據(jù)集上的有效性。
DC-DWNB 要大于 IGDCNB 算法,IGDCNB 算法要大于 DFWNB 算法,DFWNB 算法又于 OFWNB 算法。一方面顯示了本文的改進深度加權(quán)算法在原始加權(quán)算法上的有效性,方面雖然論文[46]提出的深度加權(quán)算法在英文數(shù)據(jù)集上的并沒有取得較好的效果,但是文數(shù)據(jù)集上確實要優(yōu)于原始的 TFIDF 普通加權(quán)算法。進一步觀察可以發(fā)現(xiàn)在搜狗實驗室集上本文的 IGDC-DWNB 算法在每個類別上都取得了最好的成績,比 IGDC 加權(quán)樸素貝算法平均高出 2%,比 TFIDF 深度加權(quán)樸素貝葉斯算法平均高出 5%,比 TFIDF 普通加素貝葉斯算法平均高出 7%左右。而在復(fù)旦大學(xué)語料庫上,本文的 IGDC-DWNB 算法雖經(jīng)濟和體育兩個類別上沒有超過 IGDCNB 算法,但整體上要比 IGDCNB 算法高出 1%,F(xiàn)WNB 高出 5%,比 OFWNB 高出 7%左右,也充分顯示了文本的改進深度加權(quán)的樸素貝文本分類算法在中文數(shù)據(jù)集上的有效性。為了比較算法在對于整個語料庫的分類性能,我們計算了所有類別對應(yīng)的宏 F1 值,六個不同特征維度下進行了仿真實驗,在四個數(shù)據(jù)集上六個不同維度下的類別宏 F1 值對下圖 3.1-3.4 所示。
本文編號:3327265
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3327265.html
最近更新
教材專著