基于改進樸素貝葉斯的新聞分類研究
發(fā)布時間:2021-07-31 05:10
隨著人工智能的高速發(fā)展和數(shù)據(jù)挖掘技術(shù)的不斷更新,文本分類已經(jīng)成為自然語言處理中最常用的應(yīng)用場景,其在輿情分析、機器翻譯和聊天機器人等領(lǐng)域都有廣泛的應(yīng)用,F(xiàn)階段文本分類技術(shù)有很多,但是樸素貝葉斯分類模型(Naive Bayes Classifier,簡稱NBC)已經(jīng)成為最常用的分類模型之一。樸素貝葉斯分類模型在眾多領(lǐng)域中均有很好的分類性能,但該分類模型也具有一定的局限性,例如需要滿足屬性之間相互獨立的條件假設(shè),而該條件假設(shè)在實際應(yīng)用中卻經(jīng)常難以滿足;谠摋l件假設(shè)研究者們從擴展結(jié)構(gòu)、特征選擇、特征加權(quán)和樸素貝葉斯模型與其他模型相結(jié)合四個方面做出了推廣,并取得了較好的效果。本文在前人的研究基礎(chǔ)上,利用主成分分析(Principal Component Analysis,簡稱PCA)改進了樸素貝葉斯分類模型。基于主成分分析的樸素貝葉斯分類模型,簡稱PCAWNBC模型。本文利用主成分分析的主成分之間是相互獨立性質(zhì),有效緩解了樸素貝葉斯相互獨立的條件假設(shè);再利用主成分的方差貢獻率作為屬性的特征權(quán)重,消除了同一屬性對不同類別具有相同值的(權(quán)重均為1)缺陷。通過上述的分析后,本...
【文章來源】:江西財經(jīng)大學江西省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
圖2.1分類模型
2相關(guān)理論概述9圖2.1分類模型2.1.2機器學習回歸機器學習回歸也是監(jiān)督學習中重要的問題。機器學習回歸主要用于建立輸入集與輸出集之間的關(guān)系,即是采用監(jiān)督學習中的回歸算法,給定自變量預(yù)測因變量的關(guān)系;貧w問題是根據(jù)數(shù)據(jù)集模擬一條曲面或者曲線,使得這個面或者線能擬合數(shù)據(jù)集,再依據(jù)該面或者線對其他數(shù)據(jù)集預(yù)測;貧w模型可分為模型學習和模型預(yù)測兩個步驟(見圖2.2)。給定訓(xùn)練集:1122{(,),(,),,(,)}nnTxyxyxy圖2.2回歸模型其中ix為樣本數(shù)據(jù),iy表示標簽值,i1,2,,n。模型學習就是給定合理的回歸模型函數(shù)Yf(X),使用該函數(shù)擬合數(shù)據(jù)集T,求出函數(shù)Yf(X)的各個參數(shù)。模型預(yù)測是在學習出函數(shù)的各參數(shù)后,給定新的輸入值n1x,通過模型預(yù)測;貧w模型可分為線性回歸和非線性回歸,這個分類是以參數(shù)的類型來劃分的,
基于改進樸素貝葉斯的新聞分類研究32其中tw表示訓(xùn)練的目標詞語,表示tw上下k個詞語的詞向量之和。圖3.2CBOW和Skip-gram訓(xùn)練結(jié)構(gòu)圖Skip-gram模型的核心思想是通過中間詞預(yù)測上下文,該詞決定上下文k個詞語出現(xiàn)的概率值:11((,,,,)|)tktktktktPwwwww.(3.26)通過上述可以知道,CBOW模型和Skip-gram模型的核心思想正好相反,COBW模型相比Skip-gram模型的訓(xùn)練速度更快[57],當數(shù)據(jù)量上千萬集別以上更適合使用CBOW模型的訓(xùn)練更加有效。在計算上述概率值時,網(wǎng)絡(luò)輸出層采用的是Softmax函數(shù),通過構(gòu)造霍夫曼二叉樹使兩者的目標函數(shù)優(yōu)化為:log(|)ttCOBWtwwCLpwS,(3.27),0log(|)tSkipgramtjtwCkjkjLpww.(3.28)其中C表示語料庫的維度,通過圖3.2看到,Word2vec模型并不是通過訓(xùn)練直接得到各詞語的詞向量,而是通過神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù),再通過其參數(shù)來給出目標詞的概率值。該權(quán)重參數(shù)是表示詞與詞之間的相關(guān)程度,假設(shè)兩個詞在文中的作用相似或者位置相似,則在wor2vec詞向量中也是相似。如“張三喜歡深度學習”與“李四喜歡深度學習”兩句話,通過“喜歡深度學習”這些詞與可以判定
【參考文獻】:
期刊論文
[1]基于卡方統(tǒng)計的情感文本分類[J]. 周愛武,馬那那,劉慧婷. 微電子學與計算機. 2017(08)
[2]一種基于信息增益的新垃圾郵件特征選擇算法[J]. 李猛,劉元寧. 吉林大學學報(理學版). 2017(02)
[3]基于改進的TF-IDF軟件測試錯誤信息分析方法[J]. 王茹,嚴明,王柳舒. 計算機應(yīng)用. 2016(S2)
[4]Word2vec的核心架構(gòu)及其應(yīng)用[J]. 熊富林,鄧怡豪,唐曉晟. 南京師范大學學報(工程技術(shù)版). 2015(01)
[5]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強. 計算機工程與科學. 2015(02)
[6]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計算機學報. 2015(02)
[7]貝葉斯機器學習前沿進展綜述[J]. 朱軍,胡文波. 計算機研究與發(fā)展. 2015(01)
[8]貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習綜述[J]. 李碩豪,張軍. 計算機應(yīng)用研究. 2015(03)
[9]基于加權(quán)補集的樸素貝葉斯文本分類算法研究[J]. 杜選. 計算機應(yīng)用與軟件. 2014(09)
[10]一種基于粗糙集的特征加權(quán)樸素貝葉斯分類器[J]. 王國才,張聰. 重慶理工大學學報(自然科學版). 2010(07)
碩士論文
[1]中文分詞系統(tǒng)的設(shè)計和實現(xiàn)[D]. 張小歡.電子科技大學 2010
[2]基于改進的K-均值算法的樸素貝葉斯分類及應(yīng)用[D]. 李艷.合肥工業(yè)大學 2007
本文編號:3312833
【文章來源】:江西財經(jīng)大學江西省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
圖2.1分類模型
2相關(guān)理論概述9圖2.1分類模型2.1.2機器學習回歸機器學習回歸也是監(jiān)督學習中重要的問題。機器學習回歸主要用于建立輸入集與輸出集之間的關(guān)系,即是采用監(jiān)督學習中的回歸算法,給定自變量預(yù)測因變量的關(guān)系;貧w問題是根據(jù)數(shù)據(jù)集模擬一條曲面或者曲線,使得這個面或者線能擬合數(shù)據(jù)集,再依據(jù)該面或者線對其他數(shù)據(jù)集預(yù)測;貧w模型可分為模型學習和模型預(yù)測兩個步驟(見圖2.2)。給定訓(xùn)練集:1122{(,),(,),,(,)}nnTxyxyxy圖2.2回歸模型其中ix為樣本數(shù)據(jù),iy表示標簽值,i1,2,,n。模型學習就是給定合理的回歸模型函數(shù)Yf(X),使用該函數(shù)擬合數(shù)據(jù)集T,求出函數(shù)Yf(X)的各個參數(shù)。模型預(yù)測是在學習出函數(shù)的各參數(shù)后,給定新的輸入值n1x,通過模型預(yù)測;貧w模型可分為線性回歸和非線性回歸,這個分類是以參數(shù)的類型來劃分的,
基于改進樸素貝葉斯的新聞分類研究32其中tw表示訓(xùn)練的目標詞語,表示tw上下k個詞語的詞向量之和。圖3.2CBOW和Skip-gram訓(xùn)練結(jié)構(gòu)圖Skip-gram模型的核心思想是通過中間詞預(yù)測上下文,該詞決定上下文k個詞語出現(xiàn)的概率值:11((,,,,)|)tktktktktPwwwww.(3.26)通過上述可以知道,CBOW模型和Skip-gram模型的核心思想正好相反,COBW模型相比Skip-gram模型的訓(xùn)練速度更快[57],當數(shù)據(jù)量上千萬集別以上更適合使用CBOW模型的訓(xùn)練更加有效。在計算上述概率值時,網(wǎng)絡(luò)輸出層采用的是Softmax函數(shù),通過構(gòu)造霍夫曼二叉樹使兩者的目標函數(shù)優(yōu)化為:log(|)ttCOBWtwwCLpwS,(3.27),0log(|)tSkipgramtjtwCkjkjLpww.(3.28)其中C表示語料庫的維度,通過圖3.2看到,Word2vec模型并不是通過訓(xùn)練直接得到各詞語的詞向量,而是通過神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù),再通過其參數(shù)來給出目標詞的概率值。該權(quán)重參數(shù)是表示詞與詞之間的相關(guān)程度,假設(shè)兩個詞在文中的作用相似或者位置相似,則在wor2vec詞向量中也是相似。如“張三喜歡深度學習”與“李四喜歡深度學習”兩句話,通過“喜歡深度學習”這些詞與可以判定
【參考文獻】:
期刊論文
[1]基于卡方統(tǒng)計的情感文本分類[J]. 周愛武,馬那那,劉慧婷. 微電子學與計算機. 2017(08)
[2]一種基于信息增益的新垃圾郵件特征選擇算法[J]. 李猛,劉元寧. 吉林大學學報(理學版). 2017(02)
[3]基于改進的TF-IDF軟件測試錯誤信息分析方法[J]. 王茹,嚴明,王柳舒. 計算機應(yīng)用. 2016(S2)
[4]Word2vec的核心架構(gòu)及其應(yīng)用[J]. 熊富林,鄧怡豪,唐曉晟. 南京師范大學學報(工程技術(shù)版). 2015(01)
[5]主題網(wǎng)絡(luò)爬蟲研究綜述[J]. 于娟,劉強. 計算機工程與科學. 2015(02)
[6]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計算機學報. 2015(02)
[7]貝葉斯機器學習前沿進展綜述[J]. 朱軍,胡文波. 計算機研究與發(fā)展. 2015(01)
[8]貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習綜述[J]. 李碩豪,張軍. 計算機應(yīng)用研究. 2015(03)
[9]基于加權(quán)補集的樸素貝葉斯文本分類算法研究[J]. 杜選. 計算機應(yīng)用與軟件. 2014(09)
[10]一種基于粗糙集的特征加權(quán)樸素貝葉斯分類器[J]. 王國才,張聰. 重慶理工大學學報(自然科學版). 2010(07)
碩士論文
[1]中文分詞系統(tǒng)的設(shè)計和實現(xiàn)[D]. 張小歡.電子科技大學 2010
[2]基于改進的K-均值算法的樸素貝葉斯分類及應(yīng)用[D]. 李艷.合肥工業(yè)大學 2007
本文編號:3312833
本文鏈接:http://sikaile.net/shoufeilunwen/benkebiyelunwen/3312833.html
最近更新
教材專著