面向不平衡電商評論文本的改進樸素貝葉斯分類模型研究
發(fā)布時間:2021-07-21 10:44
文本挖掘是數(shù)據(jù)挖掘中的重要研究方向之一,本文選取較熱門的電商評論數(shù)據(jù)情感分類作為應(yīng)用場景。隨著海量的訂單數(shù)量每天產(chǎn)生巨大好評或差評數(shù)據(jù),手動的人工分類會耗費大量的人力物力,若此時應(yīng)用文本情感分類的方法,則會達到省時省力的效果。在文本分類領(lǐng)域中,樸素貝葉斯方法是常用的分類模型,有著高效且快速的特點。但針對電商商品的評論數(shù)據(jù),其有著較嚴重的樣本不平衡特點,即用戶給予好評的樣本數(shù)量遠大于用戶給予差評的樣本數(shù)量,若不進行適當?shù)奶幚?分類的結(jié)果會向多數(shù)類傾斜,少數(shù)類樣本很難被識別處理,會嚴重影響分類模型的效果。本文的研究目的便是針對電商商品評論數(shù)據(jù)具有樣本不平衡的特點,對樸素貝葉斯算法進行改進,能有效提高模型在不平衡樣本下的分類準確率。為提高不平衡電商評論數(shù)據(jù)的分類成功率,本文主要從樣本空間、模型算法、集成模型三個方面開展工作:(1)對于不平衡數(shù)據(jù)的樣本空間,若不加以改造,那么分類的結(jié)果會較容易偏向類別較多的樣本,本文則結(jié)合欠采樣方法以及基于word2vec的詞移距離進行判斷,從多數(shù)類樣本中采用欠采樣方法選擇出詞移距離與待預(yù)測樣本較近的若干個樣本,從而構(gòu)造出新的平衡訓(xùn)練樣本。(2)在對平衡樣本構(gòu)...
【文章來源】:廣州大學(xué)廣東省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
CBOW與skip-gram原理示意圖
【參考文獻】:
期刊論文
[1]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強,尹宏鵬. 控制與決策. 2019(04)
[2]基于改進特征加權(quán)的樸素貝葉斯分類算法[J]. 丁月,汪學(xué)明. 計算機應(yīng)用研究. 2019(12)
[3]不平衡數(shù)據(jù)分類研究綜述[J]. 趙楠,張小芳,張利軍. 計算機科學(xué). 2018(S1)
[4]不平衡數(shù)據(jù)分類研究綜述[J]. 陳湘濤,高亞靜. 邵陽學(xué)院學(xué)報(自然科學(xué)版). 2017(02)
[5]基于樸素貝葉斯的Web文本分類及其應(yīng)用[J]. 包小兵. 電腦知識與技術(shù). 2016(30)
[6]面向新聞領(lǐng)域的中文文本分類研究綜述[J]. 薛春香,張玉芳. 圖書情報工作. 2013(14)
[7]AdaBoost算法研究進展與展望[J]. 曹瑩,苗啟廣,劉家辰,高琳. 自動化學(xué)報. 2013(06)
[8]基于支持向量機的不平衡數(shù)據(jù)分類的改進欠采樣方法[J]. 趙自翔,王廣亮,李曉東. 中山大學(xué)學(xué)報(自然科學(xué)版). 2012(06)
[9]面向不平衡文本的特征選擇方法[J]. 廖一星,潘雪增. 電子科技大學(xué)學(xué)報. 2012(04)
[10]非平衡數(shù)據(jù)集的改進SMOTE再抽樣算法[J]. 薛薇. 統(tǒng)計研究. 2012(06)
碩士論文
[1]文本分類中特征選擇算法研究[D]. 陳雨杰.哈爾濱工業(yè)大學(xué) 2015
[2]不平衡數(shù)據(jù)集分類算法的研究[D]. 孟軍.南京理工大學(xué) 2014
本文編號:3294871
【文章來源】:廣州大學(xué)廣東省
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【部分圖文】:
CBOW與skip-gram原理示意圖
【參考文獻】:
期刊論文
[1]不平衡數(shù)據(jù)分類方法綜述[J]. 李艷霞,柴毅,胡友強,尹宏鵬. 控制與決策. 2019(04)
[2]基于改進特征加權(quán)的樸素貝葉斯分類算法[J]. 丁月,汪學(xué)明. 計算機應(yīng)用研究. 2019(12)
[3]不平衡數(shù)據(jù)分類研究綜述[J]. 趙楠,張小芳,張利軍. 計算機科學(xué). 2018(S1)
[4]不平衡數(shù)據(jù)分類研究綜述[J]. 陳湘濤,高亞靜. 邵陽學(xué)院學(xué)報(自然科學(xué)版). 2017(02)
[5]基于樸素貝葉斯的Web文本分類及其應(yīng)用[J]. 包小兵. 電腦知識與技術(shù). 2016(30)
[6]面向新聞領(lǐng)域的中文文本分類研究綜述[J]. 薛春香,張玉芳. 圖書情報工作. 2013(14)
[7]AdaBoost算法研究進展與展望[J]. 曹瑩,苗啟廣,劉家辰,高琳. 自動化學(xué)報. 2013(06)
[8]基于支持向量機的不平衡數(shù)據(jù)分類的改進欠采樣方法[J]. 趙自翔,王廣亮,李曉東. 中山大學(xué)學(xué)報(自然科學(xué)版). 2012(06)
[9]面向不平衡文本的特征選擇方法[J]. 廖一星,潘雪增. 電子科技大學(xué)學(xué)報. 2012(04)
[10]非平衡數(shù)據(jù)集的改進SMOTE再抽樣算法[J]. 薛薇. 統(tǒng)計研究. 2012(06)
碩士論文
[1]文本分類中特征選擇算法研究[D]. 陳雨杰.哈爾濱工業(yè)大學(xué) 2015
[2]不平衡數(shù)據(jù)集分類算法的研究[D]. 孟軍.南京理工大學(xué) 2014
本文編號:3294871
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3294871.html
最近更新
教材專著