基于改進(jìn)Adaboost模型的商品短文本評價(jià)情感分析研究
發(fā)布時(shí)間:2021-02-11 17:00
伴隨著互聯(lián)網(wǎng)時(shí)代的到來,網(wǎng)絡(luò)購物逐漸成為全國人民日常生活中的一部分,淘寶、京東、蘇寧易購等軟件的裝機(jī)量越來越高,根據(jù)淘寶官方公布的數(shù)據(jù),僅2019年11月11日當(dāng)天淘寶的日活量接近5億之多,當(dāng)天最終成交額達(dá)2684億之高,隨之而來的是消費(fèi)者對自己所購產(chǎn)品的評價(jià)反饋,如何從這些含有大量干擾和無效的數(shù)據(jù)之中,快速又準(zhǔn)確提取出重要的信息,再把提取出來后的信息反饋給消費(fèi)者和商家,這個(gè)問題越來越重要,其中分析網(wǎng)絡(luò)購物評價(jià)的情感傾向逐漸成為研究人員關(guān)注的熱點(diǎn)。本文主要貢獻(xiàn)為:(1)針對蝙蝠優(yōu)化算法易陷入局部極值的缺點(diǎn),提出了基于余弦控制因子和迭代局部搜索的蝙蝠優(yōu)化算法(CILSBA)。算法首先加入了基于余弦控制因子控制的非線性慣性權(quán)重來加強(qiáng)算法的尋優(yōu)精度和穩(wěn)定性,其次,在每輪迭代結(jié)束之前設(shè)計(jì)改造了迭代局部搜索策略來擾動局部最優(yōu)解,重新搜索全局最優(yōu)解。仿真實(shí)驗(yàn)結(jié)果表明,CILSBA在高維亦可取得最優(yōu)解,并且函數(shù)的收斂速度也高于基本蝙蝠算法,平均值均優(yōu)于基本蝙蝠算法效果。(2)結(jié)合集成學(xué)習(xí)的思想,針對Adaboost算法中存在的權(quán)重更新缺陷,提出了權(quán)重閾值和新的自適應(yīng)權(quán)重更新公式,使論文算法大幅度降低...
【文章來源】:河南大學(xué)河南省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
神經(jīng)元示意圖
132.5K-近鄰算法KNN(K-NearestNeighbor)分類算法同時(shí)也被稱為K近鄰分類算法,是一種基本的數(shù)據(jù)挖掘分類算法[29]。1967年Cover等人通過一種改進(jìn)NN算法,提出了KNN算法[30]。KNN算法對于一個(gè)樣本,如果該樣本周圍距離最近的k個(gè)樣本屬于同一種類別,那么這個(gè)樣本也可被劃分至這個(gè)類別,則它的分類原則取決于周圍距離較近的樣本類別。如圖2-1所示。假設(shè)指定樣本是x,k是3,則距離x最近的三個(gè)樣本中,存在兩個(gè)正方形,那么x就能夠被歸為正方形類。圖2-2KNN示意圖KNN分類算法可以很好的解決不同樣本類別數(shù)量不等的問題,對于一些不好判別類別的數(shù)據(jù)集,具有很好的效果,其距離判斷一般采用歐氏距離,來判斷樣本的距離,判別函數(shù)為:φ()=iixk(2-11)公式中x為指定樣本,i為其他樣本類別的數(shù)量。KNN分類算法的缺點(diǎn)在于每次進(jìn)行判別時(shí),需要對指定分類樣本與全體的數(shù)據(jù)樣本進(jìn)行距離計(jì)算,這提高了算法的時(shí)間復(fù)雜度,時(shí)間效率有待提高。2.6本章小結(jié)本章的主要內(nèi)容是對情感分析的兩種方法做了簡單的介紹,并且把其中基于機(jī)器學(xué)習(xí)的支持向量機(jī)、樸素貝葉斯、人工神經(jīng)網(wǎng)絡(luò)和K-近鄰算法的原理簡單描述,是整個(gè)研究過程的根基,同時(shí)也為后續(xù)集成學(xué)習(xí)Adaboost模型的建立奠定了基矗
30消極語料105827681總計(jì)2367116002短文本數(shù)據(jù)在進(jìn)行處理之后,在訓(xùn)練前數(shù)據(jù)也要經(jīng)過分詞,將詞語分出來后,才能精準(zhǔn)的找到特征,抓住情感因素。由于中文一詞多義,與不同詞語或句子結(jié)合,往往有不同的意思,直到現(xiàn)在中文分詞問題仍處于熱點(diǎn)研究當(dāng)中,本文選擇使用THULAC(THULexicalAnalyzerforChinese)對短文本數(shù)據(jù)進(jìn)行分詞處理。分詞結(jié)果如圖4-1所示。圖4-1分詞結(jié)果示意圖本文選擇使用SVM、樸素貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、K-近鄰算法四種算法作為弱學(xué)習(xí)器進(jìn)行訓(xùn)練。其中SVM模型在重要參數(shù)選取過程中,參數(shù)的選取范圍過大導(dǎo)致效率低下,并且參數(shù)選取的結(jié)果具有不穩(wěn)定性,過高或過低的結(jié)果最終也會影響整個(gè)模型分類的準(zhǔn)確率,呈現(xiàn)出準(zhǔn)確率不穩(wěn)定的情況。針對SVM模型中兩個(gè)尤為重要的參數(shù)c和g的選取和確定進(jìn)行優(yōu)化,用改進(jìn)后的蝙蝠優(yōu)化算法對參數(shù)進(jìn)行參數(shù)尋優(yōu),不僅能減少尋優(yōu)的時(shí)間也能提高參數(shù)的準(zhǔn)確率[48]。本文的4組實(shí)驗(yàn)采用的方法如下:(1)傳統(tǒng)的SVM算法;(2)基于余弦控制因子和迭代局部搜的蝙蝠優(yōu)化算法進(jìn)行改進(jìn)后的SVM算法;(3)傳統(tǒng)Adaboost算法;(4)改進(jìn)后的Adaboost算法。論文根據(jù)情感分析的實(shí)驗(yàn)結(jié)果進(jìn)行整理得到了表4-2。表4-2情感分析實(shí)驗(yàn)對比算法評估指標(biāo)SVM改進(jìn)SVMAdaboost改進(jìn)Adaboost準(zhǔn)確率97.1397.8298.9999.13精確度84.9888.6490.4691.21
【參考文獻(xiàn)】:
期刊論文
[1]商品評論情感傾向性分析[J]. 李明,胡吉霞,侯琳娜,嚴(yán)峻. 計(jì)算機(jī)應(yīng)用. 2019(S2)
[2]基于注意力機(jī)制Bi-LSTM算法的雙語文本情感分析[J]. 翟社平,楊媛媛,邱程,李婧,毋志云. 計(jì)算機(jī)應(yīng)用與軟件. 2019(12)
[3]基于雙向時(shí)間深度卷積網(wǎng)絡(luò)的中文文本情感分類[J]. 韓建勝,陳杰,陳鵬,劉杰,彭德中. 計(jì)算機(jī)應(yīng)用與軟件. 2019(12)
[4]基于動態(tài)自適應(yīng)權(quán)重和柯西變異的蝙蝠優(yōu)化算法[J]. 趙青杰,李捷,于俊洋,吉宏遠(yuǎn). 計(jì)算機(jī)科學(xué). 2019(S1)
[5]融合詞性的雙注意力Bi-LSTM情感分析[J]. 趙富,楊洋,蔣瑞,張利君,任曉雷. 計(jì)算機(jī)應(yīng)用. 2018(S2)
[6]中文微博情感分析研究與實(shí)現(xiàn)[J]. 李勇敢,周學(xué)廣,孫艷,張煥國. 軟件學(xué)報(bào). 2017 (12)
[7]一種動態(tài)調(diào)整慣性權(quán)重的自適應(yīng)蝙蝠算法[J]. 裴宇航,劉景森,李煜. 計(jì)算機(jī)科學(xué). 2017(06)
[8]情感分類研究進(jìn)展[J]. 陳龍,管子玉,何金紅,彭進(jìn)業(yè). 計(jì)算機(jī)研究與發(fā)展. 2017(06)
[9]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[10]基于變分模態(tài)分解和蝙蝠算法-相關(guān)向量機(jī)的短期風(fēng)速區(qū)間預(yù)測[J]. 范磊,衛(wèi)志農(nóng),李慧杰,Kwok W Cheung,孫國強(qiáng),孫永輝. 電力自動化設(shè)備. 2017(01)
碩士論文
[1]基于SVM模型優(yōu)化的互聯(lián)網(wǎng)新聞自動分類研究[D]. 高寧杰.河南大學(xué) 2019
本文編號:3029429
【文章來源】:河南大學(xué)河南省
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
神經(jīng)元示意圖
132.5K-近鄰算法KNN(K-NearestNeighbor)分類算法同時(shí)也被稱為K近鄰分類算法,是一種基本的數(shù)據(jù)挖掘分類算法[29]。1967年Cover等人通過一種改進(jìn)NN算法,提出了KNN算法[30]。KNN算法對于一個(gè)樣本,如果該樣本周圍距離最近的k個(gè)樣本屬于同一種類別,那么這個(gè)樣本也可被劃分至這個(gè)類別,則它的分類原則取決于周圍距離較近的樣本類別。如圖2-1所示。假設(shè)指定樣本是x,k是3,則距離x最近的三個(gè)樣本中,存在兩個(gè)正方形,那么x就能夠被歸為正方形類。圖2-2KNN示意圖KNN分類算法可以很好的解決不同樣本類別數(shù)量不等的問題,對于一些不好判別類別的數(shù)據(jù)集,具有很好的效果,其距離判斷一般采用歐氏距離,來判斷樣本的距離,判別函數(shù)為:φ()=iixk(2-11)公式中x為指定樣本,i為其他樣本類別的數(shù)量。KNN分類算法的缺點(diǎn)在于每次進(jìn)行判別時(shí),需要對指定分類樣本與全體的數(shù)據(jù)樣本進(jìn)行距離計(jì)算,這提高了算法的時(shí)間復(fù)雜度,時(shí)間效率有待提高。2.6本章小結(jié)本章的主要內(nèi)容是對情感分析的兩種方法做了簡單的介紹,并且把其中基于機(jī)器學(xué)習(xí)的支持向量機(jī)、樸素貝葉斯、人工神經(jīng)網(wǎng)絡(luò)和K-近鄰算法的原理簡單描述,是整個(gè)研究過程的根基,同時(shí)也為后續(xù)集成學(xué)習(xí)Adaboost模型的建立奠定了基矗
30消極語料105827681總計(jì)2367116002短文本數(shù)據(jù)在進(jìn)行處理之后,在訓(xùn)練前數(shù)據(jù)也要經(jīng)過分詞,將詞語分出來后,才能精準(zhǔn)的找到特征,抓住情感因素。由于中文一詞多義,與不同詞語或句子結(jié)合,往往有不同的意思,直到現(xiàn)在中文分詞問題仍處于熱點(diǎn)研究當(dāng)中,本文選擇使用THULAC(THULexicalAnalyzerforChinese)對短文本數(shù)據(jù)進(jìn)行分詞處理。分詞結(jié)果如圖4-1所示。圖4-1分詞結(jié)果示意圖本文選擇使用SVM、樸素貝葉斯、人工神經(jīng)網(wǎng)絡(luò)、K-近鄰算法四種算法作為弱學(xué)習(xí)器進(jìn)行訓(xùn)練。其中SVM模型在重要參數(shù)選取過程中,參數(shù)的選取范圍過大導(dǎo)致效率低下,并且參數(shù)選取的結(jié)果具有不穩(wěn)定性,過高或過低的結(jié)果最終也會影響整個(gè)模型分類的準(zhǔn)確率,呈現(xiàn)出準(zhǔn)確率不穩(wěn)定的情況。針對SVM模型中兩個(gè)尤為重要的參數(shù)c和g的選取和確定進(jìn)行優(yōu)化,用改進(jìn)后的蝙蝠優(yōu)化算法對參數(shù)進(jìn)行參數(shù)尋優(yōu),不僅能減少尋優(yōu)的時(shí)間也能提高參數(shù)的準(zhǔn)確率[48]。本文的4組實(shí)驗(yàn)采用的方法如下:(1)傳統(tǒng)的SVM算法;(2)基于余弦控制因子和迭代局部搜的蝙蝠優(yōu)化算法進(jìn)行改進(jìn)后的SVM算法;(3)傳統(tǒng)Adaboost算法;(4)改進(jìn)后的Adaboost算法。論文根據(jù)情感分析的實(shí)驗(yàn)結(jié)果進(jìn)行整理得到了表4-2。表4-2情感分析實(shí)驗(yàn)對比算法評估指標(biāo)SVM改進(jìn)SVMAdaboost改進(jìn)Adaboost準(zhǔn)確率97.1397.8298.9999.13精確度84.9888.6490.4691.21
【參考文獻(xiàn)】:
期刊論文
[1]商品評論情感傾向性分析[J]. 李明,胡吉霞,侯琳娜,嚴(yán)峻. 計(jì)算機(jī)應(yīng)用. 2019(S2)
[2]基于注意力機(jī)制Bi-LSTM算法的雙語文本情感分析[J]. 翟社平,楊媛媛,邱程,李婧,毋志云. 計(jì)算機(jī)應(yīng)用與軟件. 2019(12)
[3]基于雙向時(shí)間深度卷積網(wǎng)絡(luò)的中文文本情感分類[J]. 韓建勝,陳杰,陳鵬,劉杰,彭德中. 計(jì)算機(jī)應(yīng)用與軟件. 2019(12)
[4]基于動態(tài)自適應(yīng)權(quán)重和柯西變異的蝙蝠優(yōu)化算法[J]. 趙青杰,李捷,于俊洋,吉宏遠(yuǎn). 計(jì)算機(jī)科學(xué). 2019(S1)
[5]融合詞性的雙注意力Bi-LSTM情感分析[J]. 趙富,楊洋,蔣瑞,張利君,任曉雷. 計(jì)算機(jī)應(yīng)用. 2018(S2)
[6]中文微博情感分析研究與實(shí)現(xiàn)[J]. 李勇敢,周學(xué)廣,孫艷,張煥國. 軟件學(xué)報(bào). 2017 (12)
[7]一種動態(tài)調(diào)整慣性權(quán)重的自適應(yīng)蝙蝠算法[J]. 裴宇航,劉景森,李煜. 計(jì)算機(jī)科學(xué). 2017(06)
[8]情感分類研究進(jìn)展[J]. 陳龍,管子玉,何金紅,彭進(jìn)業(yè). 計(jì)算機(jī)研究與發(fā)展. 2017(06)
[9]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[10]基于變分模態(tài)分解和蝙蝠算法-相關(guān)向量機(jī)的短期風(fēng)速區(qū)間預(yù)測[J]. 范磊,衛(wèi)志農(nóng),李慧杰,Kwok W Cheung,孫國強(qiáng),孫永輝. 電力自動化設(shè)備. 2017(01)
碩士論文
[1]基于SVM模型優(yōu)化的互聯(lián)網(wǎng)新聞自動分類研究[D]. 高寧杰.河南大學(xué) 2019
本文編號:3029429
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3029429.html
最近更新
教材專著