基于GDBN和XGBOOST的門戶網(wǎng)站評(píng)論情感分類研究
發(fā)布時(shí)間:2021-08-26 11:36
在Web2.0技術(shù)廣泛普及的時(shí)代,互聯(lián)網(wǎng)信息技術(shù)不斷發(fā)展與成熟,各大社交與電子商務(wù)平臺(tái)快速興起,網(wǎng)民不但能從互聯(lián)網(wǎng)上攝取信息,而且還擁有了分享自己想法、觀點(diǎn)的話語(yǔ)權(quán)等。由于我國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率的不斷擴(kuò)大,門戶網(wǎng)站已經(jīng)成為了主要的信息發(fā)布渠道,越來(lái)越多的網(wǎng)絡(luò)用戶在門戶網(wǎng)站上表達(dá)自己的情感、分享自己的觀點(diǎn),這使得門戶網(wǎng)站上的評(píng)論信息日益增長(zhǎng),產(chǎn)生海量無(wú)規(guī)律的評(píng)論文本數(shù)據(jù),且這些數(shù)據(jù)不斷地實(shí)時(shí)更新。如何在短時(shí)間內(nèi)提取到實(shí)時(shí)更新的海量無(wú)規(guī)律的評(píng)論文本數(shù)據(jù)背后蘊(yùn)藏的巨大商業(yè)價(jià)值和輿論價(jià)值信息并通過(guò)建立模型進(jìn)行情感傾向分類已經(jīng)成為了自然語(yǔ)言處理領(lǐng)域中的一個(gè)重點(diǎn)研究?jī)?nèi)容。本課題出于精確高效考慮,提出了一種基于遺傳深度置信網(wǎng)絡(luò)(Genetic Deep Belief Networks,GDBN)和XGBoost(eXtreme Gradient Boosting)的門戶網(wǎng)站評(píng)論情感分類模型。該模型利用GDBN提取從門戶網(wǎng)站上爬取的中文評(píng)論文本數(shù)據(jù)的深層次特征,然后通過(guò)基于代價(jià)敏感學(xué)習(xí)(Cost Sensitive Learning,CSL)的XGBoost算法進(jìn)行情感傾向分類。本文的評(píng)論情感分類...
【文章來(lái)源】:福建師范大學(xué)福建省
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
福建師范大學(xué)陳穎熙工學(xué)碩士學(xué)位論文-4-果出現(xiàn)偏差。(2)基于機(jī)器學(xué)習(xí)的文本情感分析方法該方法目前在文本情感分類中得到了較為廣泛的應(yīng)用,這類方法可以自動(dòng)的對(duì)被標(biāo)注的評(píng)論文本數(shù)據(jù)集進(jìn)行情感傾向的分類,較為常見(jiàn)的機(jī)器學(xué)習(xí)方法主要有條件隨機(jī)場(chǎng)(ConditionalRandomField)[12]、AdaBoost算法[13]、k-NearestNeighbor算法[14]、支持向量機(jī)(SupportVectorMachine,SVM)[15]等方法。該分析方法的流程圖如圖1-2所示。圖1-2文本情感分類流程圖Fig.1-2Textemotionclassificationflowchart由圖1-2可以看出,基于機(jī)器學(xué)習(xí)的文本情感分析方法主要可以分為以下兩個(gè)階段,第一階段為訓(xùn)練階段,在訓(xùn)練階段對(duì)實(shí)驗(yàn)訓(xùn)練集中的文本進(jìn)行文本預(yù)處理和文本特征提取,其次再用基于機(jī)器學(xué)習(xí)算法建立的文本分類模型進(jìn)行模型訓(xùn)練,然后對(duì)訓(xùn)練好的分類模型進(jìn)行評(píng)估,如果模型對(duì)文本情感分類的效果達(dá)到期望值,則進(jìn)入測(cè)試階段,否則重復(fù)對(duì)分類模型的訓(xùn)練直到其達(dá)到期望值;第二階段為測(cè)試階段,在測(cè)試階段對(duì)實(shí)驗(yàn)測(cè)試集進(jìn)行與訓(xùn)練階段同樣的方法處理文本數(shù)據(jù),然后用已經(jīng)訓(xùn)練好的基于機(jī)器學(xué)習(xí)算法的分類模型對(duì)其進(jìn)行情感傾向的分類。在整個(gè)模型分類過(guò)程中,文本特征提取這一環(huán)節(jié)是基于機(jī)器學(xué)習(xí)的文本情感分析方法的核心,有效的提取待分類文本的特征能使分類模型在文本情感傾向分類實(shí)驗(yàn)中得到更好的運(yùn)用。基于機(jī)器學(xué)習(xí)的文本情感分析方法的分類準(zhǔn)確率較高,但是由于其文本特征選擇方式采用的是人工選擇,所以存在一定的不確定性,并且此方法最大的問(wèn)題在于難以捕捉文本數(shù)據(jù)深層次的特征,從而影響文本情感分類的結(jié)果。(3)基于深度學(xué)習(xí)的文本情感分析方法
福建師范大學(xué)陳穎熙工學(xué)碩士學(xué)位論文-8-(3)在對(duì)模型提取到的評(píng)論文本數(shù)據(jù)集的深層次特征進(jìn)行情感傾向分類時(shí),遺傳深度置信網(wǎng)絡(luò)的分類層——反向傳播(Back-Propagation,BP)神經(jīng)網(wǎng)絡(luò)極易陷入局部極小值,使得網(wǎng)絡(luò)反復(fù)“震蕩”無(wú)法跳出極小值點(diǎn)去尋找最優(yōu)解,所以將基于代價(jià)敏感學(xué)習(xí)的XGBoost算法代替BP神經(jīng)網(wǎng)絡(luò),將其與遺傳深度置信網(wǎng)絡(luò)進(jìn)行融合,提出一種基于GDBN-XGBoost模型的文本情感分析方法,這樣不僅保留了遺傳深度置信網(wǎng)絡(luò)提取深層次特征的優(yōu)點(diǎn),又能通過(guò)優(yōu)化后的XGBoost算法對(duì)提取到的深層次特征精確分類。本文的算法流程框架如圖1-3所示。圖1-3評(píng)論情感分類算法框架圖Fig.1-3Commentsentimentclassificationalgorithmframework
【參考文獻(xiàn)】:
期刊論文
[1]基于GDBN網(wǎng)絡(luò)的文本情感傾向分類算法[J]. 陳穎熙,廖曉東,蘇例月,陶狀. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[2]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌. 計(jì)算機(jī)應(yīng)用. 2018(11)
[3]基于詞性特征的特征權(quán)重計(jì)算方法[J]. 胡雯雯,高俊波,施志偉,劉志遠(yuǎn). 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(01)
[4]基于卡方統(tǒng)計(jì)的情感文本分類[J]. 周愛(ài)武,馬那那,劉慧婷. 微電子學(xué)與計(jì)算機(jī). 2017(08)
[5]情感傾向性分析及應(yīng)用研究綜述[J]. 李建華,劉功申,林祥. 信息安全學(xué)報(bào). 2017(02)
[6]面向商品評(píng)論文本的情感分析與挖掘[J]. 李涵昱,錢力,周鵬飛. 情報(bào)科學(xué). 2017(01)
[7]決策森林研究綜述[J]. 黃海新,吳迪,文峰. 電子技術(shù)應(yīng)用. 2016(12)
[8]基于Document Triage的TF-IDF算法的改進(jìn)[J]. 李鎮(zhèn)君,周竹榮. 計(jì)算機(jī)應(yīng)用. 2015(12)
[9]Sentiment Analysis for Chinese Text Based on Emotion Degree Lexicon and Cognitive Theories[J]. 武星,呂海濤,卓少劍. Journal of Shanghai Jiaotong University(Science). 2015(01)
[10]基于深度信念網(wǎng)絡(luò)的文本分類算法[J]. 陳翠平. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(02)
碩士論文
[1]基于Scrapy框架的網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)與數(shù)據(jù)抓取分析[D]. 安子建.吉林大學(xué) 2017
[2]基于深度學(xué)習(xí)的手寫(xiě)英文單詞檢索算法研究及其在歷史文本上的應(yīng)用[D]. 潘煒深.華南理工大學(xué) 2016
[3]互聯(lián)網(wǎng)商品評(píng)論情感分析研究[D]. 張衛(wèi).重慶大學(xué) 2016
[4]基于深度學(xué)習(xí)的文本情感分析研究[D]. 曹宇慧.哈爾濱工業(yè)大學(xué) 2016
本文編號(hào):3364170
【文章來(lái)源】:福建師范大學(xué)福建省
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
中國(guó)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率
福建師范大學(xué)陳穎熙工學(xué)碩士學(xué)位論文-4-果出現(xiàn)偏差。(2)基于機(jī)器學(xué)習(xí)的文本情感分析方法該方法目前在文本情感分類中得到了較為廣泛的應(yīng)用,這類方法可以自動(dòng)的對(duì)被標(biāo)注的評(píng)論文本數(shù)據(jù)集進(jìn)行情感傾向的分類,較為常見(jiàn)的機(jī)器學(xué)習(xí)方法主要有條件隨機(jī)場(chǎng)(ConditionalRandomField)[12]、AdaBoost算法[13]、k-NearestNeighbor算法[14]、支持向量機(jī)(SupportVectorMachine,SVM)[15]等方法。該分析方法的流程圖如圖1-2所示。圖1-2文本情感分類流程圖Fig.1-2Textemotionclassificationflowchart由圖1-2可以看出,基于機(jī)器學(xué)習(xí)的文本情感分析方法主要可以分為以下兩個(gè)階段,第一階段為訓(xùn)練階段,在訓(xùn)練階段對(duì)實(shí)驗(yàn)訓(xùn)練集中的文本進(jìn)行文本預(yù)處理和文本特征提取,其次再用基于機(jī)器學(xué)習(xí)算法建立的文本分類模型進(jìn)行模型訓(xùn)練,然后對(duì)訓(xùn)練好的分類模型進(jìn)行評(píng)估,如果模型對(duì)文本情感分類的效果達(dá)到期望值,則進(jìn)入測(cè)試階段,否則重復(fù)對(duì)分類模型的訓(xùn)練直到其達(dá)到期望值;第二階段為測(cè)試階段,在測(cè)試階段對(duì)實(shí)驗(yàn)測(cè)試集進(jìn)行與訓(xùn)練階段同樣的方法處理文本數(shù)據(jù),然后用已經(jīng)訓(xùn)練好的基于機(jī)器學(xué)習(xí)算法的分類模型對(duì)其進(jìn)行情感傾向的分類。在整個(gè)模型分類過(guò)程中,文本特征提取這一環(huán)節(jié)是基于機(jī)器學(xué)習(xí)的文本情感分析方法的核心,有效的提取待分類文本的特征能使分類模型在文本情感傾向分類實(shí)驗(yàn)中得到更好的運(yùn)用。基于機(jī)器學(xué)習(xí)的文本情感分析方法的分類準(zhǔn)確率較高,但是由于其文本特征選擇方式采用的是人工選擇,所以存在一定的不確定性,并且此方法最大的問(wèn)題在于難以捕捉文本數(shù)據(jù)深層次的特征,從而影響文本情感分類的結(jié)果。(3)基于深度學(xué)習(xí)的文本情感分析方法
福建師范大學(xué)陳穎熙工學(xué)碩士學(xué)位論文-8-(3)在對(duì)模型提取到的評(píng)論文本數(shù)據(jù)集的深層次特征進(jìn)行情感傾向分類時(shí),遺傳深度置信網(wǎng)絡(luò)的分類層——反向傳播(Back-Propagation,BP)神經(jīng)網(wǎng)絡(luò)極易陷入局部極小值,使得網(wǎng)絡(luò)反復(fù)“震蕩”無(wú)法跳出極小值點(diǎn)去尋找最優(yōu)解,所以將基于代價(jià)敏感學(xué)習(xí)的XGBoost算法代替BP神經(jīng)網(wǎng)絡(luò),將其與遺傳深度置信網(wǎng)絡(luò)進(jìn)行融合,提出一種基于GDBN-XGBoost模型的文本情感分析方法,這樣不僅保留了遺傳深度置信網(wǎng)絡(luò)提取深層次特征的優(yōu)點(diǎn),又能通過(guò)優(yōu)化后的XGBoost算法對(duì)提取到的深層次特征精確分類。本文的算法流程框架如圖1-3所示。圖1-3評(píng)論情感分類算法框架圖Fig.1-3Commentsentimentclassificationalgorithmframework
【參考文獻(xiàn)】:
期刊論文
[1]基于GDBN網(wǎng)絡(luò)的文本情感傾向分類算法[J]. 陳穎熙,廖曉東,蘇例月,陶狀. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(01)
[2]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌. 計(jì)算機(jī)應(yīng)用. 2018(11)
[3]基于詞性特征的特征權(quán)重計(jì)算方法[J]. 胡雯雯,高俊波,施志偉,劉志遠(yuǎn). 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2018(01)
[4]基于卡方統(tǒng)計(jì)的情感文本分類[J]. 周愛(ài)武,馬那那,劉慧婷. 微電子學(xué)與計(jì)算機(jī). 2017(08)
[5]情感傾向性分析及應(yīng)用研究綜述[J]. 李建華,劉功申,林祥. 信息安全學(xué)報(bào). 2017(02)
[6]面向商品評(píng)論文本的情感分析與挖掘[J]. 李涵昱,錢力,周鵬飛. 情報(bào)科學(xué). 2017(01)
[7]決策森林研究綜述[J]. 黃海新,吳迪,文峰. 電子技術(shù)應(yīng)用. 2016(12)
[8]基于Document Triage的TF-IDF算法的改進(jìn)[J]. 李鎮(zhèn)君,周竹榮. 計(jì)算機(jī)應(yīng)用. 2015(12)
[9]Sentiment Analysis for Chinese Text Based on Emotion Degree Lexicon and Cognitive Theories[J]. 武星,呂海濤,卓少劍. Journal of Shanghai Jiaotong University(Science). 2015(01)
[10]基于深度信念網(wǎng)絡(luò)的文本分類算法[J]. 陳翠平. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2015(02)
碩士論文
[1]基于Scrapy框架的網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)與數(shù)據(jù)抓取分析[D]. 安子建.吉林大學(xué) 2017
[2]基于深度學(xué)習(xí)的手寫(xiě)英文單詞檢索算法研究及其在歷史文本上的應(yīng)用[D]. 潘煒深.華南理工大學(xué) 2016
[3]互聯(lián)網(wǎng)商品評(píng)論情感分析研究[D]. 張衛(wèi).重慶大學(xué) 2016
[4]基于深度學(xué)習(xí)的文本情感分析研究[D]. 曹宇慧.哈爾濱工業(yè)大學(xué) 2016
本文編號(hào):3364170
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3364170.html
最近更新
教材專著