天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于電商商品評(píng)論文本的情感分析研究

發(fā)布時(shí)間:2020-04-10 04:05
【摘要】:海量電商商品評(píng)價(jià)信息中蘊(yùn)含著巨大商業(yè)價(jià)值。同時(shí),大量的電商商品評(píng)論信息給人工甄別和選擇帶來(lái)了極大的困難,因此,如何采用高效的情感分析技術(shù)使計(jì)算機(jī)能自動(dòng)地對(duì)電商商品評(píng)論信息進(jìn)行情感分類,給購(gòu)物者和商品生產(chǎn)企業(yè)提供更加準(zhǔn)確的評(píng)論情感信息,幫助用戶快速了解商品口碑,正確選擇商品,幫助企業(yè)改善商品品質(zhì)。本文的主要目的是對(duì)電商商品評(píng)論進(jìn)行情感分析,主要研究工作包括:1、商品評(píng)論的預(yù)處理工作。選取某電商網(wǎng)站上的手機(jī)評(píng)論作為研究對(duì)象,使用爬蟲進(jìn)行數(shù)據(jù)采集,對(duì)獲取的評(píng)論數(shù)據(jù)進(jìn)行文本的預(yù)處理工作,主要包括文本初篩過濾、數(shù)據(jù)清洗、中文分詞、詞性標(biāo)注,去停用詞等,為后續(xù)評(píng)論文本的情感分析做準(zhǔn)備。2、特征選擇和特征權(quán)重。首先,特征選擇是情感分類過程中非常重要的一個(gè)環(huán)節(jié),選取合適的特征有利于提高情感分類的效果。通過對(duì)各種特征選擇算法的分析,本文以信息增益(IG)算法為基礎(chǔ)進(jìn)行適當(dāng)?shù)馗倪M(jìn),把特征在類內(nèi)和類外的頻度作為特征選擇的一個(gè)指標(biāo)加入到信息增益值的計(jì)算中;其次,對(duì)于特征權(quán)重,本文基于TF-IDF算法進(jìn)行改進(jìn),同樣加入特征在類內(nèi)和類外的頻度進(jìn)行特征權(quán)重的計(jì)算。實(shí)驗(yàn)表明,改進(jìn)的特征選擇和特征權(quán)重算法提高了分類的正確率。最后,將兩種改進(jìn)算法進(jìn)行組合,完成特征選取和特征權(quán)重的工作,并運(yùn)用在后續(xù)的情感分類中。3、多重決策組合分類模型構(gòu)建;谌Q策思想提出了一種多重決策組合分類器。采用集成學(xué)習(xí)的思想,將單分類器進(jìn)行適當(dāng)組合。使用支持向量機(jī)分類器對(duì)文本集進(jìn)行第一次三支決策,對(duì)于產(chǎn)生的第邊界域Ⅰ使用k NN算法進(jìn)行第二次三支決策,對(duì)于邊界域Ⅱ使用樸素貝葉斯算法進(jìn)行第三次三支決策,對(duì)于邊界域Ⅲ由樸素貝葉斯分類器,k NN和支持向量機(jī)分類器加權(quán)投票決定。實(shí)驗(yàn)表明新的分類模型有助于提高評(píng)論文本情感分類的正確率,具有一定的優(yōu)勢(shì)。
【圖文】:

流程圖,評(píng)論文,商品,流程圖


第五章 實(shí)驗(yàn)結(jié)果及分析5.1 實(shí)驗(yàn)概述本章的主要內(nèi)容是根據(jù)第三章第四章中的論述的算法和提出的模型進(jìn)行實(shí)驗(yàn),通過對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證本文提出的改進(jìn)算法的優(yōu)勢(shì)。5.1.1 數(shù)據(jù)的采集本文使用爬蟲技術(shù)爬取京東商城上的小米 Mix2S 手機(jī)評(píng)論,代碼使用 Python進(jìn)行編寫,,使用現(xiàn)有的 Scrapy 框架,因?yàn)槠涔δ軓?qiáng)大,開發(fā)簡(jiǎn)單,速度較快,是比較理想的網(wǎng)絡(luò)爬蟲框架,數(shù)據(jù)采集的流程如圖 5-1 所示。

變化曲線,維度,變化曲線,召回率


正確率隨著特征維度變化曲線圖
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:F724.6;F274;TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 汪明霓;BASIC文本系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;1988年01期

2 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

3 婁道國(guó);李若斌;劉冰;張冬冬;;云計(jì)算下各分散文本數(shù)據(jù)的全方位集成融合方法[J];科技通報(bào);2019年02期

4 張慧倫;;伴隨文本:透視網(wǎng)絡(luò)文學(xué)發(fā)展的重要路徑[J];百家評(píng)論;2019年04期

5 潘大勝;;不確定噪聲下海量文本數(shù)據(jù)的模糊挖掘算法研究[J];微電子學(xué)與計(jì)算機(jī);2017年09期

6 王珊珊;馮利鑫;;基于新詞識(shí)別的大數(shù)據(jù)聊天文本輿情熱點(diǎn)挖掘[J];電子商務(wù);2018年01期

7 陳曉峰;如何在flash中讀入外部文本數(shù)據(jù)[J];電腦知識(shí)與技術(shù);2004年13期

8 馬欣欣;林克;;大文本數(shù)據(jù)快速分析統(tǒng)計(jì)理論與算法[J];電子元器件與信息技術(shù);2019年01期

9 施瑞朗;;基于社交平臺(tái)數(shù)據(jù)的文本分類算法研究[J];電子科技;2018年10期

10 張玉紅;陳偉;胡學(xué)鋼;;一種面向不完全標(biāo)記的文本數(shù)據(jù)流自適應(yīng)分類方法[J];計(jì)算機(jī)科學(xué);2016年12期

相關(guān)會(huì)議論文 前10條

1 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

2 陳光強(qiáng);楊樹強(qiáng);張曉輝;李潤(rùn)恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實(shí)現(xiàn)[A];第15屆全國(guó)信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年

3 周純潔;黎]

本文編號(hào):2621724


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2621724.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7c3a7***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com