電子商務(wù)在線評論情感分類方法研究
發(fā)布時間:2021-06-29 13:07
隨著電子商務(wù)的迅速發(fā)展,各個電子商務(wù)平臺都積累了海量的消費者在線評論數(shù)據(jù),這些數(shù)據(jù)蘊藏著極高的商業(yè)價值,分析其內(nèi)容對商家和消費者都具有重要意義,尤其是自動識別評論內(nèi)容的褒貶性對其進(jìn)行情感分類。然而在面對海量評論數(shù)據(jù)時,僅僅依靠人工處理已無法滿足需要,這就使得評論文本內(nèi)容自動分類技術(shù)變得十分重要。本研究將現(xiàn)有的文本分類技術(shù)運用到電子商務(wù)在線評論文本情感分類問題中,通過實驗來對比各種分類方法在解決該問題上的優(yōu)劣性。研究主要做了以下工作:首先利用網(wǎng)絡(luò)爬蟲技術(shù)采集真實的電子商務(wù)網(wǎng)站在線評論文本數(shù)據(jù)和評分?jǐn)?shù)據(jù),對數(shù)據(jù)做預(yù)處理后利用Word2vec工具建立詞向量模型,以及建立針對電子商務(wù)在線評論文本分類任務(wù)的情感詞典,并選擇合適的特征提取方法進(jìn)行特征提取,然后分別使用基于詞典的分類方法,K近鄰、決策樹、樸素貝葉斯、支持向量機等基于機器學(xué)習(xí)的分類方法,以及卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶模型等深度學(xué)習(xí)分類方法,對采集的在線客戶評論文本數(shù)據(jù)進(jìn)行分類,最后比較各種分類方法的準(zhǔn)確率、召回率和F測度指標(biāo),從而對比分析各種分類方法的優(yōu)缺點。實驗結(jié)果表明,基于情感詞典的方法從各指標(biāo)上都明顯不如其他方法,可見雖然該方法實...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1論文框架??第一章,緒論
W(t+1)?——??W(t+2)—??圖2-2?CBOW模型結(jié)構(gòu)示意圖??CBOW的輸入層是由2c個當(dāng)前詞在語料中的上下文向量構(gòu)成,上下各c個。??投影層是由對輸入層向量的算術(shù)求和來得到,即;cw=E%W(t?+?c)?-?w(t),可??見投影層不包含任何參數(shù)。輸出層是以語料中出現(xiàn)過的詞為葉子結(jié)點,權(quán)值為詞??語在語料中的頻數(shù),構(gòu)造的一棵霍夫曼樹。若一共有n個詞出現(xiàn)在語料中,那么??該霍夫曼樹就有n個葉子結(jié)點,n-1個非葉子結(jié)點,并且每個非葉子結(jié)點都有一??個參數(shù)向量0/。由霍夫曼樹得到的目標(biāo)函數(shù)Y表示由;nv和參數(shù)向量0/??(j=l,2,3,…,k,k取決于當(dāng)前詞在樹中的位置)計算當(dāng)前詞的概率,再由梯度上??升法優(yōu)化Y,然后更新參數(shù)和當(dāng)前詞上下文2c個詞的詞向量。??16??
1??詞語的相似性判斷??圖4-2?Word2vec詞向量模型訓(xùn)練流程圖??本研宂使用Python2.7編寫程序代碼,首先導(dǎo)入原始評論文本數(shù)據(jù),對數(shù)據(jù)??做預(yù)處理,得到分詞后的數(shù)據(jù),這一步己在第二章完成,其次在程序中導(dǎo)入gensim??庫,設(shè)置模型參數(shù)為:向量維度〗〇〇,訓(xùn)練epoch為5,min_count等于1?(詞??典詞頻,表示模型在訓(xùn)練詞向量對詞典做截斷時,少于該參數(shù)次數(shù)的詞會去掉),??window?(表示當(dāng)前詞與預(yù)測詞在一"句子中的最大距離)等于5,模型采用??CBOW(DBOW),建立初始化參數(shù)的Word2Vec模型。將預(yù)處理后的語料數(shù)據(jù)導(dǎo)??入W〇rd2VeC模型進(jìn)行模型訓(xùn)練,得到訓(xùn)練之后的詞向量模型,最后詞語相似度??用?model.similarity?來計算。??32??
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量的跨領(lǐng)域中文情感詞典構(gòu)建方法[J]. 馮超,梁循,李亞平,周小平,李曉菲. 數(shù)據(jù)采集與處理. 2017(03)
[2]面向汽車評論的細(xì)粒度情感分析方法研究[J]. 陳炳豐,郝志峰,蔡瑞初,溫雯,王麗娟,黃浩,蔡曉鳳. 廣東工業(yè)大學(xué)學(xué)報. 2017(03)
[3]分段卷積神經(jīng)網(wǎng)絡(luò)在文本情感分析中的應(yīng)用[J]. 杜昌順,黃磊. 計算機工程與科學(xué). 2017(01)
[4]網(wǎng)絡(luò)用語詞典的構(gòu)建及問題分析[J]. 昝紅英,許鴻飛,張坤麗,穗志方. 中文信息學(xué)報. 2016(06)
[5]面向產(chǎn)品特征的中文在線評論情感分類:以本體建模為方法[J]. 尹裴,王洪偉. 系統(tǒng)管理學(xué)報. 2016(01)
[6]基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J]. 劉龍飛,楊亮,張紹武,林鴻飛. 中文信息學(xué)報. 2015(06)
[7]基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J]. 梁軍,柴玉梅,原慧斌,高明磊,昝紅英. 中文信息學(xué)報. 2015(05)
[8]基于情感傾向的在線評論對購買決策的影響[J]. 錢瑛,楊定華. 商業(yè)研究. 2015(06)
[9]基于極性詞典的中文微博客情感分類[J]. 王勇,呂學(xué)強,姬連春,肖詩斌. 計算機應(yīng)用與軟件. 2014(01)
[10]微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J]. 王連喜. 圖書情報工作. 2013(11)
博士論文
[1]面向微博短文本的情感分析研究[D]. 劉楠.武漢大學(xué) 2013
[2]在線中文評論情感分類問題研究[D]. 張紫瓊.哈爾濱工業(yè)大學(xué) 2010
[3]基于Web的評論文本情感分類問題研究[D]. 王素格.上海大學(xué) 2008
碩士論文
[1]基于上下文觀點的微博情感傾向分析研究[D]. 劉承運.山東師范大學(xué) 2017
[2]基于深度神經(jīng)網(wǎng)絡(luò)的微博短文本情感分析研究[D]. 張英.中原工學(xué)院 2017
[3]面向評論文本的多文檔情感摘要研究[D]. 李憲毅.山東師范大學(xué) 2016
[4]面向汽車在線評論的情感分類研究與應(yīng)用[D]. 黃鶴.哈爾濱工業(yè)大學(xué) 2013
[5]中文文本傾向性分類系統(tǒng)研究[D]. 鄧忠瑩.昆明理工大學(xué) 2009
本文編號:3256500
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1論文框架??第一章,緒論
W(t+1)?——??W(t+2)—??圖2-2?CBOW模型結(jié)構(gòu)示意圖??CBOW的輸入層是由2c個當(dāng)前詞在語料中的上下文向量構(gòu)成,上下各c個。??投影層是由對輸入層向量的算術(shù)求和來得到,即;cw=E%W(t?+?c)?-?w(t),可??見投影層不包含任何參數(shù)。輸出層是以語料中出現(xiàn)過的詞為葉子結(jié)點,權(quán)值為詞??語在語料中的頻數(shù),構(gòu)造的一棵霍夫曼樹。若一共有n個詞出現(xiàn)在語料中,那么??該霍夫曼樹就有n個葉子結(jié)點,n-1個非葉子結(jié)點,并且每個非葉子結(jié)點都有一??個參數(shù)向量0/。由霍夫曼樹得到的目標(biāo)函數(shù)Y表示由;nv和參數(shù)向量0/??(j=l,2,3,…,k,k取決于當(dāng)前詞在樹中的位置)計算當(dāng)前詞的概率,再由梯度上??升法優(yōu)化Y,然后更新參數(shù)和當(dāng)前詞上下文2c個詞的詞向量。??16??
1??詞語的相似性判斷??圖4-2?Word2vec詞向量模型訓(xùn)練流程圖??本研宂使用Python2.7編寫程序代碼,首先導(dǎo)入原始評論文本數(shù)據(jù),對數(shù)據(jù)??做預(yù)處理,得到分詞后的數(shù)據(jù),這一步己在第二章完成,其次在程序中導(dǎo)入gensim??庫,設(shè)置模型參數(shù)為:向量維度〗〇〇,訓(xùn)練epoch為5,min_count等于1?(詞??典詞頻,表示模型在訓(xùn)練詞向量對詞典做截斷時,少于該參數(shù)次數(shù)的詞會去掉),??window?(表示當(dāng)前詞與預(yù)測詞在一"句子中的最大距離)等于5,模型采用??CBOW(DBOW),建立初始化參數(shù)的Word2Vec模型。將預(yù)處理后的語料數(shù)據(jù)導(dǎo)??入W〇rd2VeC模型進(jìn)行模型訓(xùn)練,得到訓(xùn)練之后的詞向量模型,最后詞語相似度??用?model.similarity?來計算。??32??
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量的跨領(lǐng)域中文情感詞典構(gòu)建方法[J]. 馮超,梁循,李亞平,周小平,李曉菲. 數(shù)據(jù)采集與處理. 2017(03)
[2]面向汽車評論的細(xì)粒度情感分析方法研究[J]. 陳炳豐,郝志峰,蔡瑞初,溫雯,王麗娟,黃浩,蔡曉鳳. 廣東工業(yè)大學(xué)學(xué)報. 2017(03)
[3]分段卷積神經(jīng)網(wǎng)絡(luò)在文本情感分析中的應(yīng)用[J]. 杜昌順,黃磊. 計算機工程與科學(xué). 2017(01)
[4]網(wǎng)絡(luò)用語詞典的構(gòu)建及問題分析[J]. 昝紅英,許鴻飛,張坤麗,穗志方. 中文信息學(xué)報. 2016(06)
[5]面向產(chǎn)品特征的中文在線評論情感分類:以本體建模為方法[J]. 尹裴,王洪偉. 系統(tǒng)管理學(xué)報. 2016(01)
[6]基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J]. 劉龍飛,楊亮,張紹武,林鴻飛. 中文信息學(xué)報. 2015(06)
[7]基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J]. 梁軍,柴玉梅,原慧斌,高明磊,昝紅英. 中文信息學(xué)報. 2015(05)
[8]基于情感傾向的在線評論對購買決策的影響[J]. 錢瑛,楊定華. 商業(yè)研究. 2015(06)
[9]基于極性詞典的中文微博客情感分類[J]. 王勇,呂學(xué)強,姬連春,肖詩斌. 計算機應(yīng)用與軟件. 2014(01)
[10]微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J]. 王連喜. 圖書情報工作. 2013(11)
博士論文
[1]面向微博短文本的情感分析研究[D]. 劉楠.武漢大學(xué) 2013
[2]在線中文評論情感分類問題研究[D]. 張紫瓊.哈爾濱工業(yè)大學(xué) 2010
[3]基于Web的評論文本情感分類問題研究[D]. 王素格.上海大學(xué) 2008
碩士論文
[1]基于上下文觀點的微博情感傾向分析研究[D]. 劉承運.山東師范大學(xué) 2017
[2]基于深度神經(jīng)網(wǎng)絡(luò)的微博短文本情感分析研究[D]. 張英.中原工學(xué)院 2017
[3]面向評論文本的多文檔情感摘要研究[D]. 李憲毅.山東師范大學(xué) 2016
[4]面向汽車在線評論的情感分類研究與應(yīng)用[D]. 黃鶴.哈爾濱工業(yè)大學(xué) 2013
[5]中文文本傾向性分類系統(tǒng)研究[D]. 鄧忠瑩.昆明理工大學(xué) 2009
本文編號:3256500
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/3256500.html
最近更新
教材專著