基于深度學(xué)習(xí)的商品評(píng)價(jià)情感分析與研究
發(fā)布時(shí)間:2020-05-07 02:56
【摘要】:移動(dòng)互聯(lián)網(wǎng)助推的電子商務(wù)時(shí)代使得商品評(píng)價(jià)空前繁榮,論文提出一種基于深度學(xué)習(xí)的改進(jìn)型模型來分析評(píng)價(jià)數(shù)據(jù)的情感。首先通過分詞與綜合停用詞表等預(yù)處理數(shù)據(jù)集,然后使用Skip-gram模型訓(xùn)練出數(shù)據(jù)集中每個(gè)詞的詞向量,并使用自擴(kuò)充情感詞典對(duì)評(píng)價(jià)語句情感極性進(jìn)行量化,量化的情感正負(fù)值與詞向量形成融合矩陣輸入,并通過分流規(guī)則設(shè)計(jì)進(jìn)行差異網(wǎng)絡(luò)輸入,選擇CNN或RNN完成抽象特征提取,即Shunt-CRNN產(chǎn)品評(píng)價(jià)分類模型(改進(jìn)型深度學(xué)習(xí)方法)。與傳統(tǒng)機(jī)器學(xué)習(xí)SVM相比,改進(jìn)型深度學(xué)習(xí)方法準(zhǔn)確率大幅提升6.6%,較單一深度學(xué)習(xí)方法提高了近1.5%。
【圖文】:
第46卷處理,同時(shí)通過word2vec將每個(gè)詞詞向量求出,如圖4所示,每個(gè)句子最多可分解為n個(gè)詞,同時(shí)每個(gè)詞轉(zhuǎn)為k維的詞向量,即一句評(píng)論文本將成為n×k的二維矩陣。本文將詞向量k設(shè)為200維,同時(shí)為控制矩陣的稀疏度,將文本評(píng)價(jià)語料控制在最多見的64字以內(nèi),即64×200的矩陣表示一句評(píng)論文本,少于64字的評(píng)價(jià)語料進(jìn)行補(bǔ)零處理。圖4相似詞的詞向量矢量距離處理示意圖除圖5本身語料轉(zhuǎn)化的詞向量矩陣“{X1,X2,X3,…,Xi}”外,本文對(duì)每句評(píng)價(jià)語料進(jìn)行了擴(kuò)充詞典的正負(fù)情感詞匹配,從而量化評(píng)價(jià)語料的情感正負(fù)極性,并將量化后的情感極性值正向(positive)方面+1,負(fù)向(negative)方面-1,為防止因訓(xùn)練不足導(dǎo)致的分類精度降低,將情感極值向量進(jìn)行拉普拉斯平滑,如下式所示。Pλ(X(j)=ajk|Y=Cn)=i=1MIx(j)i=ajk啜yi=Cn)+λi=1MIyi=Cn)+SjλPλ(Y=Cn)=i=1MIyi=cn)+λM+Nλ其中ajk代表第j個(gè)特征的第k個(gè)選擇,Sj代表第j個(gè)特征的個(gè)數(shù),而N代表種類的個(gè)數(shù)。圖5模型輸入向量的處理示意圖最終形成一個(gè)如圖5所示的全新輸入向量:K=(P啜W啜N)其中P為正向情感量化向量,Pa為第a個(gè)詞的12維{Pa1,Pa2,…,Pa12}正向(positive)情感量化向量,且增加至Xa1之前,其中aij為一句評(píng)價(jià)語料的第i個(gè)詞的情感量化值;W為通過Skip-gram得到的詞向量,N為負(fù)向情感量化向量,Na為第a個(gè)詞的
對(duì)于文本的分流處理采用了字段長度和情感極性兩個(gè)重要判斷依據(jù),字段長度主要體現(xiàn)一段評(píng)論的前后文關(guān)聯(lián)性,同時(shí)在每句評(píng)價(jià)語料中情感的豐富程度,,情感極性量化可對(duì)其進(jìn)行判斷。通過多次實(shí)驗(yàn)測(cè)試,本文在分流器規(guī)則設(shè)計(jì)方面,選擇將30字以上且情感豐富度高的語料輸入RNN網(wǎng)絡(luò),其余則輸入CNN網(wǎng)絡(luò)進(jìn)行處理。3.3.2構(gòu)建CNN網(wǎng)絡(luò)模型本文采用的多層卷積神經(jīng)網(wǎng)絡(luò)模型(CNN),整個(gè)模型由3層卷積層、1層池化層、1層Flatten層、1層全連接層及Softmax層構(gòu)成,結(jié)構(gòu)如圖6所示。圖6CNN模型結(jié)構(gòu)結(jié)構(gòu)圖卷積核ω∈Rh×k是對(duì)窗口大小為h的k維詞向量進(jìn)行卷積操作,輸出特征為Xi=f(ω′Ci:i+h-1+b)其中Xi為特征,Ci:i+h-1為輸入的文本向量,為激活函數(shù),較常見的如sigmod函數(shù)、tanh函數(shù)、ReLu函數(shù)等,本文考慮了整流線性函數(shù)對(duì)基于梯度方法的優(yōu)化屬性與訓(xùn)練收斂速度,故采用了ReLu函數(shù)作為激活函數(shù):f(x)=max(0啜x)本文每層卷積層由128個(gè)3×3的卷積核來學(xué)習(xí)并提取文本情感特征。卷積核ω對(duì)輸入向量K=(P,W,N)進(jìn)行卷積,即可得到一張?zhí)卣鲌D:X=[x1啜x2啜
本文編號(hào):2652315
【圖文】:
第46卷處理,同時(shí)通過word2vec將每個(gè)詞詞向量求出,如圖4所示,每個(gè)句子最多可分解為n個(gè)詞,同時(shí)每個(gè)詞轉(zhuǎn)為k維的詞向量,即一句評(píng)論文本將成為n×k的二維矩陣。本文將詞向量k設(shè)為200維,同時(shí)為控制矩陣的稀疏度,將文本評(píng)價(jià)語料控制在最多見的64字以內(nèi),即64×200的矩陣表示一句評(píng)論文本,少于64字的評(píng)價(jià)語料進(jìn)行補(bǔ)零處理。圖4相似詞的詞向量矢量距離處理示意圖除圖5本身語料轉(zhuǎn)化的詞向量矩陣“{X1,X2,X3,…,Xi}”外,本文對(duì)每句評(píng)價(jià)語料進(jìn)行了擴(kuò)充詞典的正負(fù)情感詞匹配,從而量化評(píng)價(jià)語料的情感正負(fù)極性,并將量化后的情感極性值正向(positive)方面+1,負(fù)向(negative)方面-1,為防止因訓(xùn)練不足導(dǎo)致的分類精度降低,將情感極值向量進(jìn)行拉普拉斯平滑,如下式所示。Pλ(X(j)=ajk|Y=Cn)=i=1MIx(j)i=ajk啜yi=Cn)+λi=1MIyi=Cn)+SjλPλ(Y=Cn)=i=1MIyi=cn)+λM+Nλ其中ajk代表第j個(gè)特征的第k個(gè)選擇,Sj代表第j個(gè)特征的個(gè)數(shù),而N代表種類的個(gè)數(shù)。圖5模型輸入向量的處理示意圖最終形成一個(gè)如圖5所示的全新輸入向量:K=(P啜W啜N)其中P為正向情感量化向量,Pa為第a個(gè)詞的12維{Pa1,Pa2,…,Pa12}正向(positive)情感量化向量,且增加至Xa1之前,其中aij為一句評(píng)價(jià)語料的第i個(gè)詞的情感量化值;W為通過Skip-gram得到的詞向量,N為負(fù)向情感量化向量,Na為第a個(gè)詞的
對(duì)于文本的分流處理采用了字段長度和情感極性兩個(gè)重要判斷依據(jù),字段長度主要體現(xiàn)一段評(píng)論的前后文關(guān)聯(lián)性,同時(shí)在每句評(píng)價(jià)語料中情感的豐富程度,,情感極性量化可對(duì)其進(jìn)行判斷。通過多次實(shí)驗(yàn)測(cè)試,本文在分流器規(guī)則設(shè)計(jì)方面,選擇將30字以上且情感豐富度高的語料輸入RNN網(wǎng)絡(luò),其余則輸入CNN網(wǎng)絡(luò)進(jìn)行處理。3.3.2構(gòu)建CNN網(wǎng)絡(luò)模型本文采用的多層卷積神經(jīng)網(wǎng)絡(luò)模型(CNN),整個(gè)模型由3層卷積層、1層池化層、1層Flatten層、1層全連接層及Softmax層構(gòu)成,結(jié)構(gòu)如圖6所示。圖6CNN模型結(jié)構(gòu)結(jié)構(gòu)圖卷積核ω∈Rh×k是對(duì)窗口大小為h的k維詞向量進(jìn)行卷積操作,輸出特征為Xi=f(ω′Ci:i+h-1+b)其中Xi為特征,Ci:i+h-1為輸入的文本向量,為激活函數(shù),較常見的如sigmod函數(shù)、tanh函數(shù)、ReLu函數(shù)等,本文考慮了整流線性函數(shù)對(duì)基于梯度方法的優(yōu)化屬性與訓(xùn)練收斂速度,故采用了ReLu函數(shù)作為激活函數(shù):f(x)=max(0啜x)本文每層卷積層由128個(gè)3×3的卷積核來學(xué)習(xí)并提取文本情感特征。卷積核ω對(duì)輸入向量K=(P,W,N)進(jìn)行卷積,即可得到一張?zhí)卣鲌D:X=[x1啜x2啜
本文編號(hào):2652315
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/2652315.html
最近更新
教材專著