基于深度學(xué)習(xí)的中文網(wǎng)購(gòu)評(píng)論中產(chǎn)品特征挖掘
發(fā)布時(shí)間:2020-05-04 18:02
【摘要】:隨著電子商務(wù)系統(tǒng)評(píng)價(jià)體系的完善,網(wǎng)購(gòu)評(píng)論的內(nèi)容對(duì)消費(fèi)者的購(gòu)物行為起到越來(lái)越重要的指導(dǎo)作用。網(wǎng)購(gòu)評(píng)論客觀體現(xiàn)了消費(fèi)者對(duì)商家服務(wù)態(tài)度、售后服務(wù)和商品質(zhì)量、外觀、尺寸等方面的評(píng)價(jià)。消費(fèi)者可以根據(jù)評(píng)論總體把握商品以及商家的優(yōu)點(diǎn)和缺點(diǎn),并能通過(guò)評(píng)論數(shù)據(jù)根據(jù)自己的喜好挑選商品;同時(shí)商家可以根據(jù)評(píng)論改善自己在店鋪運(yùn)營(yíng)上存在的問(wèn)題及時(shí)發(fā)現(xiàn)商品中存在的瑕疵,并根據(jù)消費(fèi)者的喜好及時(shí)補(bǔ)充口碑好的商品。本文主要實(shí)現(xiàn)自動(dòng)化抽取商品評(píng)論中的商品特征以及特征對(duì)應(yīng)的評(píng)價(jià),這樣可以更加直觀的體現(xiàn)商品各方面的優(yōu)劣以及用戶的偏好。對(duì)于文本序列中重要信息的抽取屬于自然語(yǔ)言處理領(lǐng)域的信息抽取任務(wù);谏疃葘W(xué)習(xí)實(shí)現(xiàn)序列預(yù)測(cè)模型對(duì)文本評(píng)論中的商品特征和特征對(duì)應(yīng)的評(píng)價(jià)進(jìn)行抽取,從而避免人工總結(jié)復(fù)雜的特征規(guī)則,模型同時(shí)具有商品領(lǐng)域普適性,可以適用于多種商品類別。據(jù)此本文具體做了以下幾項(xiàng)工作:(1)由于自注意力(Self-Attention)機(jī)制在序列建模過(guò)程之中可以捕捉任意絕對(duì)位置和相對(duì)位置的依賴關(guān)系,所以本文提出利用Transformer模型的編碼器模塊構(gòu)造LSTM-ATT-CRF信息抽取模型,在LSTM-CRF模型中加入自注意力機(jī)制彌補(bǔ)循環(huán)神經(jīng)網(wǎng)絡(luò)中梯度消失帶來(lái)的文本上下文依賴信息的損失,增強(qiáng)模型對(duì)上下文信息記憶能力。(2)本文從基于字符級(jí)別的字向量和詞匯級(jí)別的詞向量?jī)蓚(gè)方面進(jìn)行建模,探究在商品特征及其評(píng)價(jià)信息抽取的最好實(shí)現(xiàn)方式。由實(shí)驗(yàn)可得基于字符級(jí)和詞匯級(jí)的模型在商品特征抽取上存在差異,由于特征對(duì)應(yīng)的評(píng)價(jià)表達(dá)方式多樣,基于字符級(jí)別模型表現(xiàn)優(yōu)于基于詞匯級(jí)的模型,這主要是由于特征對(duì)應(yīng)評(píng)價(jià)的表達(dá)方式多樣,基于詞匯級(jí)別模型中在進(jìn)行中文分詞階段遇到了瓶頸。(3)在評(píng)論中商品特征多為名詞,特征對(duì)應(yīng)的評(píng)價(jià)多為形容詞,在此背景下本文首次提出將詞性等類別特征通過(guò)二進(jìn)制編碼和線性變換的方式轉(zhuǎn)化成分布式向量表示,并在基于詞匯級(jí)別建模中起到了提高名詞和形容詞識(shí)別率的作用。
【圖文】:
隱馬爾可夫模型由出初始化概率71,各狀態(tài)之間的概率轉(zhuǎn)移矩陣兒有當(dāng)前逡逑狀態(tài)生成當(dāng)前觀測(cè)[41]的發(fā)射概率矩陣B決定。隱馬爾可夫模型人可以由71、4、S三逡逑元組表示,即A邋=邋01,5,?0,圖2.1展示了隱馬爾可夫模型的原理。逡逑h邐h邐h邐h+i邐h+2逡逑V邐>邋r邐>邋r邐V邐>邋r逡逑圖2.邋1隱馬爾可夫模型原理圖逡逑隱馬爾可夫模型服從齊次馬爾可夫性和觀測(cè)獨(dú)立性兩個(gè)基本假設(shè)[41],齊次馬逡逑爾科夫性表示為當(dāng)前時(shí)刻的狀態(tài)只由前一時(shí)刻的狀態(tài)有關(guān)和更早時(shí)刻的狀態(tài)無(wú)逡逑8逡逑
X邋=邋(x1(x2,-,xn)逡逑圖2.3線性鏈條件隨機(jī)場(chǎng)逡逑由于概率無(wú)向圖中最大團(tuán)上勢(shì)函數(shù)的乘積可以表示無(wú)向圖的聯(lián)合概率分布,逡逑線性鏈條件隨機(jī)場(chǎng)中相鄰的兩個(gè)節(jié)點(diǎn)恰巧構(gòu)成了最大團(tuán),所以Y的概率可由逡逑的兩個(gè)節(jié)點(diǎn)是勢(shì)函數(shù)乘積表示。逡逑P(y\x)邋=邋-^exp^khtkQyi-vyuXA)+邋1,1,1^邋(y£,,A:,0)邋(2.19)逡逑,逡逑Z(.x)邋=邋Y.y邋ex邋p0,i邋h邋h(yi-i.邋y0邋X,邋0邋+邋Sy邋liiSiiyi,x,邋0)邋(2.20)逡逑為i邋-邋1到i之間的標(biāo)記轉(zhuǎn)移特征函數(shù), ̄為序列當(dāng)前時(shí)刻的狀態(tài)特征函數(shù),逡逑N戲直鷂卣魅ㄖ,
本文編號(hào):2648780
【圖文】:
隱馬爾可夫模型由出初始化概率71,各狀態(tài)之間的概率轉(zhuǎn)移矩陣兒有當(dāng)前逡逑狀態(tài)生成當(dāng)前觀測(cè)[41]的發(fā)射概率矩陣B決定。隱馬爾可夫模型人可以由71、4、S三逡逑元組表示,即A邋=邋01,5,?0,圖2.1展示了隱馬爾可夫模型的原理。逡逑h邐h邐h邐h+i邐h+2逡逑V邐>邋r邐>邋r邐V邐>邋r逡逑圖2.邋1隱馬爾可夫模型原理圖逡逑隱馬爾可夫模型服從齊次馬爾可夫性和觀測(cè)獨(dú)立性兩個(gè)基本假設(shè)[41],齊次馬逡逑爾科夫性表示為當(dāng)前時(shí)刻的狀態(tài)只由前一時(shí)刻的狀態(tài)有關(guān)和更早時(shí)刻的狀態(tài)無(wú)逡逑8逡逑
X邋=邋(x1(x2,-,xn)逡逑圖2.3線性鏈條件隨機(jī)場(chǎng)逡逑由于概率無(wú)向圖中最大團(tuán)上勢(shì)函數(shù)的乘積可以表示無(wú)向圖的聯(lián)合概率分布,逡逑線性鏈條件隨機(jī)場(chǎng)中相鄰的兩個(gè)節(jié)點(diǎn)恰巧構(gòu)成了最大團(tuán),所以Y的概率可由逡逑的兩個(gè)節(jié)點(diǎn)是勢(shì)函數(shù)乘積表示。逡逑P(y\x)邋=邋-^exp^khtkQyi-vyuXA)+邋1,1,1^邋(y£,,A:,0)邋(2.19)逡逑,逡逑Z(.x)邋=邋Y.y邋ex邋p0,i邋h邋h(yi-i.邋y0邋X,邋0邋+邋Sy邋liiSiiyi,x,邋0)邋(2.20)逡逑為i邋-邋1到i之間的標(biāo)記轉(zhuǎn)移特征函數(shù), ̄為序列當(dāng)前時(shí)刻的狀態(tài)特征函數(shù),逡逑N戲直鷂卣魅ㄖ,
本文編號(hào):2648780
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2648780.html
最近更新
教材專著