產(chǎn)品評(píng)論中的用戶建議挖掘研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-07-14 00:36
隨著互聯(lián)網(wǎng)和電子商務(wù)的快速發(fā)展,越來(lái)越多的人選擇在網(wǎng)上購(gòu)買商品或者服務(wù)。在市場(chǎng)競(jìng)爭(zhēng)白熱化的情況下,商家需要及時(shí)發(fā)現(xiàn)消費(fèi)者對(duì)產(chǎn)品的一些新需求,以提高產(chǎn)品的市場(chǎng)接受度和競(jìng)爭(zhēng)力。而產(chǎn)品評(píng)論中的用戶建議描述了用戶對(duì)產(chǎn)品或企業(yè)提出的一些具體建議,可以幫助企業(yè)改進(jìn)后續(xù)產(chǎn)品和制定相應(yīng)的營(yíng)銷策略,具有十分重要的應(yīng)用價(jià)值,需要對(duì)其進(jìn)行挖掘。對(duì)產(chǎn)品評(píng)論中的用戶建議挖掘研究而言,首要任務(wù)是從大量的產(chǎn)品評(píng)論中檢測(cè)出包含用戶建議的評(píng)論。本文針對(duì)建議檢測(cè)任務(wù)中缺少相關(guān)數(shù)據(jù)集、中文建議表達(dá)方式靈活、特征構(gòu)建困難、人工標(biāo)注工作量大等問題進(jìn)行研究,并以此為基礎(chǔ)構(gòu)建了產(chǎn)品評(píng)論中的用戶建議挖掘原型系統(tǒng)主要模塊。具體而言,本文的主要研究?jī)?nèi)容如下:1.首先針對(duì)缺乏建議挖掘標(biāo)注數(shù)據(jù)集的問題,抓取數(shù)據(jù)并人工構(gòu)造了關(guān)于中文產(chǎn)品評(píng)論的建議挖掘數(shù)據(jù)集。接著提出了一種集成學(xué)習(xí)模型來(lái)進(jìn)行建議語(yǔ)句分類。首先使用Stacking組合分類器來(lái)構(gòu)建概率特征空間,使用卷積神經(jīng)網(wǎng)絡(luò)和段落向量模型分別構(gòu)建評(píng)論文本的卷積神經(jīng)網(wǎng)絡(luò)特征空間和段落向量特征空間,然后對(duì)上述特征進(jìn)行融合,并訓(xùn)練Bagging分類器來(lái)對(duì)建議語(yǔ)句分類。在中文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了本研...
【文章來(lái)源】:重慶郵電大學(xué)重慶市
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
在線評(píng)論示意圖
圖 3.1 顯式和隱式建議語(yǔ)句示例究者們?cè)诋a(chǎn)品評(píng)論、推文等類型的數(shù)據(jù)集上開展了建議研究進(jìn)展,但已有研究均是在英文語(yǔ)料上開展的,從國(guó)內(nèi)在中文數(shù)據(jù)集上開展的相關(guān)研究。不同于英文,中文環(huán)富,呈現(xiàn)出許多與英文不同的特點(diǎn),需要研究新的方法以上考慮,本研究從產(chǎn)品論壇中收集標(biāo)注了可用于建議了一種能融合評(píng)論文本多種特征的集成學(xué)習(xí)模型,首次究。該模型通過使用 Stacking 組合分類器、改進(jìn)的 CN多種文本特征空間,接著進(jìn)行特征融合,訓(xùn)練集成學(xué)習(xí)通過與多種機(jī)器學(xué)習(xí)分類模型進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果議語(yǔ)句分類方面的有效性。構(gòu)建
圖 3.4 Pos-TextCNN 模型結(jié)構(gòu)段落向量特征空間的構(gòu)建N 網(wǎng)絡(luò)模型可以比較好的學(xué)習(xí)到較強(qiáng)的局部特征和一定長(zhǎng)度的上下中文中,構(gòu)成建議表達(dá)的詞組可能相距很遠(yuǎn)。例如“如果三星智付支就好了”,只有看完整句話,根據(jù)“如果…就好”才可以判斷這句話。所以本章考慮對(duì)整個(gè)文檔構(gòu)建段落特征向量表示。不同于之前的詞 特征,段落向量包含了文檔中整體的語(yǔ)序、語(yǔ)義及上下文信息,可以CNN 特征進(jìn)行互補(bǔ)。本章使用 PV 模型來(lái)構(gòu)建段落向量特征空間。監(jiān)督式算法,可以將文本作為一個(gè)整體,用段落向量進(jìn)行表示[29]。PV括 PV-DM(Distributed Memory Model of Paragraph Vectors) (Distributed Bag of Words version of Paragraph Vector)兩種訓(xùn)練方式來(lái)
【參考文獻(xiàn)】:
期刊論文
[1]文本情緒分析綜述[J]. 李然,林政,林海倫,王偉平,孟丹. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[2]一種用于構(gòu)建用戶畫像的二級(jí)融合算法框架[J]. 李恒超,林鴻飛,楊亮,徐博,魏曉聰,張紹武,古麗孜熱·艾尼外. 計(jì)算機(jī)科學(xué). 2018(01)
[3]基于CNN特征空間的微博多標(biāo)簽情感分類[J]. 孫松濤,何炎祥. 工程科學(xué)與技術(shù). 2017(03)
[4]基于自編碼網(wǎng)絡(luò)特征降維的輕量級(jí)入侵檢測(cè)模型[J]. 高妮,高嶺,賀毅岳,王海. 電子學(xué)報(bào). 2017(03)
[5]基于支持向量機(jī)的PU中文文本分類器構(gòu)建[J]. 王宗堯,劉金嶺. 南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(06)
[6]自編碼網(wǎng)絡(luò)短文本流形表示方法[J]. 魏超,羅森林,張競(jìng),潘麗敏. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2015(08)
[7]基于全局變量CRFs模型的微博情感對(duì)象識(shí)別方法[J]. 郝志峰,杜慎芝,蔡瑞初,溫雯. 中文信息學(xué)報(bào). 2015(04)
[8]基于PU學(xué)習(xí)算法的虛假評(píng)論識(shí)別研究[J]. 任亞峰,姬東鴻,張紅斌,尹蘭. 計(jì)算機(jī)研究與發(fā)展. 2015(03)
[9]一種基于聚類的PU主動(dòng)文本分類方法[J]. 劉露,彭濤,左萬(wàn)利,戴耀康. 軟件學(xué)報(bào). 2013(11)
[10]基于Stacking組合分類方法的中文情感分類研究[J]. 李壽山,黃居仁. 中文信息學(xué)報(bào). 2010(05)
本文編號(hào):3283041
【文章來(lái)源】:重慶郵電大學(xué)重慶市
【文章頁(yè)數(shù)】:62 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
在線評(píng)論示意圖
圖 3.1 顯式和隱式建議語(yǔ)句示例究者們?cè)诋a(chǎn)品評(píng)論、推文等類型的數(shù)據(jù)集上開展了建議研究進(jìn)展,但已有研究均是在英文語(yǔ)料上開展的,從國(guó)內(nèi)在中文數(shù)據(jù)集上開展的相關(guān)研究。不同于英文,中文環(huán)富,呈現(xiàn)出許多與英文不同的特點(diǎn),需要研究新的方法以上考慮,本研究從產(chǎn)品論壇中收集標(biāo)注了可用于建議了一種能融合評(píng)論文本多種特征的集成學(xué)習(xí)模型,首次究。該模型通過使用 Stacking 組合分類器、改進(jìn)的 CN多種文本特征空間,接著進(jìn)行特征融合,訓(xùn)練集成學(xué)習(xí)通過與多種機(jī)器學(xué)習(xí)分類模型進(jìn)行實(shí)驗(yàn)對(duì)比,實(shí)驗(yàn)結(jié)果議語(yǔ)句分類方面的有效性。構(gòu)建
圖 3.4 Pos-TextCNN 模型結(jié)構(gòu)段落向量特征空間的構(gòu)建N 網(wǎng)絡(luò)模型可以比較好的學(xué)習(xí)到較強(qiáng)的局部特征和一定長(zhǎng)度的上下中文中,構(gòu)成建議表達(dá)的詞組可能相距很遠(yuǎn)。例如“如果三星智付支就好了”,只有看完整句話,根據(jù)“如果…就好”才可以判斷這句話。所以本章考慮對(duì)整個(gè)文檔構(gòu)建段落特征向量表示。不同于之前的詞 特征,段落向量包含了文檔中整體的語(yǔ)序、語(yǔ)義及上下文信息,可以CNN 特征進(jìn)行互補(bǔ)。本章使用 PV 模型來(lái)構(gòu)建段落向量特征空間。監(jiān)督式算法,可以將文本作為一個(gè)整體,用段落向量進(jìn)行表示[29]。PV括 PV-DM(Distributed Memory Model of Paragraph Vectors) (Distributed Bag of Words version of Paragraph Vector)兩種訓(xùn)練方式來(lái)
【參考文獻(xiàn)】:
期刊論文
[1]文本情緒分析綜述[J]. 李然,林政,林海倫,王偉平,孟丹. 計(jì)算機(jī)研究與發(fā)展. 2018(01)
[2]一種用于構(gòu)建用戶畫像的二級(jí)融合算法框架[J]. 李恒超,林鴻飛,楊亮,徐博,魏曉聰,張紹武,古麗孜熱·艾尼外. 計(jì)算機(jī)科學(xué). 2018(01)
[3]基于CNN特征空間的微博多標(biāo)簽情感分類[J]. 孫松濤,何炎祥. 工程科學(xué)與技術(shù). 2017(03)
[4]基于自編碼網(wǎng)絡(luò)特征降維的輕量級(jí)入侵檢測(cè)模型[J]. 高妮,高嶺,賀毅岳,王海. 電子學(xué)報(bào). 2017(03)
[5]基于支持向量機(jī)的PU中文文本分類器構(gòu)建[J]. 王宗堯,劉金嶺. 南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(06)
[6]自編碼網(wǎng)絡(luò)短文本流形表示方法[J]. 魏超,羅森林,張競(jìng),潘麗敏. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2015(08)
[7]基于全局變量CRFs模型的微博情感對(duì)象識(shí)別方法[J]. 郝志峰,杜慎芝,蔡瑞初,溫雯. 中文信息學(xué)報(bào). 2015(04)
[8]基于PU學(xué)習(xí)算法的虛假評(píng)論識(shí)別研究[J]. 任亞峰,姬東鴻,張紅斌,尹蘭. 計(jì)算機(jī)研究與發(fā)展. 2015(03)
[9]一種基于聚類的PU主動(dòng)文本分類方法[J]. 劉露,彭濤,左萬(wàn)利,戴耀康. 軟件學(xué)報(bào). 2013(11)
[10]基于Stacking組合分類方法的中文情感分類研究[J]. 李壽山,黃居仁. 中文信息學(xué)報(bào). 2010(05)
本文編號(hào):3283041
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/3283041.html
最近更新
教材專著