基于在線評(píng)論文本分析的汽車產(chǎn)品選擇方法研究
發(fā)布時(shí)間:2020-07-24 14:02
【摘要】:近年來互聯(lián)網(wǎng)的快速發(fā)展,使得在線購(gòu)物和社交媒體迅速普及,用戶在網(wǎng)上產(chǎn)生大量的關(guān)于汽車產(chǎn)品等方面的文本評(píng)論。這些用戶數(shù)據(jù)中具有大量有價(jià)值的信息,包含了用戶在使用過程中對(duì)該產(chǎn)品的體驗(yàn)滿意情況,采用合適的文本分析技術(shù)進(jìn)行情感分類,能夠從評(píng)論文本中了解用戶訴求。目前關(guān)于汽車在線評(píng)論情感分類及產(chǎn)品選擇的研究相對(duì)較少,尤其是缺乏采用深度學(xué)習(xí)等技術(shù)對(duì)該問題的探索和改進(jìn)。對(duì)此,本文針對(duì)汽車在線評(píng)論情感分類和產(chǎn)品選擇方法存在的問題,開展了基于門限遞歸單元的情感分類和產(chǎn)品選擇的研究。使用深度學(xué)習(xí)方法能夠更充分高效地提取評(píng)論文本中的用戶體驗(yàn)情感信息,幫助企業(yè)提升產(chǎn)品性能,讓消費(fèi)者更全面了解產(chǎn)品的使用情況,具有重要的理論意義和現(xiàn)實(shí)意義。主要完成了以下工作:(1)完成了汽車在線評(píng)論文本的多通道建模。針對(duì)在線評(píng)論文本的特征,以及其在情感分類方面存在的問題,構(gòu)建了詞向量通道、詞性向量通道和詞情感信息通道,并完成了多通道融合。(2)提出了多通道建模的F-BiGRU情感分類模型。為提高汽車在線評(píng)論文本情感分類的準(zhǔn)確率,在門限遞歸循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行模型改進(jìn),該模型通過特征強(qiáng)化層對(duì)在線評(píng)論文本提取更充分的語義信息,并使用雙向門限遞歸單元進(jìn)行文本語義提取,完成文本情感分類任務(wù)。使用該模型,更適應(yīng)于互聯(lián)網(wǎng)評(píng)論文本隨意性、口語性等特點(diǎn),并和傳統(tǒng)機(jī)器學(xué)習(xí)模型及卷積神經(jīng)網(wǎng)絡(luò)等模型進(jìn)行對(duì)比實(shí)驗(yàn),本文模型提升了情感分類的準(zhǔn)確率,能更好完成情感分類任務(wù)。(3)提出了在線評(píng)論情感值排序的汽車產(chǎn)品選擇方法。通過多通道建模的FBiGRU模型對(duì)評(píng)論文本進(jìn)行情感值計(jì)算,得到不同車型各個(gè)屬性的情感值并進(jìn)行可視化。使用TOPSIS法對(duì)各屬性情感值進(jìn)行計(jì)算,得到各候選汽車的綜合情感值,給消費(fèi)者提升參考,使消費(fèi)者更全面了解汽車的用戶體驗(yàn)情況,幫助消費(fèi)者更好的進(jìn)行汽車產(chǎn)品選擇。
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F724.6;F426.471
【圖文】:
圖 2.1 神經(jīng)網(wǎng)絡(luò)語言模型Fig 2.1 Neural Network Language Model,該模型利用詞特征矩陣進(jìn)行詞嵌入操作,詞特征矩陣C 為R長(zhǎng)度,M 為所需要的詞向量的長(zhǎng)度。得到上下文詞的詞向量分布上下文詞進(jìn)行拼接,得到上下文映射向量,再經(jīng)過全連接層 so向量,其中第i 位表示該詞為iV 的概率分布。神經(jīng)網(wǎng)絡(luò)語言模型間的順序和影響關(guān)系,具有較好的語義性質(zhì)。然而該模型訓(xùn)練較需要計(jì)算到詞表中每一個(gè)詞的概率分布,詞表長(zhǎng)度常常在十萬非常耗時(shí),相關(guān)研究者對(duì)該模型進(jìn)行了簡(jiǎn)化,其中 word2vec 就的一個(gè),包括 CBOW 模型和 SkipGram 模型[13,45]。這里主要介紹 w。 模型通過輸入 2 c 個(gè)上下文詞向量(當(dāng)前詞前面 c 個(gè)詞和后面 c詞。其模型結(jié)構(gòu)如圖 2.2 所示:
圖 2.2 CBOW 模型Fig 2.2 CBOW modelCBOW 模型一般為三層網(wǎng)絡(luò),包括輸入層,投影層,輸出層。相比于神經(jīng)網(wǎng)語言模型,CBOW 作了較多改進(jìn)。輸入層包含一個(gè)滑動(dòng)窗口,窗口大小為 2c,表當(dāng)前詞w的上下文數(shù)量,其輸入為該 2c個(gè)詞的詞向量表示。在映射層,直接對(duì)下文詞對(duì)應(yīng)位置求均值,得到m維向量,不需要進(jìn)行矩陣乘法,而采用線性操作簡(jiǎn)化了運(yùn)算。而對(duì)于輸出為詞表長(zhǎng)度的概率分布向量,word2vec 采用霍夫曼樹替了輸出層的映射。而霍夫曼樹是通過文本數(shù)據(jù)集預(yù)先構(gòu)造的,高頻詞更靠近根點(diǎn)。這樣就避免了所有詞參與 softmax 計(jì)算,大大縮短了計(jì)算量。2.2 傳統(tǒng)文本情感分類方法2.2.1 基于詞典和規(guī)則的情感分類方法詞作為語言的基本語素,本身帶有一定量的語義信息,在情感分析上,有些似于形容詞等包含了較強(qiáng)的情感信息[46],抽取這些情感詞對(duì)文本情感分類等起
word2vec 詞向量表示,然后對(duì)文本進(jìn)行逐層抽象,提取出文本的深層語義,在分類效果上,也明顯高于傳統(tǒng)機(jī)器學(xué)習(xí)方法,所以,基于深度學(xué)習(xí)的情感分類方法已成為當(dāng)前研究的熱點(diǎn)問題,并漸漸被廣泛應(yīng)用在實(shí)際問題中。2.3.1 卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)是一類特殊結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的經(jīng)典模型之一。卷積神經(jīng)網(wǎng)絡(luò)是根據(jù)動(dòng)物視覺信息處理過程,來仿生出來的深層網(wǎng)絡(luò)結(jié)構(gòu),可以抽象出更深層次的特征信息,且其端到端的處理方式,不需要對(duì)數(shù)據(jù)進(jìn)行額外的特征工程要求。它具有平移不變性特優(yōu)秀性質(zhì),在圖像識(shí)別領(lǐng)域現(xiàn)出驚人的效果,目前,也被使用在自然語言處理問題中,表現(xiàn)出很好的結(jié)果[55]。卷積神經(jīng)網(wǎng)絡(luò)發(fā)展至今,有很多種變型,包括最經(jīng)典的 LeNet[56],和進(jìn)階版并掀起深度學(xué)習(xí)熱潮的 AlexNet,還有較深層的 VggNet 系列,以及帶殘差跳躍的ResNet 等。AlexNet 等改進(jìn)模型一般是在 LeNet 基礎(chǔ)上為了提高準(zhǔn)確率和泛化性能,降低過擬合現(xiàn)象而產(chǎn)生的進(jìn)化版本。LeNet 網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、卷積層、池化層、全連接層和輸出層,其網(wǎng)絡(luò)結(jié)構(gòu)如圖 2.5 所示:
本文編號(hào):2768940
【學(xué)位授予單位】:合肥工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F724.6;F426.471
【圖文】:
圖 2.1 神經(jīng)網(wǎng)絡(luò)語言模型Fig 2.1 Neural Network Language Model,該模型利用詞特征矩陣進(jìn)行詞嵌入操作,詞特征矩陣C 為R長(zhǎng)度,M 為所需要的詞向量的長(zhǎng)度。得到上下文詞的詞向量分布上下文詞進(jìn)行拼接,得到上下文映射向量,再經(jīng)過全連接層 so向量,其中第i 位表示該詞為iV 的概率分布。神經(jīng)網(wǎng)絡(luò)語言模型間的順序和影響關(guān)系,具有較好的語義性質(zhì)。然而該模型訓(xùn)練較需要計(jì)算到詞表中每一個(gè)詞的概率分布,詞表長(zhǎng)度常常在十萬非常耗時(shí),相關(guān)研究者對(duì)該模型進(jìn)行了簡(jiǎn)化,其中 word2vec 就的一個(gè),包括 CBOW 模型和 SkipGram 模型[13,45]。這里主要介紹 w。 模型通過輸入 2 c 個(gè)上下文詞向量(當(dāng)前詞前面 c 個(gè)詞和后面 c詞。其模型結(jié)構(gòu)如圖 2.2 所示:
圖 2.2 CBOW 模型Fig 2.2 CBOW modelCBOW 模型一般為三層網(wǎng)絡(luò),包括輸入層,投影層,輸出層。相比于神經(jīng)網(wǎng)語言模型,CBOW 作了較多改進(jìn)。輸入層包含一個(gè)滑動(dòng)窗口,窗口大小為 2c,表當(dāng)前詞w的上下文數(shù)量,其輸入為該 2c個(gè)詞的詞向量表示。在映射層,直接對(duì)下文詞對(duì)應(yīng)位置求均值,得到m維向量,不需要進(jìn)行矩陣乘法,而采用線性操作簡(jiǎn)化了運(yùn)算。而對(duì)于輸出為詞表長(zhǎng)度的概率分布向量,word2vec 采用霍夫曼樹替了輸出層的映射。而霍夫曼樹是通過文本數(shù)據(jù)集預(yù)先構(gòu)造的,高頻詞更靠近根點(diǎn)。這樣就避免了所有詞參與 softmax 計(jì)算,大大縮短了計(jì)算量。2.2 傳統(tǒng)文本情感分類方法2.2.1 基于詞典和規(guī)則的情感分類方法詞作為語言的基本語素,本身帶有一定量的語義信息,在情感分析上,有些似于形容詞等包含了較強(qiáng)的情感信息[46],抽取這些情感詞對(duì)文本情感分類等起
word2vec 詞向量表示,然后對(duì)文本進(jìn)行逐層抽象,提取出文本的深層語義,在分類效果上,也明顯高于傳統(tǒng)機(jī)器學(xué)習(xí)方法,所以,基于深度學(xué)習(xí)的情感分類方法已成為當(dāng)前研究的熱點(diǎn)問題,并漸漸被廣泛應(yīng)用在實(shí)際問題中。2.3.1 卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)是一類特殊結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的經(jīng)典模型之一。卷積神經(jīng)網(wǎng)絡(luò)是根據(jù)動(dòng)物視覺信息處理過程,來仿生出來的深層網(wǎng)絡(luò)結(jié)構(gòu),可以抽象出更深層次的特征信息,且其端到端的處理方式,不需要對(duì)數(shù)據(jù)進(jìn)行額外的特征工程要求。它具有平移不變性特優(yōu)秀性質(zhì),在圖像識(shí)別領(lǐng)域現(xiàn)出驚人的效果,目前,也被使用在自然語言處理問題中,表現(xiàn)出很好的結(jié)果[55]。卷積神經(jīng)網(wǎng)絡(luò)發(fā)展至今,有很多種變型,包括最經(jīng)典的 LeNet[56],和進(jìn)階版并掀起深度學(xué)習(xí)熱潮的 AlexNet,還有較深層的 VggNet 系列,以及帶殘差跳躍的ResNet 等。AlexNet 等改進(jìn)模型一般是在 LeNet 基礎(chǔ)上為了提高準(zhǔn)確率和泛化性能,降低過擬合現(xiàn)象而產(chǎn)生的進(jìn)化版本。LeNet 網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、卷積層、池化層、全連接層和輸出層,其網(wǎng)絡(luò)結(jié)構(gòu)如圖 2.5 所示:
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 李勇敢;周學(xué)廣;孫艷;張煥國(guó);;中文微博情感分析研究與實(shí)現(xiàn)[J];軟件學(xué)報(bào);2017年12期
2 李婷婷;姬東鴻;;基于SVM和CRF多特征組合的微博情感分析[J];計(jì)算機(jī)應(yīng)用研究;2015年04期
3 李實(shí);葉強(qiáng);李一軍;Rob Law;;中文網(wǎng)絡(luò)客戶評(píng)論的產(chǎn)品特征挖掘方法研究[J];管理科學(xué)學(xué)報(bào);2009年02期
本文編號(hào):2768940
本文鏈接:http://sikaile.net/jingjilunwen/gongyejingjilunwen/2768940.html
最近更新
教材專著