基于序列標(biāo)注的汽車產(chǎn)品對(duì)象抽取方法研究
發(fā)布時(shí)間:2021-09-04 05:44
面向汽車的產(chǎn)品評(píng)論是指用戶在微博、論壇、微信公眾號(hào)等平臺(tái)發(fā)表自己對(duì)汽車的價(jià)格、性能、動(dòng)力、外觀等方面的主觀使用感受。在汽車評(píng)論中,用戶評(píng)論產(chǎn)品時(shí)經(jīng)常帶有明確的指向,往往針對(duì)特定產(chǎn)品的某一部分或某一功能做出具體評(píng)價(jià)。因此,挖掘汽車產(chǎn)品評(píng)論中的汽車名稱及屬性,對(duì)于汽車廠商和消費(fèi)者具有重要的商業(yè)價(jià)值。本文將汽車名稱和屬性統(tǒng)稱為產(chǎn)品對(duì)象,這樣,抽取評(píng)論中的產(chǎn)品對(duì)象也是產(chǎn)品評(píng)論分析的基本任務(wù),更是細(xì)粒度情感分析的重要研究問題。已有的研究多是針對(duì)評(píng)價(jià)產(chǎn)品名稱進(jìn)行單獨(dú)抽取,并沒有考慮產(chǎn)品的名稱和屬性。本文針對(duì)汽車評(píng)論中產(chǎn)品對(duì)象的抽取問題,以實(shí)現(xiàn)產(chǎn)品評(píng)論細(xì)粒度情感分析為目標(biāo),開展汽車的產(chǎn)品名稱和產(chǎn)品屬性的抽取方法研究。本文的主要工作有以下三點(diǎn):(1)相關(guān)技術(shù)和數(shù)據(jù)標(biāo)注規(guī)范對(duì)中文文本表示基礎(chǔ)理論以及汽車產(chǎn)品名稱與屬性抽取相關(guān)技術(shù)進(jìn)行了分析,并對(duì)數(shù)據(jù)標(biāo)注規(guī)范進(jìn)行了介紹。首先對(duì)中文文本表示相關(guān)方法Word2vec模型和Cw2vec模型進(jìn)行了介紹。通過分析評(píng)論數(shù)據(jù)的特點(diǎn),制定相應(yīng)的數(shù)據(jù)標(biāo)注規(guī)范,為實(shí)驗(yàn)數(shù)據(jù)的標(biāo)注提供了標(biāo)準(zhǔn)。(2)融合多特征的產(chǎn)品對(duì)象抽取方法將產(chǎn)品對(duì)象的抽取看作是一個(gè)序列標(biāo)注問題,提出一種基于詞...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:50 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
“寶馬車型好看”cw2vec示例
第四章基于cw2vec-BiLSTM-CRF的產(chǎn)品名稱和屬性識(shí)別方法21也稱為雙向LSTM[47]即BiLSTM。對(duì)于詞tx可得到[;]ttthhh。在BiLSTM模型中softmax層的輸出是相互獨(dú)立的,即BiLSTM可以學(xué)習(xí)上下文的信息,但是并沒有標(biāo)簽依賴關(guān)系,有可能導(dǎo)致像序列標(biāo)簽產(chǎn)品名稱B-na與產(chǎn)品屬性I-at連續(xù)出現(xiàn)的語法錯(cuò)誤。而CRF模型中包含了特征之間的轉(zhuǎn)移概率,使得輸出標(biāo)簽之間存在順序關(guān)系。因此,采用CRF模型作為識(shí)別產(chǎn)品名稱和產(chǎn)品屬性的BiLSTM模型的輸出層。4.1.2基于cw2vec-BiLSTM-CRF的產(chǎn)品名稱和屬性識(shí)別算法為了同時(shí)抽取評(píng)論文本中的產(chǎn)品名稱和產(chǎn)品屬性,本文利用cw2vec進(jìn)行詞向量表示的基礎(chǔ)上,再結(jié)合BiLSTM和CRF兩種模型進(jìn)行抽取,其網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖4.1所示。圖4.1Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)示意圖整個(gè)抽取過程如下:(1)使用了BIO標(biāo)注法來對(duì)汽車領(lǐng)域產(chǎn)品評(píng)論語料進(jìn)行標(biāo)注,標(biāo)注格式見表4.1所示。表4.1句子序列標(biāo)注格式句子一汽豐田花冠不可不畏經(jīng)典車型標(biāo)注B-naI-naI-naOOOB-at(2)利用cw2vec模型[48],結(jié)合sougoCA語料進(jìn)行詞向量的預(yù)訓(xùn)練。在訓(xùn)練過程中,使用jieba分詞將句子分成詞序列,并求得詞向量作為模型的輸入。利用BiLSTM的輸出th和th進(jìn)行相加輸入到Liner層和log-softmax層,通過非線性操作
【參考文獻(xiàn)】:
期刊論文
[1]基于word2vec和雙向LSTM的情感分類深度模型[J]. 黃賢英,劉廣峰,劉小洋,陽安志. 計(jì)算機(jī)應(yīng)用研究. 2019(12)
[2]基于CRF和Bi-LSTM的保險(xiǎn)名稱實(shí)體識(shí)別[J]. 陳彥妤,杜明. 智能計(jì)算機(jī)與應(yīng)用. 2018(03)
[3]使用深度長短時(shí)記憶模型對(duì)于評(píng)價(jià)詞和評(píng)價(jià)對(duì)象的聯(lián)合抽取[J]. 沈亞田,黃萱菁,曹均闊. 中文信息學(xué)報(bào). 2018(02)
[4]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 李麗雙,郭元?jiǎng)P. 中文信息學(xué)報(bào). 2018(01)
[5]基于LSTM網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象和評(píng)價(jià)詞抽取[J]. 李盛秋,趙妍妍,秦兵,劉挺. 智能計(jì)算機(jī)與應(yīng)用. 2017(05)
[6]基于條件隨機(jī)場的評(píng)價(jià)對(duì)象缺省項(xiàng)識(shí)別[J]. 唐文武,過弋,徐永斌,方旭. 中文信息學(xué)報(bào). 2016(06)
[7]基于語義分析的評(píng)價(jià)對(duì)象-情感詞對(duì)抽取[J]. 江騰蛟,萬常選,劉德喜,劉喜平,廖國瓊. 計(jì)算機(jī)學(xué)報(bào). 2017(03)
[8]基于多特征融合的中文微博評(píng)價(jià)對(duì)象抽取方法[J]. 李景玉,張仰森,蔣玉茹. 計(jì)算機(jī)應(yīng)用研究. 2016(02)
[9]基于層疊CRFs的中文句子評(píng)價(jià)對(duì)象抽取[J]. 鄭敏潔,雷志城,廖祥文,陳國龍. 中文信息學(xué)報(bào). 2013(03)
[10]基于條件隨機(jī)場方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 陳飛,劉奕群,魏超,張?jiān)屏?張敏,馬少平. 軟件學(xué)報(bào). 2013(05)
碩士論文
[1]基于法律的知識(shí)圖譜構(gòu)建[D]. 鄒愛玲.電子科技大學(xué) 2019
[2]司法文書法律要素提取方法的研究與實(shí)現(xiàn)[D]. 王林木.東南大學(xué) 2018
[3]面向法律文書的中文命名實(shí)體識(shí)別方法研究[D]. 王禮敏.蘇州大學(xué) 2018
[4]面向中文法律文本的命名實(shí)體識(shí)別研究[D]. 謝云.南京師范大學(xué) 2018
[5]基于隱式馬爾科夫模型的法律命名實(shí)體識(shí)別模型的設(shè)計(jì)與應(yīng)用[D]. 周曉輝.華南理工大學(xué) 2017
[6]基于領(lǐng)域知識(shí)的評(píng)價(jià)對(duì)象抽取研究[D]. 楊森.北京理工大學(xué) 2015
[7]在線評(píng)論的產(chǎn)品屬性提取與情感分析研究[D]. 馮小翼.華中科技大學(xué) 2011
[8]評(píng)價(jià)對(duì)象抽取研究[D]. 鞠久朋.蘇州大學(xué) 2011
本文編號(hào):3382678
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:50 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
“寶馬車型好看”cw2vec示例
第四章基于cw2vec-BiLSTM-CRF的產(chǎn)品名稱和屬性識(shí)別方法21也稱為雙向LSTM[47]即BiLSTM。對(duì)于詞tx可得到[;]ttthhh。在BiLSTM模型中softmax層的輸出是相互獨(dú)立的,即BiLSTM可以學(xué)習(xí)上下文的信息,但是并沒有標(biāo)簽依賴關(guān)系,有可能導(dǎo)致像序列標(biāo)簽產(chǎn)品名稱B-na與產(chǎn)品屬性I-at連續(xù)出現(xiàn)的語法錯(cuò)誤。而CRF模型中包含了特征之間的轉(zhuǎn)移概率,使得輸出標(biāo)簽之間存在順序關(guān)系。因此,采用CRF模型作為識(shí)別產(chǎn)品名稱和產(chǎn)品屬性的BiLSTM模型的輸出層。4.1.2基于cw2vec-BiLSTM-CRF的產(chǎn)品名稱和屬性識(shí)別算法為了同時(shí)抽取評(píng)論文本中的產(chǎn)品名稱和產(chǎn)品屬性,本文利用cw2vec進(jìn)行詞向量表示的基礎(chǔ)上,再結(jié)合BiLSTM和CRF兩種模型進(jìn)行抽取,其網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖4.1所示。圖4.1Bi-LSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)示意圖整個(gè)抽取過程如下:(1)使用了BIO標(biāo)注法來對(duì)汽車領(lǐng)域產(chǎn)品評(píng)論語料進(jìn)行標(biāo)注,標(biāo)注格式見表4.1所示。表4.1句子序列標(biāo)注格式句子一汽豐田花冠不可不畏經(jīng)典車型標(biāo)注B-naI-naI-naOOOB-at(2)利用cw2vec模型[48],結(jié)合sougoCA語料進(jìn)行詞向量的預(yù)訓(xùn)練。在訓(xùn)練過程中,使用jieba分詞將句子分成詞序列,并求得詞向量作為模型的輸入。利用BiLSTM的輸出th和th進(jìn)行相加輸入到Liner層和log-softmax層,通過非線性操作
【參考文獻(xiàn)】:
期刊論文
[1]基于word2vec和雙向LSTM的情感分類深度模型[J]. 黃賢英,劉廣峰,劉小洋,陽安志. 計(jì)算機(jī)應(yīng)用研究. 2019(12)
[2]基于CRF和Bi-LSTM的保險(xiǎn)名稱實(shí)體識(shí)別[J]. 陳彥妤,杜明. 智能計(jì)算機(jī)與應(yīng)用. 2018(03)
[3]使用深度長短時(shí)記憶模型對(duì)于評(píng)價(jià)詞和評(píng)價(jià)對(duì)象的聯(lián)合抽取[J]. 沈亞田,黃萱菁,曹均闊. 中文信息學(xué)報(bào). 2018(02)
[4]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 李麗雙,郭元?jiǎng)P. 中文信息學(xué)報(bào). 2018(01)
[5]基于LSTM網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象和評(píng)價(jià)詞抽取[J]. 李盛秋,趙妍妍,秦兵,劉挺. 智能計(jì)算機(jī)與應(yīng)用. 2017(05)
[6]基于條件隨機(jī)場的評(píng)價(jià)對(duì)象缺省項(xiàng)識(shí)別[J]. 唐文武,過弋,徐永斌,方旭. 中文信息學(xué)報(bào). 2016(06)
[7]基于語義分析的評(píng)價(jià)對(duì)象-情感詞對(duì)抽取[J]. 江騰蛟,萬常選,劉德喜,劉喜平,廖國瓊. 計(jì)算機(jī)學(xué)報(bào). 2017(03)
[8]基于多特征融合的中文微博評(píng)價(jià)對(duì)象抽取方法[J]. 李景玉,張仰森,蔣玉茹. 計(jì)算機(jī)應(yīng)用研究. 2016(02)
[9]基于層疊CRFs的中文句子評(píng)價(jià)對(duì)象抽取[J]. 鄭敏潔,雷志城,廖祥文,陳國龍. 中文信息學(xué)報(bào). 2013(03)
[10]基于條件隨機(jī)場方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J]. 陳飛,劉奕群,魏超,張?jiān)屏?張敏,馬少平. 軟件學(xué)報(bào). 2013(05)
碩士論文
[1]基于法律的知識(shí)圖譜構(gòu)建[D]. 鄒愛玲.電子科技大學(xué) 2019
[2]司法文書法律要素提取方法的研究與實(shí)現(xiàn)[D]. 王林木.東南大學(xué) 2018
[3]面向法律文書的中文命名實(shí)體識(shí)別方法研究[D]. 王禮敏.蘇州大學(xué) 2018
[4]面向中文法律文本的命名實(shí)體識(shí)別研究[D]. 謝云.南京師范大學(xué) 2018
[5]基于隱式馬爾科夫模型的法律命名實(shí)體識(shí)別模型的設(shè)計(jì)與應(yīng)用[D]. 周曉輝.華南理工大學(xué) 2017
[6]基于領(lǐng)域知識(shí)的評(píng)價(jià)對(duì)象抽取研究[D]. 楊森.北京理工大學(xué) 2015
[7]在線評(píng)論的產(chǎn)品屬性提取與情感分析研究[D]. 馮小翼.華中科技大學(xué) 2011
[8]評(píng)價(jià)對(duì)象抽取研究[D]. 鞠久朋.蘇州大學(xué) 2011
本文編號(hào):3382678
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3382678.html
最近更新
教材專著