基于情感分析和特征過濾的主題提取方法研究
發(fā)布時(shí)間:2020-04-24 19:05
【摘要】:近年來,互聯(lián)網(wǎng)已經(jīng)滲入到我們的日常生活中,互聯(lián)網(wǎng)服務(wù)APP已然成為新時(shí)代的生活網(wǎng)絡(luò)工具之一.人們進(jìn)行選購商品時(shí),經(jīng)常翻看商品的評(píng)論來對(duì)這個(gè)商品作出購買判斷,并且這些文本評(píng)論是消費(fèi)者的直觀感受,同時(shí)這些評(píng)論也提供了一個(gè)為平臺(tái)了解客戶的途徑,快速挖掘文本評(píng)論的信息并且轉(zhuǎn)化為生產(chǎn)力是亟待解決的問題.本文基于服務(wù)APP文本短評(píng)數(shù)據(jù),探索適合短文本的主題挖掘方法.本文簡單介紹了中文文本的預(yù)處理技術(shù)、文本特征的提取技術(shù)和不平衡數(shù)據(jù)處理技術(shù),主要任務(wù)是探索快速且準(zhǔn)確的文本情感分析的方法和精確提取主題的模型.并將情感分析和特征篩選融入到主題模型中,提出一種基于LDA模型的主題提取方法.本文的主要研究內(nèi)容和工作如下:探索和選擇適合短評(píng)數(shù)據(jù)的不平衡數(shù)據(jù)處理技術(shù),用重抽樣和欠采樣技術(shù)進(jìn)行處理并對(duì)比結(jié)果.從基于機(jī)器學(xué)習(xí)模型的情感分析和基于深度學(xué)習(xí)的情感分析兩個(gè)角度展開,探索針對(duì)不平衡數(shù)據(jù)表現(xiàn)優(yōu)異的情感分析模型.機(jī)器學(xué)習(xí)模型選用支持向量機(jī)和梯度提升決策樹做實(shí)驗(yàn),并用網(wǎng)格搜索和交叉驗(yàn)證調(diào)參.深度學(xué)習(xí)選用的是淺層網(wǎng)絡(luò)fastText.用加權(quán)F1評(píng)估三個(gè)模型,實(shí)驗(yàn)證明,在處理不平衡數(shù)據(jù)方面fastText模型優(yōu)于其他兩個(gè)模型,并且指明了原因.在主題提取任務(wù)中,提出一種基于LDA模型針對(duì)短文本和不平衡數(shù)據(jù)的方法,先進(jìn)行情感分析,將情感極性的標(biāo)簽加入主題提取模型中,再進(jìn)行特征篩選,剔除公共屬性特征,按類別進(jìn)行短文本主題提取,效果較原模型顯著,該方法具有實(shí)際應(yīng)用價(jià)值.
【圖文】:
圖 2-1 CBOW 和 Skip-gram 結(jié)構(gòu)圖[31]由于 word2vec 采用的是詞向量求平均和的方法,會(huì)抵消掉詞和詞之間序列的,這樣句意可能會(huì)發(fā)生偏頗.因此,繼開源 word2vec 后的第二年,Milolov 又研發(fā)含有詞和詞之間序列信息的模型—doc2vec[32].doc2vec 也有兩種方法,一種類似BOW,名字叫做 PV-DM,與 CBOW 不同的是在輸入層多了一個(gè)句子或者段落的
PV-DM結(jié)構(gòu)圖
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F713.36;F274;TP391.1
本文編號(hào):2639284
【圖文】:
圖 2-1 CBOW 和 Skip-gram 結(jié)構(gòu)圖[31]由于 word2vec 采用的是詞向量求平均和的方法,會(huì)抵消掉詞和詞之間序列的,這樣句意可能會(huì)發(fā)生偏頗.因此,繼開源 word2vec 后的第二年,Milolov 又研發(fā)含有詞和詞之間序列信息的模型—doc2vec[32].doc2vec 也有兩種方法,一種類似BOW,名字叫做 PV-DM,與 CBOW 不同的是在輸入層多了一個(gè)句子或者段落的
PV-DM結(jié)構(gòu)圖
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:F713.36;F274;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 李巖;韓斌;趙劍;;基于短文本及情感分析的微博輿情分析[J];計(jì)算機(jī)應(yīng)用與軟件;2013年12期
2 張晨逸;孫建伶;丁軼群;;基于MB-LDA模型的微博主題挖掘[J];計(jì)算機(jī)研究與發(fā)展;2011年10期
3 石晶;李萬龍;;基于LDA模型的主題詞抽取方法[J];計(jì)算機(jī)工程;2010年19期
4 石晶;范猛;李萬龍;;基于LDA模型的主題分析[J];自動(dòng)化學(xué)報(bào);2009年12期
5 賴珉;陳一寧;初敏;胡訪宇;;訓(xùn)練數(shù)據(jù)有限的英文語音重音標(biāo)注研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年33期
相關(guān)博士學(xué)位論文 前1條
1 于冬梅;情感計(jì)算關(guān)鍵技術(shù)研究[D];東華大學(xué);2009年
,本文編號(hào):2639284
本文鏈接:http://sikaile.net/jingjilunwen/guojimaoyilunwen/2639284.html
最近更新
教材專著