基于深度學(xué)習(xí)的社交平臺評論情感分析研究
發(fā)布時間:2021-10-15 07:25
近年來,越來越多的人在社交平臺上發(fā)表自己的觀點,每天新浪微博等社交平臺都會產(chǎn)生大量人們對熱點事件的情感表達(dá)言論,而這些信息往往以文本的形式存在。獲取社交平臺評論中的情感傾向信息,了解人們對事件的態(tài)度,在謠言控制、市場營銷、輿情監(jiān)控等方面有非常重要的應(yīng)用價值。傳統(tǒng)的情感分析方法存在很大的局限性,很難識別文本中比較隱晦的情感信息,也無法適應(yīng)當(dāng)今時代信息的瞬息萬變。隨著深度學(xué)習(xí)的興起,用深度學(xué)習(xí)提高文本情感分析的效果成了研究熱點。因此,本文設(shè)計了兩種深度學(xué)習(xí)模型對社交平臺評論進(jìn)行情感分析研究。本文首先利用Scrapy框架從微博社交平臺上爬取評論信息作為模型的數(shù)據(jù)集使用,然后對這些評論數(shù)據(jù)進(jìn)行預(yù)處理,包括中文分詞、詞性標(biāo)注和去停用詞操作。提出改進(jìn)型Word2vec模型對這些數(shù)據(jù)進(jìn)行詞向量處理,即將文本句子轉(zhuǎn)化成對應(yīng)的詞向量矩陣,輸入到深度學(xué)習(xí)分類模型中。最后還對改進(jìn)型Word2vec模型作對比實驗,驗證改進(jìn)型Word2vec模型的優(yōu)勢。文本卷積神經(jīng)網(wǎng)絡(luò)Text CNN可以獲取句子的局部特征表示。雙向門控循環(huán)單元BiGRU模型可以獲取文本詞語、句子之間的時間序列關(guān)系,提取文本的全局特征。本文設(shè)計...
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:82 頁
【學(xué)位級別】:碩士
【圖文】:
微博月活躍用戶量及占總網(wǎng)民的比例情況
青島科技大學(xué)研究生學(xué)位論文9過程,直到不再獲得新的網(wǎng)頁鏈接或鏈接隊列已空。圖2-1是聚焦網(wǎng)絡(luò)爬蟲的工作過程圖。圖2-1聚焦網(wǎng)絡(luò)爬蟲的工作過程圖Figure2-1Focusontheworkingprocessdiagramofthewebcrawler2.2數(shù)據(jù)預(yù)處理文本預(yù)處理是文本情感分析領(lǐng)域的重要基礎(chǔ),能夠為模型提供優(yōu)質(zhì)的輸入數(shù)據(jù)。本文的數(shù)據(jù)預(yù)處理就是對爬取的評論文本進(jìn)行中文分詞、去停用詞和詞性標(biāo)注操作,便于下一步詞向量化處理。(1)中文分詞評論文本一般包含多個文本句子,每個文本句子又包含多個詞語,詞語是文本語言中最基本的組成成分。英文文本分詞處理較為簡單,它的句子可以按照標(biāo)點區(qū)分,句子中的單詞之間都存在空格,不需要再進(jìn)行人工區(qū)分[38]。相較于英文文本,中文文本分詞就較為復(fù)雜,句子中詞語與詞語間沒有可以清楚區(qū)分的分割符,只能根據(jù)人們一般的語法習(xí)慣重新組合成有意義的詞序列。中文分詞面臨三個比較難解決的問題,中文語言規(guī)則數(shù)量龐大且錯綜復(fù)雜,很難制定良好的分詞規(guī)則,良好的分詞規(guī)則可以幫助句子做出正確地劃分;在中文語言中,很多常用詞都具有歧義性,很難做到正確的劃分;網(wǎng)絡(luò)上經(jīng)常會出現(xiàn)一些未登錄的詞語,機(jī)器很難區(qū)分這些新穎的詞語,這個問題是影響中文分詞質(zhì)量的最大因素。
基于深度學(xué)習(xí)的社交平臺評論情感分析研究12圖2-2詞嵌入的過程Figure2-2TheprocessofwordembeddingWord2vec是由Google提出的將詞語轉(zhuǎn)化為詞向量的模型,屬于分布式表示的方法,它可以把詞語嵌入到一個低維向量空間,還可以有效地保留詞語的語義信息,在詞向量分布式表示空間上,語義相近的詞語在空間距離上也會更加接近。Word2vec模型其實就是簡化的神經(jīng)網(wǎng)絡(luò),輸入層、隱藏層和輸出層都只有一層結(jié)構(gòu)。按照實現(xiàn)方式又可以分為CBOW和Skip-gram兩種訓(xùn)練模型,CBOW模型主要是通過把目標(biāo)詞語相鄰的上下文詞袋向量輸入到模型中,經(jīng)過簡單處理,輸出該目標(biāo)詞語的概率,非常適合于小型文本數(shù)據(jù)集。CBOW訓(xùn)練模型的結(jié)構(gòu)如圖2-3所示:圖2-3CBOW模型結(jié)構(gòu)Figure2-3CBOWmodelstructure接下來介紹一下CBOW模型的訓(xùn)練步驟:
本文編號:3437661
【文章來源】:青島科技大學(xué)山東省
【文章頁數(shù)】:82 頁
【學(xué)位級別】:碩士
【圖文】:
微博月活躍用戶量及占總網(wǎng)民的比例情況
青島科技大學(xué)研究生學(xué)位論文9過程,直到不再獲得新的網(wǎng)頁鏈接或鏈接隊列已空。圖2-1是聚焦網(wǎng)絡(luò)爬蟲的工作過程圖。圖2-1聚焦網(wǎng)絡(luò)爬蟲的工作過程圖Figure2-1Focusontheworkingprocessdiagramofthewebcrawler2.2數(shù)據(jù)預(yù)處理文本預(yù)處理是文本情感分析領(lǐng)域的重要基礎(chǔ),能夠為模型提供優(yōu)質(zhì)的輸入數(shù)據(jù)。本文的數(shù)據(jù)預(yù)處理就是對爬取的評論文本進(jìn)行中文分詞、去停用詞和詞性標(biāo)注操作,便于下一步詞向量化處理。(1)中文分詞評論文本一般包含多個文本句子,每個文本句子又包含多個詞語,詞語是文本語言中最基本的組成成分。英文文本分詞處理較為簡單,它的句子可以按照標(biāo)點區(qū)分,句子中的單詞之間都存在空格,不需要再進(jìn)行人工區(qū)分[38]。相較于英文文本,中文文本分詞就較為復(fù)雜,句子中詞語與詞語間沒有可以清楚區(qū)分的分割符,只能根據(jù)人們一般的語法習(xí)慣重新組合成有意義的詞序列。中文分詞面臨三個比較難解決的問題,中文語言規(guī)則數(shù)量龐大且錯綜復(fù)雜,很難制定良好的分詞規(guī)則,良好的分詞規(guī)則可以幫助句子做出正確地劃分;在中文語言中,很多常用詞都具有歧義性,很難做到正確的劃分;網(wǎng)絡(luò)上經(jīng)常會出現(xiàn)一些未登錄的詞語,機(jī)器很難區(qū)分這些新穎的詞語,這個問題是影響中文分詞質(zhì)量的最大因素。
基于深度學(xué)習(xí)的社交平臺評論情感分析研究12圖2-2詞嵌入的過程Figure2-2TheprocessofwordembeddingWord2vec是由Google提出的將詞語轉(zhuǎn)化為詞向量的模型,屬于分布式表示的方法,它可以把詞語嵌入到一個低維向量空間,還可以有效地保留詞語的語義信息,在詞向量分布式表示空間上,語義相近的詞語在空間距離上也會更加接近。Word2vec模型其實就是簡化的神經(jīng)網(wǎng)絡(luò),輸入層、隱藏層和輸出層都只有一層結(jié)構(gòu)。按照實現(xiàn)方式又可以分為CBOW和Skip-gram兩種訓(xùn)練模型,CBOW模型主要是通過把目標(biāo)詞語相鄰的上下文詞袋向量輸入到模型中,經(jīng)過簡單處理,輸出該目標(biāo)詞語的概率,非常適合于小型文本數(shù)據(jù)集。CBOW訓(xùn)練模型的結(jié)構(gòu)如圖2-3所示:圖2-3CBOW模型結(jié)構(gòu)Figure2-3CBOWmodelstructure接下來介紹一下CBOW模型的訓(xùn)練步驟:
本文編號:3437661
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3437661.html
最近更新
教材專著