天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于詞向量的網(wǎng)絡(luò)評論多維情感分類算法研究

發(fā)布時(shí)間:2021-10-04 23:28
  針對網(wǎng)絡(luò)文本情感分析,本文提出了一種基于復(fù)雜句式和復(fù)雜語義的情感分析模型,并將其應(yīng)用于句子級多維情感分類。首先在特定領(lǐng)域文本語料基礎(chǔ)上進(jìn)行多維情感詞擴(kuò)充,建立多維情感詞典;然后模型根據(jù)句式模型和語義復(fù)雜度,提取文本特征向量。該文本特征向量包含句式模型中關(guān)聯(lián)詞特征、復(fù)雜語義中情感主體特征以及多維情感詞等;最后結(jié)合樸素貝葉斯算法作為分類器進(jìn)行多維情感分類。實(shí)驗(yàn)結(jié)果表明,與同類算法比較中本算法在特定領(lǐng)域情感多分類任務(wù)中具有良好的準(zhǔn)確率和召回率。本文提出了基于詞向量的情感傾向判別算法模型,主要工作如下:1.針對特定領(lǐng)域中多維情感新詞進(jìn)行擴(kuò)展。對基礎(chǔ)情感詞典的多維情感詞進(jìn)行擴(kuò)充,構(gòu)建出特定領(lǐng)域的多維情感詞典,使得到的情感詞典可以更加深層次的體現(xiàn)特定領(lǐng)域情感導(dǎo)向。同一單詞在不同的語義環(huán)境中會產(chǎn)生不同的情感傾向,因此要篩選出在該領(lǐng)域下具有情感傾向的詞語。基于這樣的情感詞典來判斷句子所表達(dá)的情感傾向才會更加準(zhǔn)確。2.針對中文句式的復(fù)雜性提出對應(yīng)的句式模型。中文句式根據(jù)結(jié)構(gòu)差異劃分不同類別,如轉(zhuǎn)折句、否定句等。本文首先提取句子中的主體詞組合,該組合包括主體實(shí)詞以及前后的情感詞;然后提取各個(gè)復(fù)雜句式的特征... 

【文章來源】:重慶郵電大學(xué)重慶市

【文章頁數(shù)】:71 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于詞向量的網(wǎng)絡(luò)評論多維情感分類算法研究


文本表示模型

流程圖,流程圖,模型,文檔


重慶郵電大學(xué)碩士學(xué)位論文第2章相關(guān)理論基礎(chǔ)10向量空間模型(VectorSpaceModel,VSM)是20世紀(jì)60年代末期由G.Salton等人提出的。VSM其實(shí)是一種將文檔轉(zhuǎn)化成向量的方法,轉(zhuǎn)化之后就可以在同一維度空間內(nèi)表示一個(gè)個(gè)文檔。VSM應(yīng)用廣泛,作為一種文本表示方法,空間向量模型將每個(gè)文檔看做是由t維特征組成的向量,將單詞作為特征。每篇文檔各抽取t個(gè)關(guān)鍵詞,然后計(jì)算其權(quán)重,得到的t維權(quán)重特征向量來表示一篇文檔。VSM模型的流程圖如圖2.2所示。圖2.2VSM模型流程圖當(dāng)有了文本表示模型之后要考慮生成準(zhǔn)確表示文本的特征向量,要抓住文本最核心的內(nèi)容。因此要提取一篇文檔的關(guān)鍵詞,并對每個(gè)關(guān)鍵詞計(jì)算其對應(yīng)的特征權(quán)值,從而形成特征向量。最常用的算法是TF-IDF算法,其設(shè)計(jì)到兩個(gè)重要概念,即詞頻(TermFrequency,TF)和逆文檔頻率(InversedDocumentFrequency,IDF)。詞頻表示某個(gè)單詞在一篇文檔中出現(xiàn)的次數(shù),在一篇文檔中反復(fù)出現(xiàn)的詞最能代表這篇文章的主題信息。逆文檔頻率表示某一個(gè)單詞在文檔集合內(nèi)的重要性。向量空間模型具有簡單明了意義明確等優(yōu)點(diǎn),但是其缺點(diǎn)就是如果詞表規(guī)模增大的話維度也會變大,向量稀疏性提高,同時(shí)也不能識別中文種多種語義或一詞多義的情況。為了提高語義的表達(dá)能力,將高維向量轉(zhuǎn)成低維,就用到潛在語義分析(Latentsemanticanalysis,LSA),LSA本質(zhì)是一個(gè)共現(xiàn)矩陣,由文檔與組成文檔單詞組成,并通過TF-IDF計(jì)算得到結(jié)果[51]。2.1.2主題模型方法通過LSA的方法最讓可以提高語義的表達(dá)性,但是降維之后空間物理意義也變得模糊。所以有研究者提出一種基于“主題”的文本表示模型,一個(gè)維度表示一

模型圖,主題,模型


重慶郵電大學(xué)碩士學(xué)位論文第2章相關(guān)理論基礎(chǔ)11個(gè)“主題”,“主題”是一個(gè)詞語組合,通過每個(gè)“主題”就可以知道每個(gè)維度所代表的含義,從而解決了語義問題。早期的主題文本表示模型pLSA(probabilisticLSA)如圖2.3所示,首先假定文檔具有多個(gè)主題,該文檔的詞語集合由主題相對應(yīng)的詞分布中提抽取,假設(shè)J表示文檔,W表示詞,Z表示主題(隱含變量),那么文檔和單詞的聯(lián)合概率如下所示:(,)=()^(|)(|)(2.1)相較于pLSA中沒有假設(shè)主題的先驗(yàn)分布導(dǎo)致訓(xùn)練文檔和參數(shù)增大的問題,后來研究者提出LDA主題模型[52],和pLSA不同的是LDA中假設(shè)了很多先驗(yàn)分布。在pLSA中,我們認(rèn)為主題分布p(zk|dm)和詞分布p(wn|zk)就是一個(gè)確定的值,我們的目的就是估計(jì)出來這個(gè)確定的值;而在LDA中,我們假設(shè)這兩個(gè)參數(shù),是不確定的,是服從一定分布的一個(gè)變化的東西,這個(gè)先驗(yàn)的分布,就是狄利克雷分布。圖2.3隱含狄利克雷主題模型基于主題模型在物理方面具有一定的意義,將文章和詞語通過“主題”關(guān)聯(lián)起來,從而得到較準(zhǔn)確的特征向量。然而主題模型主要側(cè)重于文章級別的文本,對于網(wǎng)絡(luò)評論來說評論文本大多是短文本,使用主題模型建模效果較差,主題數(shù)量需要手動控制隨機(jī)性較強(qiáng)。2.1.3詞嵌入由于計(jì)算機(jī)不能識別人類自然語言,需要將自然語言中文本轉(zhuǎn)化為數(shù)字編碼形式,因此產(chǎn)生了詞向量。詞向量就是將文字詞語用向量的形式來表達(dá)。在情感識別

【參考文獻(xiàn)】:
期刊論文
[1]基于復(fù)雜句式短文本情感分類研究[J]. 李毅捷,段利國,李愛萍.  現(xiàn)代電子技術(shù). 2018(22)
[2]基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的中文情感分類[J]. 張綺琦,張樹群,雷兆宜.  計(jì)算機(jī)工程與應(yīng)用. 2017(22)
[3]基于雙語詞典的微博多類情感分析方法[J]. 栗雨晴,禮欣,韓煦,宋丹丹,廖樂健.  電子學(xué)報(bào). 2016(09)
[4]Study of Sentiment Classification for Chinese Microblog Based on Recurrent Neural Network[J]. ZHANG Yangsen,JIANG Yuru,TONG Yixuan.  Chinese Journal of Electronics. 2016(04)
[5]Words semantic orientation classification based on HowNet[J]. LI Dun1 , MA Yong-tao2, GUO Jian-li3 1. School of Information Engineering, Zhengzhou University, Zhengzhou 450001, China 2. School of Mechanical Engineering, Zhengzhou University, Zhengzhou 450001, China 3. International College for Chinese Studies, Nanjing Normal University, Nanjing 210097, China.  The Journal of China Universities of Posts and Telecommunications. 2009(01)
[6]基于HowNet的詞匯語義傾向計(jì)算[J]. 朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德.  中文信息學(xué)報(bào). 2006(01)



本文編號:3418540

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3418540.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0e25a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com