天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于詞向量的網(wǎng)絡(luò)評(píng)論多維情感分類(lèi)算法研究

發(fā)布時(shí)間:2021-10-04 23:28
  針對(duì)網(wǎng)絡(luò)文本情感分析,本文提出了一種基于復(fù)雜句式和復(fù)雜語(yǔ)義的情感分析模型,并將其應(yīng)用于句子級(jí)多維情感分類(lèi)。首先在特定領(lǐng)域文本語(yǔ)料基礎(chǔ)上進(jìn)行多維情感詞擴(kuò)充,建立多維情感詞典;然后模型根據(jù)句式模型和語(yǔ)義復(fù)雜度,提取文本特征向量。該文本特征向量包含句式模型中關(guān)聯(lián)詞特征、復(fù)雜語(yǔ)義中情感主體特征以及多維情感詞等;最后結(jié)合樸素貝葉斯算法作為分類(lèi)器進(jìn)行多維情感分類(lèi)。實(shí)驗(yàn)結(jié)果表明,與同類(lèi)算法比較中本算法在特定領(lǐng)域情感多分類(lèi)任務(wù)中具有良好的準(zhǔn)確率和召回率。本文提出了基于詞向量的情感傾向判別算法模型,主要工作如下:1.針對(duì)特定領(lǐng)域中多維情感新詞進(jìn)行擴(kuò)展。對(duì)基礎(chǔ)情感詞典的多維情感詞進(jìn)行擴(kuò)充,構(gòu)建出特定領(lǐng)域的多維情感詞典,使得到的情感詞典可以更加深層次的體現(xiàn)特定領(lǐng)域情感導(dǎo)向。同一單詞在不同的語(yǔ)義環(huán)境中會(huì)產(chǎn)生不同的情感傾向,因此要篩選出在該領(lǐng)域下具有情感傾向的詞語(yǔ);谶@樣的情感詞典來(lái)判斷句子所表達(dá)的情感傾向才會(huì)更加準(zhǔn)確。2.針對(duì)中文句式的復(fù)雜性提出對(duì)應(yīng)的句式模型。中文句式根據(jù)結(jié)構(gòu)差異劃分不同類(lèi)別,如轉(zhuǎn)折句、否定句等。本文首先提取句子中的主體詞組合,該組合包括主體實(shí)詞以及前后的情感詞;然后提取各個(gè)復(fù)雜句式的特征... 

【文章來(lái)源】:重慶郵電大學(xué)重慶市

【文章頁(yè)數(shù)】:71 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于詞向量的網(wǎng)絡(luò)評(píng)論多維情感分類(lèi)算法研究


文本表示模型

流程圖,流程圖,模型,文檔


重慶郵電大學(xué)碩士學(xué)位論文第2章相關(guān)理論基礎(chǔ)10向量空間模型(VectorSpaceModel,VSM)是20世紀(jì)60年代末期由G.Salton等人提出的。VSM其實(shí)是一種將文檔轉(zhuǎn)化成向量的方法,轉(zhuǎn)化之后就可以在同一維度空間內(nèi)表示一個(gè)個(gè)文檔。VSM應(yīng)用廣泛,作為一種文本表示方法,空間向量模型將每個(gè)文檔看做是由t維特征組成的向量,將單詞作為特征。每篇文檔各抽取t個(gè)關(guān)鍵詞,然后計(jì)算其權(quán)重,得到的t維權(quán)重特征向量來(lái)表示一篇文檔。VSM模型的流程圖如圖2.2所示。圖2.2VSM模型流程圖當(dāng)有了文本表示模型之后要考慮生成準(zhǔn)確表示文本的特征向量,要抓住文本最核心的內(nèi)容。因此要提取一篇文檔的關(guān)鍵詞,并對(duì)每個(gè)關(guān)鍵詞計(jì)算其對(duì)應(yīng)的特征權(quán)值,從而形成特征向量。最常用的算法是TF-IDF算法,其設(shè)計(jì)到兩個(gè)重要概念,即詞頻(TermFrequency,TF)和逆文檔頻率(InversedDocumentFrequency,IDF)。詞頻表示某個(gè)單詞在一篇文檔中出現(xiàn)的次數(shù),在一篇文檔中反復(fù)出現(xiàn)的詞最能代表這篇文章的主題信息。逆文檔頻率表示某一個(gè)單詞在文檔集合內(nèi)的重要性。向量空間模型具有簡(jiǎn)單明了意義明確等優(yōu)點(diǎn),但是其缺點(diǎn)就是如果詞表規(guī)模增大的話維度也會(huì)變大,向量稀疏性提高,同時(shí)也不能識(shí)別中文種多種語(yǔ)義或一詞多義的情況。為了提高語(yǔ)義的表達(dá)能力,將高維向量轉(zhuǎn)成低維,就用到潛在語(yǔ)義分析(Latentsemanticanalysis,LSA),LSA本質(zhì)是一個(gè)共現(xiàn)矩陣,由文檔與組成文檔單詞組成,并通過(guò)TF-IDF計(jì)算得到結(jié)果[51]。2.1.2主題模型方法通過(guò)LSA的方法最讓可以提高語(yǔ)義的表達(dá)性,但是降維之后空間物理意義也變得模糊。所以有研究者提出一種基于“主題”的文本表示模型,一個(gè)維度表示一

模型圖,主題,模型


重慶郵電大學(xué)碩士學(xué)位論文第2章相關(guān)理論基礎(chǔ)11個(gè)“主題”,“主題”是一個(gè)詞語(yǔ)組合,通過(guò)每個(gè)“主題”就可以知道每個(gè)維度所代表的含義,從而解決了語(yǔ)義問(wèn)題。早期的主題文本表示模型pLSA(probabilisticLSA)如圖2.3所示,首先假定文檔具有多個(gè)主題,該文檔的詞語(yǔ)集合由主題相對(duì)應(yīng)的詞分布中提抽取,假設(shè)J表示文檔,W表示詞,Z表示主題(隱含變量),那么文檔和單詞的聯(lián)合概率如下所示:(,)=()^(|)(|)(2.1)相較于pLSA中沒(méi)有假設(shè)主題的先驗(yàn)分布導(dǎo)致訓(xùn)練文檔和參數(shù)增大的問(wèn)題,后來(lái)研究者提出LDA主題模型[52],和pLSA不同的是LDA中假設(shè)了很多先驗(yàn)分布。在pLSA中,我們認(rèn)為主題分布p(zk|dm)和詞分布p(wn|zk)就是一個(gè)確定的值,我們的目的就是估計(jì)出來(lái)這個(gè)確定的值;而在LDA中,我們假設(shè)這兩個(gè)參數(shù),是不確定的,是服從一定分布的一個(gè)變化的東西,這個(gè)先驗(yàn)的分布,就是狄利克雷分布。圖2.3隱含狄利克雷主題模型基于主題模型在物理方面具有一定的意義,將文章和詞語(yǔ)通過(guò)“主題”關(guān)聯(lián)起來(lái),從而得到較準(zhǔn)確的特征向量。然而主題模型主要側(cè)重于文章級(jí)別的文本,對(duì)于網(wǎng)絡(luò)評(píng)論來(lái)說(shuō)評(píng)論文本大多是短文本,使用主題模型建模效果較差,主題數(shù)量需要手動(dòng)控制隨機(jī)性較強(qiáng)。2.1.3詞嵌入由于計(jì)算機(jī)不能識(shí)別人類(lèi)自然語(yǔ)言,需要將自然語(yǔ)言中文本轉(zhuǎn)化為數(shù)字編碼形式,因此產(chǎn)生了詞向量。詞向量就是將文字詞語(yǔ)用向量的形式來(lái)表達(dá)。在情感識(shí)別

【參考文獻(xiàn)】:
期刊論文
[1]基于復(fù)雜句式短文本情感分類(lèi)研究[J]. 李毅捷,段利國(guó),李?lèi)?ài)萍.  現(xiàn)代電子技術(shù). 2018(22)
[2]基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的中文情感分類(lèi)[J]. 張綺琦,張樹(shù)群,雷兆宜.  計(jì)算機(jī)工程與應(yīng)用. 2017(22)
[3]基于雙語(yǔ)詞典的微博多類(lèi)情感分析方法[J]. 栗雨晴,禮欣,韓煦,宋丹丹,廖樂(lè)健.  電子學(xué)報(bào). 2016(09)
[4]Study of Sentiment Classification for Chinese Microblog Based on Recurrent Neural Network[J]. ZHANG Yangsen,JIANG Yuru,TONG Yixuan.  Chinese Journal of Electronics. 2016(04)
[5]Words semantic orientation classification based on HowNet[J]. LI Dun1 , MA Yong-tao2, GUO Jian-li3 1. School of Information Engineering, Zhengzhou University, Zhengzhou 450001, China 2. School of Mechanical Engineering, Zhengzhou University, Zhengzhou 450001, China 3. International College for Chinese Studies, Nanjing Normal University, Nanjing 210097, China.  The Journal of China Universities of Posts and Telecommunications. 2009(01)
[6]基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J]. 朱嫣嵐,閔錦,周雅倩,黃萱菁,吳立德.  中文信息學(xué)報(bào). 2006(01)



本文編號(hào):3418540

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3418540.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)0e25a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com