基于多種方法組合的在線評論情感分析研究
發(fā)布時間:2021-03-30 20:36
近年來,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展與廣泛應(yīng)用,電商網(wǎng)站、微博、新聞網(wǎng)站等逐漸成為人們生活中不可缺少的一部分,這些網(wǎng)站通常有著海量的在線用戶評論,這些由用戶撰寫的評論蘊含著巨大的價值,已經(jīng)成為消費者和相關(guān)企業(yè)的重要信息來源。由于在線評論具有信息量大、非結(jié)構(gòu)化的特點,文本挖掘技術(shù)被用于在線評論的分析。情感分析(Sentiment Analysis)是一種分析在線評論情感觀點的文本挖掘方法,主要進行兩個任務(wù):情感極性分類,分析文本情感觀點的情感極性,包括正、負、中性;方面識別,識別情感觀點所談及的具體方面類別,可以是特定實體的任何屬性或特征。然而,大多數(shù)傳統(tǒng)的情感分析方法更多地關(guān)注文本中的情感詞以及與之相關(guān)聯(lián)的名詞等,很少考慮句子其他部分的影響;诖,本文試圖從這一角度出發(fā)找到一種切實可行的方法來提高性能。本文對現(xiàn)有的方法進行了并行組合使用,組合方法不只關(guān)注明顯的情感詞和名詞等,還關(guān)注句子的其他部分。無論是在情感極性分類還是在方面識別任務(wù)中,都驗證了所使用的組合方法可以有效地提高性能。研究在兩個不同層級上展開。首先,在句子層級的情感分析研究中,本文基于情感分析問題的特點,對顯式、隱式情感意見...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
論文研究框架
電子科技大學(xué)碩士學(xué)位論文20虛線上的點,因為它們是對w@S有直接貢獻的文檔向量。對測試實例的分類只需確定它落在超平面的哪一側(cè)。圖3-5支持向量機支持向量機這一算法具有許多優(yōu)點,尤其是在特征通常比較多的文本分類問題中。在高維度空間中表現(xiàn)良好,當樣本數(shù)小于特征維數(shù)時依然有效,而且這一算法在決策函數(shù)中使用的是樣本點的子集,因此它也具有存儲效率。3.2.3.3邏輯回歸邏輯回歸(LogisticRegression,LR)盡管其名稱中帶有“回歸”,但這一算法實際上是用于分類而不是回歸的線性模型,由于這一算法的簡單高效,在實際問題中得到了廣泛的應(yīng)用,邏輯回歸模型為最大熵模型在二分類時的特例,也就是說,把邏輯回歸引入到多分類問題時等價于最大熵模型。邏輯回歸算法由于其使用的便利性,在情感分析中也經(jīng)常被使用[44,48]。這一算法的思想是通過輸入已知的自變量輸出一個概率值來預(yù)測離散型因變量的值。邏輯回歸的核心思想是建立在線性回歸的基礎(chǔ)上的:線性回歸是以訓(xùn)練數(shù)據(jù)擬合一條直線,并利用這條直線來預(yù)測新的輸入;邏輯回歸是要找到一個合適的假設(shè)函數(shù)作為分類函數(shù),在此基礎(chǔ)上輸入訓(xùn)練數(shù)據(jù)得到初步的預(yù)測輸出結(jié)果,得到這一結(jié)果后使用損失函數(shù)將訓(xùn)練樣本的預(yù)測輸出與實際類別的偏差表示出來,然后通過最小化這一損失函數(shù)來獲得最優(yōu)參數(shù)。因此,首先需要確定分類函數(shù),邏輯回歸的分類函數(shù)必須具備接受所有的輸入然后得到結(jié)果的能力,輸出0到1之間的某個值。符合此要求的有Sigmoid函數(shù):
電子科技大學(xué)碩士學(xué)位論文24話中兩個詞之間的具體句法關(guān)系。利用依存句法描述一句話的優(yōu)點是不需要理解詞匯本身的含義,而是通過它所承載的語法關(guān)系來表示詞匯,其數(shù)量遠遠小于詞匯的數(shù)量。這樣一來,大部分的句子都可以用這個框架來表示,同時,我們又能總結(jié)出這句話大概講了些什么。首先,句子中的核心動詞是支配其他成分的中心成分,它本身不受支配,這樣的詞作為句子的根節(jié)點,在依存關(guān)系中被記為“root”,當然,在非正式的不完整的句子中可能不存在動詞,此時形容詞或名詞也可能成為根節(jié)點。其次,依賴于根節(jié)點,其它成分間也存在依存關(guān)系。以句子“Servicewasalsoverygood”為例,其句法依存關(guān)系如圖3-6。圖中箭頭方向由支配詞指向從屬詞,也就是父節(jié)點指向子節(jié)點。箭頭下的小寫字母代表依存關(guān)系,單詞下的大寫字母代表該詞的詞性。在這一句話中“was”為本句的root。通過依存句法分析的方法,我們可以提取出句子中形如“goodservice”這樣的短語。圖3-6依存句法分析現(xiàn)有的基于依存句法的方法的思想是利用依存句法分析提取文本的主干,再使用其他的分類方法對其分類。而用此類方法提取到的文本主干大多包含明顯的情感詞與情感對象,文本中不包含明顯情感詞的部分往往被忽略掉,但這些被忽略的部分也可能表達情感。所以,從提高對文本預(yù)料利用率的角度出發(fā),本文的方法考慮了其他部分的影響:使用句法依存關(guān)系對評論句子中的短語進行提取,并在此基礎(chǔ)上拆分句子,提取句子中可能表達意見的部分來應(yīng)用我們訓(xùn)練好的監(jiān)督分類模型判別意見類別。在本文中,我們使用了spacy工具來進行依存句法的分析。表3-2給出了依存句法分析中部分關(guān)系的標簽及其具體意義,這些標注的關(guān)系會在第五章的實驗中被用到。
本文編號:3110116
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
論文研究框架
電子科技大學(xué)碩士學(xué)位論文20虛線上的點,因為它們是對w@S有直接貢獻的文檔向量。對測試實例的分類只需確定它落在超平面的哪一側(cè)。圖3-5支持向量機支持向量機這一算法具有許多優(yōu)點,尤其是在特征通常比較多的文本分類問題中。在高維度空間中表現(xiàn)良好,當樣本數(shù)小于特征維數(shù)時依然有效,而且這一算法在決策函數(shù)中使用的是樣本點的子集,因此它也具有存儲效率。3.2.3.3邏輯回歸邏輯回歸(LogisticRegression,LR)盡管其名稱中帶有“回歸”,但這一算法實際上是用于分類而不是回歸的線性模型,由于這一算法的簡單高效,在實際問題中得到了廣泛的應(yīng)用,邏輯回歸模型為最大熵模型在二分類時的特例,也就是說,把邏輯回歸引入到多分類問題時等價于最大熵模型。邏輯回歸算法由于其使用的便利性,在情感分析中也經(jīng)常被使用[44,48]。這一算法的思想是通過輸入已知的自變量輸出一個概率值來預(yù)測離散型因變量的值。邏輯回歸的核心思想是建立在線性回歸的基礎(chǔ)上的:線性回歸是以訓(xùn)練數(shù)據(jù)擬合一條直線,并利用這條直線來預(yù)測新的輸入;邏輯回歸是要找到一個合適的假設(shè)函數(shù)作為分類函數(shù),在此基礎(chǔ)上輸入訓(xùn)練數(shù)據(jù)得到初步的預(yù)測輸出結(jié)果,得到這一結(jié)果后使用損失函數(shù)將訓(xùn)練樣本的預(yù)測輸出與實際類別的偏差表示出來,然后通過最小化這一損失函數(shù)來獲得最優(yōu)參數(shù)。因此,首先需要確定分類函數(shù),邏輯回歸的分類函數(shù)必須具備接受所有的輸入然后得到結(jié)果的能力,輸出0到1之間的某個值。符合此要求的有Sigmoid函數(shù):
電子科技大學(xué)碩士學(xué)位論文24話中兩個詞之間的具體句法關(guān)系。利用依存句法描述一句話的優(yōu)點是不需要理解詞匯本身的含義,而是通過它所承載的語法關(guān)系來表示詞匯,其數(shù)量遠遠小于詞匯的數(shù)量。這樣一來,大部分的句子都可以用這個框架來表示,同時,我們又能總結(jié)出這句話大概講了些什么。首先,句子中的核心動詞是支配其他成分的中心成分,它本身不受支配,這樣的詞作為句子的根節(jié)點,在依存關(guān)系中被記為“root”,當然,在非正式的不完整的句子中可能不存在動詞,此時形容詞或名詞也可能成為根節(jié)點。其次,依賴于根節(jié)點,其它成分間也存在依存關(guān)系。以句子“Servicewasalsoverygood”為例,其句法依存關(guān)系如圖3-6。圖中箭頭方向由支配詞指向從屬詞,也就是父節(jié)點指向子節(jié)點。箭頭下的小寫字母代表依存關(guān)系,單詞下的大寫字母代表該詞的詞性。在這一句話中“was”為本句的root。通過依存句法分析的方法,我們可以提取出句子中形如“goodservice”這樣的短語。圖3-6依存句法分析現(xiàn)有的基于依存句法的方法的思想是利用依存句法分析提取文本的主干,再使用其他的分類方法對其分類。而用此類方法提取到的文本主干大多包含明顯的情感詞與情感對象,文本中不包含明顯情感詞的部分往往被忽略掉,但這些被忽略的部分也可能表達情感。所以,從提高對文本預(yù)料利用率的角度出發(fā),本文的方法考慮了其他部分的影響:使用句法依存關(guān)系對評論句子中的短語進行提取,并在此基礎(chǔ)上拆分句子,提取句子中可能表達意見的部分來應(yīng)用我們訓(xùn)練好的監(jiān)督分類模型判別意見類別。在本文中,我們使用了spacy工具來進行依存句法的分析。表3-2給出了依存句法分析中部分關(guān)系的標簽及其具體意義,這些標注的關(guān)系會在第五章的實驗中被用到。
本文編號:3110116
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3110116.html
最近更新
教材專著