基于短文本(句子級(jí))的情感分類研究
發(fā)布時(shí)間:2021-08-06 12:41
文本情感分類,也稱為意見挖掘或情感定向分析。自21世紀(jì)初以來,情感分類已發(fā)展為自然語言處理領(lǐng)域的研究熱點(diǎn)。在該領(lǐng)域,根據(jù)處理文本的不同粒度,大致分為三個(gè)級(jí)別:篇章級(jí),句子級(jí),方面級(jí)。本文著重研究短文本,即句子層面的情感分類研究與分析。當(dāng)今社會(huì),隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,各電商平臺(tái)和社交網(wǎng)絡(luò)也得到了飛速發(fā)展,人們?cè)絹碓蕉嗟南矚g在互聯(lián)網(wǎng)上發(fā)表自己的觀點(diǎn),或針對(duì)某一社會(huì)熱點(diǎn),或針對(duì)網(wǎng)購(gòu)產(chǎn)品的使用體驗(yàn)等。其中,微博便以其簡(jiǎn)單,便捷,信息分享的高實(shí)時(shí)性等特點(diǎn),迅速成為了國(guó)內(nèi)網(wǎng)絡(luò)輿情的發(fā)源地和集中地。網(wǎng)絡(luò)輿情與公眾的生活息息相關(guān),同時(shí)也關(guān)系著社會(huì)的穩(wěn)定與發(fā)展。通過對(duì)網(wǎng)絡(luò)輿情進(jìn)行分析和研究,可以防范重大事件的發(fā)生,幫助政府準(zhǔn)確快速地做出決策。因此,本文對(duì)微博進(jìn)行情感傾向性分析,以便更好地監(jiān)控網(wǎng)絡(luò)輿情,為政府決策提供支持。本文選取了長(zhǎng)度不超過140個(gè)字節(jié)的微博數(shù)據(jù)集,對(duì)傳統(tǒng)的小批量梯度下降算法進(jìn)行改進(jìn),提出了一種基于熱重啟與余弦退火的訓(xùn)練批量周期變化策略SGDR,該方法不是單調(diào)的或者隨機(jī)的改變batchsize,而是使batchsize在合理的邊界值之間循環(huán)...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW模型
圖 2.4 Skip-gram 模型.3 卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò),用于處理具有類似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)[33]。CNN 依靠卷積運(yùn)算,使同情況下人工神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)個(gè)數(shù)大大減少;當(dāng) CNN 處理通過卷積運(yùn)算的特征圖時(shí),它不僅減小了圖像的尺寸,而且還去除了特征圖的冗余信息。.3.1 卷積層卷積層主要負(fù)責(zé)對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,提取到的特征通常也可以用于其他上。假設(shè)輸入一個(gè) m n k的圖像,經(jīng)過前向傳播過程,沿著所輸入圖像的寬和向提取大小為 p q k的圖像,得到一組數(shù)據(jù)。當(dāng)卷積內(nèi)核滑動(dòng)時(shí),使用結(jié)果數(shù)不同部分計(jì)算內(nèi)積,從而產(chǎn)生激活圖。其大小為 ( m p 1) (n q 1) k。圖的值
圖 2.5 卷積層處理過程如上圖 2.5 所示,以二維卷積核為例,說明了卷積層的處理過程。輸入矩陣的小為 5×5,選取大小為 3×3 的卷積核,利用卷積核移動(dòng),掃描輸入矩陣表示的特圖得到激活值。2.3.2 池化層為減少 Softmax 分類器的計(jì)算量,防止出現(xiàn)過擬合現(xiàn)象,在卷積層之后引入池層,進(jìn)行特征選擇,保留卷積層輸出矩陣的主要特征,降低全連接層的參數(shù)數(shù)量和算量。池化層的目的在于特征降維,包含一個(gè)池化函數(shù),即使用激活值一部分的均或最大值來代替這一部分,它們被稱為平均池和最大池。通常,非重疊池化窗口的能最佳,如圖 2.6 所示,用于非重疊池化窗口的池化處理。
【參考文獻(xiàn)】:
期刊論文
[1]基于情感詞典的酒店評(píng)論情感分類研究[J]. 陳柯宇,何中市. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2017(06)
[2]基于詞典與規(guī)則的新聞文本情感傾向性分析[J]. 李晨,朱世偉,魏墨濟(jì),于俊鳳,李新天. 山東科學(xué). 2017(01)
[3]一種基于極性詞典的情感分析方法[J]. 張成功,劉培玉,朱振方,方明. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2012(03)
碩士論文
[1]面向微博的情感傾向性研究[D]. 馮躍.吉林大學(xué) 2018
[2]基于機(jī)器學(xué)習(xí)的文本情感分析研究與優(yōu)化[D]. 禹業(yè)藂.北京郵電大學(xué) 2018
[3]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
[4]中文文本分類特征選擇方法研究[D]. 王小青.西南大學(xué) 2010
本文編號(hào):3325791
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW模型
圖 2.4 Skip-gram 模型.3 卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò),用于處理具有類似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)[33]。CNN 依靠卷積運(yùn)算,使同情況下人工神經(jīng)網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)個(gè)數(shù)大大減少;當(dāng) CNN 處理通過卷積運(yùn)算的特征圖時(shí),它不僅減小了圖像的尺寸,而且還去除了特征圖的冗余信息。.3.1 卷積層卷積層主要負(fù)責(zé)對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,提取到的特征通常也可以用于其他上。假設(shè)輸入一個(gè) m n k的圖像,經(jīng)過前向傳播過程,沿著所輸入圖像的寬和向提取大小為 p q k的圖像,得到一組數(shù)據(jù)。當(dāng)卷積內(nèi)核滑動(dòng)時(shí),使用結(jié)果數(shù)不同部分計(jì)算內(nèi)積,從而產(chǎn)生激活圖。其大小為 ( m p 1) (n q 1) k。圖的值
圖 2.5 卷積層處理過程如上圖 2.5 所示,以二維卷積核為例,說明了卷積層的處理過程。輸入矩陣的小為 5×5,選取大小為 3×3 的卷積核,利用卷積核移動(dòng),掃描輸入矩陣表示的特圖得到激活值。2.3.2 池化層為減少 Softmax 分類器的計(jì)算量,防止出現(xiàn)過擬合現(xiàn)象,在卷積層之后引入池層,進(jìn)行特征選擇,保留卷積層輸出矩陣的主要特征,降低全連接層的參數(shù)數(shù)量和算量。池化層的目的在于特征降維,包含一個(gè)池化函數(shù),即使用激活值一部分的均或最大值來代替這一部分,它們被稱為平均池和最大池。通常,非重疊池化窗口的能最佳,如圖 2.6 所示,用于非重疊池化窗口的池化處理。
【參考文獻(xiàn)】:
期刊論文
[1]基于情感詞典的酒店評(píng)論情感分類研究[J]. 陳柯宇,何中市. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2017(06)
[2]基于詞典與規(guī)則的新聞文本情感傾向性分析[J]. 李晨,朱世偉,魏墨濟(jì),于俊鳳,李新天. 山東科學(xué). 2017(01)
[3]一種基于極性詞典的情感分析方法[J]. 張成功,劉培玉,朱振方,方明. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2012(03)
碩士論文
[1]面向微博的情感傾向性研究[D]. 馮躍.吉林大學(xué) 2018
[2]基于機(jī)器學(xué)習(xí)的文本情感分析研究與優(yōu)化[D]. 禹業(yè)藂.北京郵電大學(xué) 2018
[3]基于情感詞典的中文微博情感傾向分析研究[D]. 陳曉東.華中科技大學(xué) 2012
[4]中文文本分類特征選擇方法研究[D]. 王小青.西南大學(xué) 2010
本文編號(hào):3325791
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3325791.html
最近更新
教材專著