基于微博的中文觀點句識別方法研究
發(fā)布時間:2019-10-12 07:26
【摘要】:近年來隨著微博平臺的發(fā)展,微博中的文本挖掘技術(shù)也日益增多。微博中觀點句識別任務(wù)是進行情感極性分類和輿情分析的前提工作。觀點句識別技術(shù)是在文本分類領(lǐng)域中的研究,而文本分類技術(shù)也常用于Web數(shù)據(jù)挖掘工作。文本分類的目的是對文本中的信息進行自動提取,讓用戶得到準確反映文本的關(guān)鍵信息,本文中的觀點句識別任務(wù)是一種句子級二分類。觀點句的定義為:觀點句只限定于對特定事物或?qū)ο蟮脑u價,不包括內(nèi)心自我情感意愿或心情。微博觀點句識別可以在微博中發(fā)現(xiàn)人們對新聞事件中評價對象的態(tài)度和立場。本文根據(jù)之前的研究工作,針對新聞話題型微博的口語化、語言結(jié)構(gòu)自由的特點,提出一種基于規(guī)則和AdaBoost的組合分類方法來對微博中的觀點句進行識別。我們使用微博文本的特征構(gòu)建AdaBoost算法的弱分類器,并且用此組合方法與傳統(tǒng)基于詞典和基于SVM的方法進行了比較。本文的研究內(nèi)容如下:1.首先,我們對本文研究中的觀點句類別進行了詳細的劃分,根據(jù)話題微博文本的特點,總結(jié)提取了中文話題微博中的觀點句特征,包括一些能夠區(qū)分觀點句和非觀點句的高置信度的句法模板。2.其次,本文總結(jié)了目前基于規(guī)則和基于統(tǒng)計的觀點句分類方法的不足,提出了高置信度的句法模板和AdaBoost提升方法結(jié)合的分類算法對中文話題型微博觀點句進行分類。另外,本文針對AdaBoost算法的缺點進行了改進,使用3層CART算法作為其弱分類器的AdaBoost算法,并且針對其對離群點敏感的問題,優(yōu)化了樣本權(quán)重更新機制。改進權(quán)重更新的CART-ADB提高了泛化性能,避免了退化現(xiàn)象。3.最后,本文將多種分類方法結(jié)合本文提出的句法模板用于中文話題型微博的觀點句分類并與本文的方法進行比較。另外,本文還分析了本文方法在不同話題類型間的差異性。實驗結(jié)果表明,本文方法能夠有效提高觀點句識別方法的性能。
【圖文】:
西華大學(xué)碩士學(xué)位論文 中文微博觀點句識別相關(guān)理論和技術(shù).1 微博的特點微博在近年來發(fā)展迅猛,已經(jīng)成為了很多人必備的信息交互平臺。微博操作簡單含大量活躍用戶。如圖 2.1 所示,在 2016 年微博的第三季度財報中,月活躍人數(shù)已經(jīng)破了 2.97 億,同比增長 34%,這顯示了微博在如今的網(wǎng)絡(luò)社交媒體的迅猛發(fā)展下下經(jīng)成為了許多人生活中不可缺少的一部分[56]。
圖 2.2 2016 年微博用戶關(guān)注的熱門話題Fig. 2.2 2016 hot topics of microblog users concerned2 情感分析介紹2.1 主客觀分類文本的主客觀性分析是近年來的研究熱點。主客觀分類也是情感極性分析的前,客觀文本是對事物的客觀陳述,不包含人的情感表達,而主觀性文本則包含了事物的主觀評價、意見、預(yù)測和心情等情緒的表達。主客觀分類是一種二元分類來有基于機器學(xué)習(xí)的方法或基于規(guī)則的方法的研究,通過選取適當(dāng)?shù)臋C器學(xué)習(xí)分和特征,,或者具有強分類能力的規(guī)則來進行分類。如姚天f [16]將情感形容詞、第二人稱代詞、帶有情感色彩的標(biāo)點符號、意見動詞等特征結(jié)合起來對文本進行主類。而 Pang 和 Lee[11]用圖的最小割原理計算文檔中句子的關(guān)聯(lián)得分,將文檔中觀句通過圖的最小割分類算法區(qū)別開來。對于統(tǒng)計方法和規(guī)則方法來說,特征項
【學(xué)位授予單位】:西華大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1;TP393.092
【圖文】:
西華大學(xué)碩士學(xué)位論文 中文微博觀點句識別相關(guān)理論和技術(shù).1 微博的特點微博在近年來發(fā)展迅猛,已經(jīng)成為了很多人必備的信息交互平臺。微博操作簡單含大量活躍用戶。如圖 2.1 所示,在 2016 年微博的第三季度財報中,月活躍人數(shù)已經(jīng)破了 2.97 億,同比增長 34%,這顯示了微博在如今的網(wǎng)絡(luò)社交媒體的迅猛發(fā)展下下經(jīng)成為了許多人生活中不可缺少的一部分[56]。
圖 2.2 2016 年微博用戶關(guān)注的熱門話題Fig. 2.2 2016 hot topics of microblog users concerned2 情感分析介紹2.1 主客觀分類文本的主客觀性分析是近年來的研究熱點。主客觀分類也是情感極性分析的前,客觀文本是對事物的客觀陳述,不包含人的情感表達,而主觀性文本則包含了事物的主觀評價、意見、預(yù)測和心情等情緒的表達。主客觀分類是一種二元分類來有基于機器學(xué)習(xí)的方法或基于規(guī)則的方法的研究,通過選取適當(dāng)?shù)臋C器學(xué)習(xí)分和特征,,或者具有強分類能力的規(guī)則來進行分類。如姚天f [16]將情感形容詞、第二人稱代詞、帶有情感色彩的標(biāo)點符號、意見動詞等特征結(jié)合起來對文本進行主類。而 Pang 和 Lee[11]用圖的最小割原理計算文檔中句子的關(guān)聯(lián)得分,將文檔中觀句通過圖的最小割分類算法區(qū)別開來。對于統(tǒng)計方法和規(guī)則方法來說,特征項
【學(xué)位授予單位】:西華大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1;TP393.092
【參考文獻】
相關(guān)期刊論文 前10條
1 陳鋒;;細顆粒度觀點挖掘中的觀點句識別與要素抽取研究綜述[J];數(shù)字圖書館論壇;2015年10期
2 程顯毅;劉穎;;基于知識圖的觀點句識別算法研究[J];計算機科學(xué);2015年05期
3 何炎祥;牛菲菲;方文其;陳強;孫松濤;;基于詞性組合規(guī)則改進的中文句子極性判斷方法[J];計算機應(yīng)用與軟件;2015年03期
4 劉慧慧;王素格;趙策力;;觀點句中評價對象/屬性的缺省項識別方法研究[J];中文信息學(xué)報;2014年06期
5 王樂;閉應(yīng)洲;;基于特征模板提取及SVM的觀點句識別[J];廣西師范學(xué)院學(xué)報(自然科學(xué)版);2014年03期
6 潘艷茜;姚天f ;;微博汽車領(lǐng)域中用戶觀點句識別方法的研究[J];中文信息學(xué)報;2014年05期
7 田海龍;朱艷輝;梁韜;馬進;劉t
本文編號:2547956
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2547956.html
最近更新
教材專著