天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于CRF和名詞短語識別的中文微博情感要素抽取

發(fā)布時間:2018-03-20 21:51

  本文選題:情感要素 切入點:條件隨機場 出處:《大連理工大學》2014年碩士論文 論文類型:學位論文


【摘要】:隨著信息技術(shù)的發(fā)展,信息的發(fā)布和傳播速度越來越快,如何從海量數(shù)據(jù)中提取有價值的信息顯得越來越重要。微博作為近年來新的社交平臺工具發(fā)展很快,用戶數(shù)量龐大,除了主動發(fā)布信息,還可以通過話題的方式參與討論,話題的類別多種多樣,很多有價值的話題的討論內(nèi)容會帶有作者的主觀意愿。如何分析出這些話題微博的情感要素就是本文的研究內(nèi)容,情感要素的抽取包括情感對象的抽取和情感傾向的判斷。 在情感傾向判斷問題上,由于中文微博可以包含較大的信息量,一條微博可能含有多個情感對象,因此基于機器學習的情感傾向分類較難以劃分邊界。本文采用建立詞典的方法對情感對象的情感傾向進行判斷,通過詞典的匹配形成情感單元,使用情感單元的情感值判斷情感對象的情感傾向。 在情感對象抽取問題上,本文使用條件隨機場(CRF)模型進行情感對象抽取。結(jié)合詞形、詞性、是否為情感詞和依存信息等語義特征,實現(xiàn)對情感對象的自動抽取。該方法在閉式測試中效果較好,但開式測試效果較差。造成結(jié)果的原因很大一部分是CRF方法的訓練語料規(guī)模不夠,但人工標注語料的成本過高,語料規(guī)模難以擴大。 由于CRF方法在該問題上的表現(xiàn)不佳,本文提出一種基于名詞短語識別的候選情感對象表自動生成的方法,該方法結(jié)合依存信息對候選情感對象進行有效的過濾,得到候選情感對象表,利用該表對CRF未識別出情感對象的句子進行情感對象抽取。實驗表明該方法在情感對象抽取問題上較為有效。
[Abstract]:With the development of information technology, the speed of information dissemination and dissemination is getting faster and faster. How to extract valuable information from massive data becomes more and more important. Weibo, as a new social platform tool, has developed rapidly in recent years and has a large number of users. In addition to actively publishing information, you can also participate in the discussion through the way of topics, there are many kinds of topics, How to analyze the emotional elements of Weibo is the research content of this paper. The extraction of emotional elements includes the extraction of emotional objects and the judgment of emotional tendency. On the issue of emotional disposition judgment, as Chinese Weibo can contain a large amount of information, a Weibo may contain more than one emotional object. Therefore, the classification of emotion tendency based on machine learning is difficult to divide the boundary. In this paper, we use the method of establishing dictionary to judge the emotion tendency of emotion object, and form the emotion unit by matching the dictionary. The emotion value of the emotion unit is used to judge the emotional tendency of the emotion object. In the problem of emotional object extraction, we use conditional random field (CRF) model to extract affective object, combining semantic features such as word form, part of speech, whether emotional word and dependent information, etc. The effect of this method is good in closed test, but the effect of open test is poor. The reason of the result is that the scale of training corpus of CRF method is not enough, but the cost of manual tagging is too high. The scale of the corpus is difficult to expand. Due to the poor performance of the CRF method on this issue, this paper proposes a method of automatic generation of candidate emotional object tables based on noun phrase recognition, which combines dependency information to filter candidate emotional objects effectively. A list of candidate emotional objects is obtained and used to extract emotional objects from sentences that are not recognized by CRF. Experiments show that this method is more effective in the problem of emotional object extraction.
【學位授予單位】:大連理工大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.1;TP393.092

【參考文獻】

相關(guān)期刊論文 前10條

1 李藝紅;蔣秀鳳;;中文句子傾向性分析[J];福州大學學報(自然科學版);2010年04期

2 孫艷;周學廣;付偉;;基于主題情感混合模型的無監(jiān)督文本情感分析[J];北京大學學報(自然科學版);2013年01期

3 蘇杰;繆裕青;劉少兵;吳孔玲;;基于語義傾向計算器的情感分析方法[J];桂林電子科技大學學報;2012年04期

4 劉志明;劉魯;;基于機器學習的中文微博情感分類實證研究[J];計算機工程與應(yīng)用;2012年01期

5 張昱琪,周強;漢語基本短語的自動識別[J];中文信息學報;2002年06期

6 劉鴻宇;趙妍妍;秦兵;劉挺;;評價對象抽取及其傾向性分析[J];中文信息學報;2010年01期

7 謝麗星;周明;孫茂松;;基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J];中文信息學報;2012年01期

8 楊亮;林原;林鴻飛;;基于情感分布的微博熱點事件發(fā)現(xiàn)[J];中文信息學報;2012年01期

9 龐磊;李壽山;周國棟;;基于情緒知識的中文微博情感分類方法[J];計算機工程;2012年13期

10 韓忠明;張玉沙;張慧;萬月亮;黃今慧;;有效的中文微博短文本傾向性分類算法[J];計算機應(yīng)用與軟件;2012年10期

,

本文編號:1640939

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1640939.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8375b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com