基于AF模型的跨領(lǐng)域情感詞典構(gòu)建方法研究
本文選題:情感傾向 + 跨領(lǐng)域; 參考:《華中科技大學(xué)》2016年碩士論文
【摘要】:隨著web2.0的快速發(fā)展,用戶變成了互聯(lián)網(wǎng)內(nèi)容貢獻(xiàn)的主力,大量用戶產(chǎn)生的主觀性文本充斥了人們的視野。基于這些主觀性文本的情感分析成為了近些年的研究熱點(diǎn)。情感詞典的構(gòu)建是情感分析的基礎(chǔ)工作,然而構(gòu)建情感詞典時存在不平衡語料問題,所以,針對這個問題的跨領(lǐng)域情感詞典構(gòu)建研究也正在獲得越來越多人的關(guān)注。目前的跨領(lǐng)域情感詞典構(gòu)建方法大都需要很多的人工標(biāo)注信息,這些標(biāo)注信息需要投入大量的人力和時間才能得到,而且還不夠可靠,針對這個問題,提出一種新的基于AF模型的跨領(lǐng)域情感詞典構(gòu)建方法,該方法僅需要源領(lǐng)域中有詞語級的標(biāo)注信息,就可以利用詞語之間的上下文相似度來判斷目標(biāo)領(lǐng)域中詞語的傾向性,從而構(gòu)建情感詞典。此構(gòu)建方法主要分為三個內(nèi)容,第一個內(nèi)容是語料數(shù)據(jù)的預(yù)處理,主要對語料中的句子進(jìn)行斷句,分詞等處理;第二個內(nèi)容是源領(lǐng)域和目標(biāo)領(lǐng)域AF模型的建立,將兩個領(lǐng)域語料的預(yù)處理結(jié)果建立成AF模型;第三個內(nèi)容是目標(biāo)領(lǐng)域情感詞傾向性的判定,此為所提出的構(gòu)建方法的核心內(nèi)容,其中基于AF模型提出了兩個新的統(tǒng)計量——領(lǐng)域差異度和相對親和度。領(lǐng)域差異度用來區(qū)分領(lǐng)域相關(guān)情感詞和領(lǐng)域無關(guān)情感詞,相對親和度用于計算兩個領(lǐng)域間的情感詞的上下文相似度。在這兩個統(tǒng)計量的基礎(chǔ)上,結(jié)合建立的模型,給出一個傾向性判定算法。通過傾向性的判定結(jié)果,將判斷出的正向情感詞和負(fù)向情感詞結(jié)合在一起就構(gòu)成了目標(biāo)領(lǐng)域的領(lǐng)域情感詞典。最后,在COAE2011提供的評測數(shù)據(jù)基礎(chǔ)上,將所提出的詞典構(gòu)建方法與SO_PMI方法、以及融合上下文的構(gòu)建方法進(jìn)行對比分析,驗(yàn)證本方法的有效性。除此之外,通過實(shí)驗(yàn)不同參數(shù)對所提出構(gòu)建方法的結(jié)果影響,來分析此跨領(lǐng)域詞典構(gòu)建方法的特性。
[Abstract]:With the rapid development of web2.0, users have become the main contribution of Internet content, and a large number of subjective texts produced by users are flooded with people's vision. Emotional analysis based on these subjective texts has become a hot topic in recent years. The construction of emotion dictionary is the basic work of emotion analysis. However, there is an unbalanced corpus problem in the construction of emotion dictionary. Therefore, more and more people are paying attention to the cross-domain emotion dictionary construction. At present, most of the cross-domain affective dictionary construction methods need a lot of manual tagging information, which needs a lot of manpower and time to get, and is not reliable enough, in order to solve this problem, A new cross-domain affective dictionary construction method based on AF model is proposed. This method only requires tagging information at the word level in the source domain, and can use the contextual similarity between words to judge the tendency of the words in the target domain. Thus construct the emotion dictionary. The method is mainly divided into three parts: the first is the preprocessing of corpus data, the second is the construction of AF model in the source and target fields, which mainly deals with sentence breakage and word segmentation in the corpus. The preprocessing results of the two domain corpus are established into AF model. The third is the judgment of the tendency of emotional words in the target domain, which is the core content of the proposed construction method. Based on AF model, two new statistics, domain difference degree and relative affinity degree, are proposed. Domain difference is used to distinguish domain-related affective words from domain-independent affective words, and relative affinity is used to calculate the contextual similarity of affective words between two domains. On the basis of these two statistics and combined with the established model, a decision algorithm of tendency is given. Through the judgment result of tendency, combining the positive affective words and negative affective words to form the domain emotion dictionary of the target domain. Finally, on the basis of the evaluation data provided by COAE2011, the method of dictionary construction is compared with the method of SO_PMI, and the method of constructing fusion context is compared to verify the validity of this method. In addition, the characteristics of this cross-domain dictionary construction method are analyzed by the influence of different parameters on the results of the proposed method.
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 唐浩浩;王波;周杰;陳東;劉紹毓;;基于詞親和度的微博詞語語義傾向識別算法[J];數(shù)據(jù)采集與處理;2015年01期
2 周詠梅;陽愛民;楊佳能;;一種新聞評論情感詞典的構(gòu)建方法[J];計算機(jī)科學(xué);2014年08期
3 周詠梅;楊佳能;陽愛民;;面向文本情感分析的中文情感詞典構(gòu)建方法[J];山東大學(xué)學(xué)報(工學(xué)版);2013年06期
4 陽愛民;林江豪;周詠梅;;中文文本情感詞典構(gòu)建方法[J];計算機(jī)科學(xué)與探索;2013年11期
相關(guān)博士學(xué)位論文 前2條
1 楊玉珍;基于Web評論信息的傾向性分析關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2014年
2 王占一;Web文本挖掘中若干問題的研究[D];北京郵電大學(xué);2012年
相關(guān)碩士學(xué)位論文 前4條
1 劉賢友;面向電子商務(wù)的評論文本情感分析研究[D];中國科學(xué)技術(shù)大學(xué);2015年
2 張永田;詞激活力模型在中文詞發(fā)現(xiàn)中的應(yīng)用研究[D];北京郵電大學(xué);2013年
3 呂文龍;基于AF模型的語義相關(guān)度的研究與應(yīng)用[D];北京郵電大學(xué);2013年
4 唐都鈺;領(lǐng)域自適應(yīng)的中文情感分析詞典構(gòu)建研究[D];哈爾濱工業(yè)大學(xué);2012年
,本文編號:1908875
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1908875.html