面向論壇文本的大學(xué)生情緒識(shí)別研究
本文選題:情感分析 + 情緒分析; 參考:《華中師范大學(xué)》2016年博士論文
【摘要】:大學(xué)生的心理健康是當(dāng)今社會(huì)重點(diǎn)關(guān)注的問(wèn)題。由于所處年齡段、生活空間、文化層面的特殊性,大學(xué)生情緒比較敏感,容易產(chǎn)生孤獨(dú)、壓抑或自卑等負(fù)性情緒,這不僅會(huì)影響自己的學(xué)習(xí)和生活,還容易傳染給周?chē)娜?而長(zhǎng)期處于負(fù)性情緒狀態(tài)可能導(dǎo)致嚴(yán)重后果。因此,負(fù)性情緒分析和個(gè)體識(shí)別對(duì)于增進(jìn)大學(xué)生心理健康、預(yù)防和治療問(wèn)題行為等都具有重要意義。由于情緒自身的復(fù)雜性,長(zhǎng)久以來(lái),個(gè)體情緒測(cè)量主要依賴于心理學(xué)量表測(cè)評(píng),這種方式需要對(duì)被試進(jìn)行干預(yù),而且被試群體的文化層次和敏感性因素也會(huì)在一定程度上影響測(cè)量的效果。文本情緒分析技術(shù)為情緒的測(cè)量提供了一種新的途徑,它可以不加干預(yù)地對(duì)個(gè)體情緒進(jìn)行分析和跟蹤,增強(qiáng)研究結(jié)論的生態(tài)效度,具有良好的發(fā)展前景。本文采用基于機(jī)器學(xué)習(xí)的方法對(duì)大學(xué)生論壇文本內(nèi)容進(jìn)行情緒分析,并對(duì)大學(xué)生負(fù)性情緒個(gè)體展開(kāi)識(shí)別研究,為后續(xù)的心理干預(yù)和輔導(dǎo)提供參考。該研究主要面臨著兩方面的困難:一方面,論壇文本具有長(zhǎng)度偏短、話題寬泛而且表達(dá)不規(guī)范等特點(diǎn),不利于情緒特征的選擇和提。涣硪环矫,由于情緒文本數(shù)量巨大且各類(lèi)別數(shù)量不均衡,嚴(yán)重影響情緒分類(lèi)的識(shí)別準(zhǔn)確性。因此,亟需提出一種有效的方案來(lái)解決特征選擇、特征稀疏性以及情緒類(lèi)別文本數(shù)量不平衡的問(wèn)題,以提高識(shí)別性能。鑒于此,本文的研究工作和創(chuàng)新點(diǎn)主要包含以下三個(gè)方面:(1)針對(duì)論壇情緒文本特征稀疏性的問(wèn)題,提出了一種基于多類(lèi)別特征組合的特征集構(gòu)建方法。該方法在對(duì)論壇文本的特征進(jìn)行深入分析后,綜合詞語(yǔ)特征、組合N-gram特征、共現(xiàn)詞語(yǔ)特征和詞簇特征構(gòu)建論壇文本情緒分類(lèi)的特征集。不同類(lèi)別的特征可以獲取文本多個(gè)方面和不同程度的情緒線索,綜合這些線索可以更加準(zhǔn)確地表示文本所包含的情緒。首先在構(gòu)建詞語(yǔ)和組合N-gram兩類(lèi)應(yīng)用最為廣泛的特征基礎(chǔ)上,針對(duì)傳統(tǒng)的特征選擇方法關(guān)注特征與類(lèi)別的貢獻(xiàn)關(guān)系而忽略了特征之間的聯(lián)系的問(wèn)題,引入表示詞語(yǔ)特征之間共現(xiàn)關(guān)系的共現(xiàn)詞語(yǔ)特征;針對(duì)文本長(zhǎng)度較短可能引起的零特征問(wèn)題,引入基于詞向量聚類(lèi)生成的詞簇特征。繼而利用特征選擇算法對(duì)各類(lèi)別特征進(jìn)行評(píng)估,選擇具有良好分類(lèi)能力的特征構(gòu)建特征集,并定義冗余規(guī)則去除組合過(guò)程中帶來(lái)的特征冗余。將多類(lèi)別特征組合的特征集構(gòu)建方法應(yīng)用于論壇文本的正負(fù)性情緒分類(lèi),實(shí)驗(yàn)結(jié)果表明該方法能有效提高分類(lèi)的識(shí)別效果。(2)針對(duì)多類(lèi)別情緒分類(lèi)中某些情緒類(lèi)別數(shù)量較小的問(wèn)題,提出一種基于樣本中心點(diǎn)距離欠采樣的策略選擇的子空間分類(lèi)算法(Strategic Dynamic Subspace and Distance Based Under Sampling Method,SDSDBUSM).該算法基于隨機(jī)子空間(RSM)算法,主要在兩個(gè)方面進(jìn)行改進(jìn):一方面針對(duì)RSM在生成子空間時(shí),采用完全隨機(jī)采樣可能導(dǎo)致子空間質(zhì)量不高的問(wèn)題,提出利用策略選擇特征的方法提升子空間質(zhì)量。通過(guò)權(quán)重算法計(jì)算各特征識(shí)別能力,再根據(jù)識(shí)別能力策略選擇良好識(shí)別能力的特征,同時(shí)保證子空間的差異性和高質(zhì)量,整體提升集成學(xué)習(xí)的效果。另一方面考慮到情緒類(lèi)別帖子不均衡性問(wèn)題,采用基于樣本中心點(diǎn)距離的欠采樣的方法,去除子空間中噪聲樣本和冗余樣本,有效地提高了對(duì)少數(shù)類(lèi)別的識(shí)別效果。實(shí)驗(yàn)證明,SDSDBUSM比單分類(lèi)器算法和傳統(tǒng)RSM算法獲得更好的性能。(3)針對(duì)基于文本情緒研究如何進(jìn)行個(gè)體情緒測(cè)量方面的研究不足,提出一種基于論壇文本情緒分類(lèi)的個(gè)體情緒測(cè)量的方法。該方法根據(jù)大學(xué)生用戶在論壇中的行為表現(xiàn),綜合多種情緒因子的方式來(lái)對(duì)個(gè)體的情緒進(jìn)行測(cè)量。除了考慮用戶在論壇中發(fā)布的帖子情緒類(lèi)別之外,還考慮用戶的登陸情況、帖子統(tǒng)計(jì)情況、帖子用詞情況等多種情緒表達(dá)因子,綜合計(jì)算個(gè)體情緒值,進(jìn)一步根據(jù)情緒值劃分個(gè)體情緒類(lèi)別。與基于心理學(xué)量表的方法相比,這種方法可以提高個(gè)體情緒測(cè)量效率,動(dòng)態(tài)跟蹤被試的情緒變化,為后續(xù)心理輔導(dǎo)提供參考和支持。
[Abstract]:The psychological health of college students is a key concern in today's society. Because of the age, living space, and the particularity of the cultural level, college students are more sensitive to emotion, and they are prone to negative emotions such as loneliness, depression or inferiority. This will not only affect their study and life, but also be easily transmitted to the people around them, but they are in a negative mood for a long time. The mood analysis and individual recognition are important for improving college students' mental health, prevention and treatment of problem behavior. The cultural level and sensitivity factors of the subjects also affect the effect of measurement to a certain extent. Text emotional analysis technology provides a new way for the measurement of emotion. It can analyze and track individual emotions without intervention, and enhance the ecological validity of the research conclusions. This paper has a good prospect for development. On the basis of machine learning, this paper makes an emotional analysis on the text content of College Students' forum, and studies the negative emotion individual of college students to provide reference for subsequent psychological intervention and guidance. The research is mainly faced with two difficulties: on the one hand, the text has a short length, wide topic and unstandardized expression, etc. Characteristics are not conducive to the selection and extraction of emotional characteristics; on the other hand, the number of emotional texts is huge and the number of categories is not balanced, which seriously affects the recognition accuracy of the emotional classification. Therefore, an effective solution is urgently needed to solve the problem of feature selection, feature sparsity and unbalance of text in emotional categories. In view of this, the research and innovation of this paper mainly include the following three aspects: (1) a feature set construction method based on multi category feature combination is proposed in view of the sparse feature of the forum mood text. This method combines the features of the forum text and combines the features of the words and combines the N-gram Features, concurrence word features and word cluster features to construct the feature set of the emotional classification of the forum text. The characteristics of different categories can obtain many aspects of text and different degree of emotional clues, which can be more accurate to express the emotions contained in the text. First, the two categories of the two categories are the most widely used in the construction of words and combinations. On the basis of the feature, the traditional feature selection method pays attention to the relationship between the feature and the category, neglects the relationship between the features, and introduces the concurrence word characteristics of the concurrence relation between the characters of the word, and introduces the character of the word cluster based on the word vector clustering to solve the zero feature problem which may be caused by the short text length. Then the feature selection algorithm is used to evaluate the characteristics of each category, select the feature set with good classification ability, and define redundant rules to remove the feature redundancy in the combination process. The feature set construction method of multi category feature combination is applied to the positive and negative emotion classification of the forum text. The experimental results show that the party is in the positive and negative mood. The method can effectively improve the recognition effect of classification. (2) a subspace classification algorithm based on Strategic Dynamic Subspace and Distance Based Under Sampling Method, SDSDBUSM is proposed to solve the problem of the small number of emotional categories in the multi class emotion classification. The subspace (RSM) algorithm is mainly improved in two aspects: on the one hand, aiming at the problem that RSM can lead to the poor subspace quality when the sub space is generated in the generation of subspace, it is proposed to use the strategy selection feature to improve the quality of the subspace. The characteristics of good recognition ability are selected, and the difference and high quality of subspace are ensured, and the effect of integrated learning is improved as a whole. On the other hand, the problem of the unbalance of emotional category posts is considered, and the method of undersampling based on the distance of the sample center is used to remove the noise samples and redundant samples in the subspace. The experimental results show that SDSDBUSM has better performance than single classifier and traditional RSM algorithm. (3) a method of individual emotion measurement based on the emotional classification of forum text is proposed for the study of individual emotion measurement based on text emotion research. This method is based on the university student user. In the form of the behavior of the forum, a variety of emotional factors are used to measure the individual's emotions. In addition to the user's emotional category, the user's landing situation, the post statistics, the post use words and other emotional tables are considered, and the individual emotional values are calculated, and further basis is given. Emotional values are divided into individual emotional categories. Compared with the methods based on psychological scales, this method can improve the efficiency of individual emotion measurement, dynamically track the emotional changes of the subjects, and provide reference and support for subsequent psychological counseling.
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:G444
【相似文獻(xiàn)】
相關(guān)期刊論文 前8條
1 石剛;章宜華;劉輝;;電子數(shù)據(jù)庫(kù)的微觀結(jié)構(gòu)及詞典文本的生成機(jī)制[J];安陽(yáng)工學(xué)院學(xué)報(bào);2005年06期
2 閻萍,肖東,汪惠明;利用漢語(yǔ)拼音方案實(shí)現(xiàn)文本到聲音的轉(zhuǎn)換[J];贛南師范學(xué)院學(xué)報(bào);2000年06期
3 劉霽;周亞?wèn)|;高峰;趙俊舟;薛峰;;一種基于文本語(yǔ)義的網(wǎng)絡(luò)敏感話題識(shí)別方法[J];深圳信息職業(yè)技術(shù)學(xué)院學(xué)報(bào);2011年03期
4 張慷;;一種基于文本先分類(lèi)再聚類(lèi)的互聯(lián)網(wǎng)熱點(diǎn)信息發(fā)現(xiàn)方法[J];蘭州工業(yè)學(xué)院學(xué)報(bào);2013年03期
5 周靖;;改進(jìn)偏二叉樹(shù)多類(lèi)SVM的文本分類(lèi)[J];廣東石油化工學(xué)院學(xué)報(bào);2011年04期
6 仲志平;劉渝妍;孫建洪;;基于BWC的XML文本數(shù)據(jù)索引技術(shù)研究[J];昆明學(xué)院學(xué)報(bào);2011年03期
7 許淑慧;AutoCAD和Word間圖形數(shù)據(jù)與文本數(shù)據(jù)的傳遞[J];現(xiàn)代技能開(kāi)發(fā);2003年12期
8 ;[J];;年期
相關(guān)會(huì)議論文 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復(fù)制文本檢測(cè)[A];第29屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關(guān)聯(lián)規(guī)則制導(dǎo)的遺傳算法在文本分類(lèi)中的應(yīng)用[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
4 李文波;孫樂(lè);黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類(lèi)新算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 黃云平;孫樂(lè);李文波;;基于上下文圖模型文本表示的文本分類(lèi)研究[A];第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫(xiě)文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復(fù)制文本檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類(lèi)的方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術(shù)研究的新進(jìn)展[A];開(kāi)創(chuàng)新世紀(jì)的通信技術(shù)——第七屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2001年
10 江荻;;藏語(yǔ)文本信息處理的歷程與進(jìn)展[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
相關(guān)重要報(bào)紙文章 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國(guó)電腦教育報(bào);2004年
相關(guān)博士學(xué)位論文 前10條
1 宋歌;基于聚類(lèi)森林的文本流分類(lèi)方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 韓開(kāi)旭;基于支持向量機(jī)的文本情感分析研究[D];東北石油大學(xué);2014年
3 鄭立洲;短文本信息抽取若干技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
4 韓磊;漢語(yǔ)句義結(jié)構(gòu)模型分析及其文本表示方法研究[D];北京理工大學(xué);2016年
5 劉林;面向論壇文本的大學(xué)生情緒識(shí)別研究[D];華中師范大學(xué);2016年
6 張博宇;基于局部特征的場(chǎng)景文本分析方法研究[D];哈爾濱工業(yè)大學(xué);2015年
7 胡明涵;面向領(lǐng)域的文本分類(lèi)與挖掘關(guān)鍵技術(shù)研究[D];東北大學(xué) ;2009年
8 孫曉華;基于聚類(lèi)的文本機(jī)會(huì)發(fā)現(xiàn)關(guān)鍵問(wèn)題研究[D];哈爾濱工程大學(xué);2010年
9 尚文倩;文本分類(lèi)及其相關(guān)技術(shù)研究[D];北京交通大學(xué);2007年
10 霍躍紅;典籍英譯譯者文體分析與文本的譯者識(shí)別[D];大連理工大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類(lèi)研究[D];內(nèi)蒙古大學(xué);2015年
2 金傳鑫;氣象文本分類(lèi)特征選擇方法及其在MapReduce上的實(shí)現(xiàn)[D];南京信息工程大學(xué);2015年
3 李少卿;不良文本及其變體信息的檢測(cè)過(guò)濾技術(shù)研究[D];復(fù)旦大學(xué);2014年
4 董秦濤;基于文本的個(gè)人情感狀態(tài)分析研究[D];蘭州大學(xué);2015年
5 鐘文波;搜索引擎中關(guān)鍵詞分類(lèi)方法評(píng)估及推薦應(yīng)用[D];華南理工大學(xué);2015年
6 黃晨;基于新詞識(shí)別和時(shí)間跨度的微博熱點(diǎn)研究[D];上海交通大學(xué);2015年
7 陳紅陽(yáng);中文微博話題發(fā)現(xiàn)技術(shù)研究[D];重慶理工大學(xué);2015年
8 王s,
本文編號(hào):1892287
本文鏈接:http://sikaile.net/shoufeilunwen/sklbs/1892287.html