基于文本挖掘的在線論壇用戶心理健康自動(dòng)評(píng)估
發(fā)布時(shí)間:2020-07-28 09:04
【摘要】:心理健康論壇是一個(gè)有著心理咨詢專家維護(hù)的服務(wù)性質(zhì)的在線社區(qū),人們可以在那里匿名表達(dá)他們的心理健康問(wèn)題并尋求心理咨詢專家或者其他用戶地幫助。在這樣的論壇中經(jīng)常存在正遭受著痛苦甚至隨時(shí)會(huì)進(jìn)行自我傷害的用戶,心理咨詢專家需要及時(shí)發(fā)現(xiàn)并回應(yīng)這樣的用戶以防止他們進(jìn)行自我傷害,但是論壇中每日發(fā)布的帖子數(shù)以千計(jì),導(dǎo)致心理咨詢專家難以及時(shí)找到這樣的用戶并及時(shí)回復(fù),因此自動(dòng)評(píng)估在線論壇用戶的心理健康顯得格外重要。本文針對(duì)CLPsych2017發(fā)布的在線論壇用戶數(shù)據(jù)信息,從兩個(gè)方面構(gòu)建模型對(duì)論壇中帖子所反映的用戶(心理健康狀況)需要干預(yù)的緊急程度(crisis:非常緊急,red:緊急,amber:不緊急,green:不需要任何干預(yù))進(jìn)行自動(dòng)評(píng)估:(1)基于多特征融合的在線論壇用戶心理健康自動(dòng)評(píng)估框架F~3TMH。該框架采用貪婪法F~3TMH_G、投票法F~3TMH_V、后期融合法F~3TMH_L和降噪自編碼器法F~3TMH_DA四種特征融合策略,融合帖子(或其作者)的行為與屬性特征、語(yǔ)言或用詞風(fēng)格特征、內(nèi)容特征(N-Grams特征、主題特征、詞向量特征)、上下文特征來(lái)構(gòu)建自動(dòng)評(píng)估模型。實(shí)驗(yàn)發(fā)現(xiàn),相較于其他特征,詞向量特征在自動(dòng)評(píng)估在線論壇用戶心理健康危機(jī)程度的問(wèn)題上表現(xiàn)更好;后期融合策略F~3TMH_L_2更有利于識(shí)別心理健康危機(jī)程度較高的用戶(crisis和red類帖子),自編碼融合策略對(duì)于識(shí)別數(shù)據(jù)量相對(duì)較多的Flagged類(所有非green類的并集)帖子更有優(yōu)勢(shì)。(2)心理學(xué)知識(shí)指導(dǎo)下的心理健康自動(dòng)評(píng)估CNN模型。提出基于心理學(xué)知識(shí)LIWC詞典的卷積神經(jīng)網(wǎng)絡(luò)模型LIWC-CNN,挖掘LIWC詞典在不同類別帖子中的詞頻的統(tǒng)計(jì)特征,并據(jù)此來(lái)指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取更有利于識(shí)別需要干預(yù)的帖子(crisis和red)。實(shí)驗(yàn)結(jié)果顯示,與其他方法相比,本文使用的方法在犧牲green類帖子(不需要干預(yù))識(shí)別準(zhǔn)確率的代價(jià)下,能夠提高對(duì)于crisis和red類帖子(需要緊急干預(yù))的識(shí)別效果,體現(xiàn)出心理學(xué)知識(shí)在深度學(xué)習(xí)特征提取過(guò)程中的指導(dǎo)作用。
【學(xué)位授予單位】:江西財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:R-05;TP391.1;TP183
【圖文】:
2 相關(guān)概念概述與理論技術(shù)簡(jiǎn)介,一般取值范圍在-1 到 1 之間,向量的維度可以依據(jù)語(yǔ)料庫(kù)和任務(wù)需求自行設(shè),一般為 50 到 300 之間不等,此時(shí),詞向量的表示如下表 2.2 所示。表 2.2 詞的分布式表示示例I [0.1,0.5,-0.3,0.2,0.6,0,...,0.2,0.1,0.8,0.2]Love [-0.2,-0.5,0.1,0.3,0.1,-0.4,...,0,0.2,0.5,0]You [0.05,-0.03,0.01,0,0.02,0.01,...,0,0.01,0,0]向量中的每個(gè)實(shí)數(shù)值可以通過(guò)具體的任務(wù)訓(xùn)練得到,這種低維稠密的表示方克服了維度災(zāi)難造成的影響,而且還能充分利用空間,利于存儲(chǔ)。如果使用合的任務(wù)進(jìn)行預(yù)訓(xùn)練后,可以通過(guò)得到的詞向量計(jì)算兩個(gè)詞的相似性,這對(duì)于自語(yǔ)言處理中的很多任務(wù)都有著不錯(cuò)的效果。
基于文本挖掘的在線論壇用戶心理健康自動(dòng)評(píng)估隨著語(yǔ)料的增加,NNLM 的 softmax 層詞數(shù)過(guò)大,參數(shù)較多,對(duì)計(jì)算資源的要求較高,不適合推廣。因此,谷歌針對(duì)此問(wèn)題,開(kāi)源了一種詞向量計(jì)算工具——Word2Vec,由于其高效且易擴(kuò)展,一經(jīng)提出便受到無(wú)數(shù)好評(píng)。與神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型不同,在 Word2Vec 模型中,目標(biāo)詞 wt不再是連續(xù)詞串中的最后一個(gè)詞,而是連續(xù)詞串的中間詞,也就是使用目標(biāo)詞的前 n 個(gè)和后 n個(gè)來(lái)預(yù)測(cè)中間詞 wt或者使用中間詞 wt預(yù)測(cè)上下文的 2n 個(gè)詞,其中前者被稱為是Continuous Bag-of-Words(CBOW),后者是 Skip-gram,如圖 2-2 所示。
2 相關(guān)概念概述與理論技術(shù)簡(jiǎn)介量機(jī)(Support Vector Machine,SVM)。(1)隨機(jī)森林隨機(jī)森林是一種典型的集成學(xué)習(xí)算法,采用 Bagging 的思想,對(duì)訓(xùn)練樣本進(jìn)行多次隨機(jī)采樣訓(xùn)練多個(gè)弱分類器,然后對(duì)每個(gè)弱分類器的結(jié)果進(jìn)行投票或者取均值,使得最終的模型具有較高的分類準(zhǔn)確率和泛化能力,其中弱分類器構(gòu)建一般選擇決策樹(shù),如圖 2-3 所示。隨機(jī)森林的主要特點(diǎn)體現(xiàn)在“隨機(jī)”和“森林”兩個(gè)方面,前者通過(guò)隨機(jī)采樣保證了模型的多樣性,使其不易過(guò)擬合,后者通過(guò)弱分類器的個(gè)數(shù)保證了模型的復(fù)雜度,使其具有較好分類性能。由于其實(shí)現(xiàn)過(guò)程簡(jiǎn)單、精度高、抗過(guò)擬合能力強(qiáng),因此經(jīng)常被作為任務(wù)模型的 baseline。
本文編號(hào):2772660
【學(xué)位授予單位】:江西財(cái)經(jīng)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:R-05;TP391.1;TP183
【圖文】:
2 相關(guān)概念概述與理論技術(shù)簡(jiǎn)介,一般取值范圍在-1 到 1 之間,向量的維度可以依據(jù)語(yǔ)料庫(kù)和任務(wù)需求自行設(shè),一般為 50 到 300 之間不等,此時(shí),詞向量的表示如下表 2.2 所示。表 2.2 詞的分布式表示示例I [0.1,0.5,-0.3,0.2,0.6,0,...,0.2,0.1,0.8,0.2]Love [-0.2,-0.5,0.1,0.3,0.1,-0.4,...,0,0.2,0.5,0]You [0.05,-0.03,0.01,0,0.02,0.01,...,0,0.01,0,0]向量中的每個(gè)實(shí)數(shù)值可以通過(guò)具體的任務(wù)訓(xùn)練得到,這種低維稠密的表示方克服了維度災(zāi)難造成的影響,而且還能充分利用空間,利于存儲(chǔ)。如果使用合的任務(wù)進(jìn)行預(yù)訓(xùn)練后,可以通過(guò)得到的詞向量計(jì)算兩個(gè)詞的相似性,這對(duì)于自語(yǔ)言處理中的很多任務(wù)都有著不錯(cuò)的效果。
基于文本挖掘的在線論壇用戶心理健康自動(dòng)評(píng)估隨著語(yǔ)料的增加,NNLM 的 softmax 層詞數(shù)過(guò)大,參數(shù)較多,對(duì)計(jì)算資源的要求較高,不適合推廣。因此,谷歌針對(duì)此問(wèn)題,開(kāi)源了一種詞向量計(jì)算工具——Word2Vec,由于其高效且易擴(kuò)展,一經(jīng)提出便受到無(wú)數(shù)好評(píng)。與神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型不同,在 Word2Vec 模型中,目標(biāo)詞 wt不再是連續(xù)詞串中的最后一個(gè)詞,而是連續(xù)詞串的中間詞,也就是使用目標(biāo)詞的前 n 個(gè)和后 n個(gè)來(lái)預(yù)測(cè)中間詞 wt或者使用中間詞 wt預(yù)測(cè)上下文的 2n 個(gè)詞,其中前者被稱為是Continuous Bag-of-Words(CBOW),后者是 Skip-gram,如圖 2-2 所示。
2 相關(guān)概念概述與理論技術(shù)簡(jiǎn)介量機(jī)(Support Vector Machine,SVM)。(1)隨機(jī)森林隨機(jī)森林是一種典型的集成學(xué)習(xí)算法,采用 Bagging 的思想,對(duì)訓(xùn)練樣本進(jìn)行多次隨機(jī)采樣訓(xùn)練多個(gè)弱分類器,然后對(duì)每個(gè)弱分類器的結(jié)果進(jìn)行投票或者取均值,使得最終的模型具有較高的分類準(zhǔn)確率和泛化能力,其中弱分類器構(gòu)建一般選擇決策樹(shù),如圖 2-3 所示。隨機(jī)森林的主要特點(diǎn)體現(xiàn)在“隨機(jī)”和“森林”兩個(gè)方面,前者通過(guò)隨機(jī)采樣保證了模型的多樣性,使其不易過(guò)擬合,后者通過(guò)弱分類器的個(gè)數(shù)保證了模型的復(fù)雜度,使其具有較好分類性能。由于其實(shí)現(xiàn)過(guò)程簡(jiǎn)單、精度高、抗過(guò)擬合能力強(qiáng),因此經(jīng)常被作為任務(wù)模型的 baseline。
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 管理;郝碧波;劉天俐;程綺瑾;葉兆輝;朱廷劭;;新浪微博用戶中自殺死亡和無(wú)自殺意念者特征差異的研究[J];中華流行病學(xué)雜志;2015年05期
2 管理;郝碧波;程綺瑾;葉兆輝;朱廷劭;;不同自殺可能性微博用戶行為和語(yǔ)言特征差異解釋性研究[J];中國(guó)公共衛(wèi)生;2015年03期
3 廖成菊;馮正直;;抑郁癥情緒加工與認(rèn)知控制的腦機(jī)制[J];心理科學(xué)進(jìn)展;2010年02期
相關(guān)碩士學(xué)位論文 前1條
1 郭宏運(yùn);基于詞向量和主題向量的文本分類算法研究[D];華中科技大學(xué);2016年
本文編號(hào):2772660
本文鏈接:http://sikaile.net/yixuelunwen/yiyuanguanlilunwen/2772660.html
最近更新
教材專著