網(wǎng)絡(luò)空間中人格分析的研究與實現(xiàn)
發(fā)布時間:2021-04-15 04:44
人格是對人類個體特征的高度概括,是區(qū)分人與人之間差別的量化標(biāo)準(zhǔn),能夠描述個體的獨特性。人格在個體的遺傳、環(huán)境、學(xué)習(xí)等因素的共同作用下形成,具有較強(qiáng)的穩(wěn)定性。因此各研究領(lǐng)域經(jīng)常將人格作為對“人”研究的重要指標(biāo)。人格不僅與人類在現(xiàn)實生活中的情緒、語言、行為息息相關(guān),也與人類在網(wǎng)絡(luò)空間中的行為密切相關(guān)。網(wǎng)絡(luò)空間行為的易記錄性、以及快速發(fā)展的數(shù)據(jù)挖掘等技術(shù),使得網(wǎng)絡(luò)空間中的用戶人格分析具備了可行性,并逐漸成為當(dāng)前的研究熱點。利用網(wǎng)絡(luò)空間中的數(shù)據(jù)進(jìn)行人格分析,對傳統(tǒng)心理學(xué)的人格分析而言具有借鑒意義,并且借助機(jī)器學(xué)習(xí)技術(shù)構(gòu)建的人格分析模型,在獲取用戶數(shù)據(jù)的情況下,能夠短時間內(nèi)產(chǎn)生大量的用戶人格信息,為后續(xù)提升用戶個性化等服務(wù)的質(zhì)量提供支持。因此,網(wǎng)絡(luò)空間中的人格分析具有重要的現(xiàn)實意義。本文中人格分析的研究將以社交網(wǎng)絡(luò)為切入點。近年來,社交網(wǎng)絡(luò)數(shù)據(jù)已成為人格分析的一個重要數(shù)據(jù)源,其中社交網(wǎng)絡(luò)狀態(tài)文本包含了豐富的用戶語言信息,與用戶人格之間存在很強(qiáng)的關(guān)聯(lián)性,因此過去許多的研究都利用社交網(wǎng)絡(luò)用戶發(fā)布的狀態(tài)來分析用戶的人格,但由于獲取有標(biāo)簽數(shù)據(jù)的成本較高,過往研究都是在少量有標(biāo)簽數(shù)據(jù)的基礎(chǔ)上進(jìn)行的,影響了...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-2羅夏墨跡測驗中的一張圖片[18]??投射測驗的優(yōu)點在于有機(jī)會把被試者最原始的心理特征表現(xiàn)出來,缺點在于??,
在每一輪預(yù)測結(jié)束之后,PMC將兩個分類器得到的高置信度預(yù)測樣本的并??集加入到原來的訓(xùn)練集中,這樣相當(dāng)于每個分類器都把一部分自身學(xué)習(xí)到的信息??提供給另一個分類器。直觀上理解,如圖3-2所示,如果將高置信度預(yù)測樣本的??并集加入到原來的訓(xùn)練集中,那么一定會存在一部分分類器1認(rèn)為置信度高的樣??本點,對分類器2而言是隨機(jī)分布的,同理也會有一部分分類器2認(rèn)為置信度高??的樣本點,對分類器1而言是隨機(jī)分布的,這樣就達(dá)到了“相互學(xué)習(xí)”的目的。??IS??(a)?X1?view?(b)?x2?view??圖3-2存在“分歧”的兩個視圖??需要指出,與傳統(tǒng)的Co-training方法相比,PMC的區(qū)別在于:(1)沒有使??用預(yù)先劃分的視圖,而是在訓(xùn)練過程中自動劃分視圖。(2)訓(xùn)練過程中劃分的視??圖不是從頭至尾固定不變的。PMC相當(dāng)于將Co-training算法擴(kuò)展到了單視圖學(xué)??習(xí)中。??3.?2文本特征提取??在本文的實驗中,為了提取更豐富的語言特征,將采用三類語言特征:LIWC,??N-gram和LDA。LIWC常被作為語言特征用于社交網(wǎng)絡(luò)人格分析中,具有良好??的信效度
LDA:假設(shè)有M篇文檔,對應(yīng)第d個文檔中有n個詞。LDA解決的問題是??要找到每一篇文檔的主題分布和每一個主題中詞的分布。訓(xùn)練的過程如下:??首先假設(shè)主題模型的個數(shù)K,那么LDA模型的解決方案為如圖3-3所示:??〇F〇f^?*-l-y〇4〇??v?h?Tl??I?A1?D?一__K??圖3-3?LDA模型??每一篇文檔的主題分布和每一個主題中詞的分布是兩個獨立的分布,我們可??以分別假設(shè)。??Dirichlet分布是多項式的概率分布,我們目的是得到文檔在各個主題的分布??概率,所以對任意一文檔,可以使用Dirichlet分布作為主題分布的先驗分布:??8d?=?Dirichlet(a)?(3-12)??其中,a為分布的超參數(shù),是一個K維向量。??LDA假設(shè)主題中詞的先驗分布是Dirichlet分布,即對于任意主題A:,其詞分??布卩k為??Pk=?Dirichlet(fj)?(3-13)??其中,為分布的超參數(shù),是一個7維向量。7代表詞匯表里所有詞的個數(shù)。??對于數(shù)據(jù)中任一一篇文檔d中的第n個詞,我們可以從主題分布化中得到它??的主題編號的分布為:
【參考文獻(xiàn)】:
期刊論文
[1]社交網(wǎng)絡(luò)用戶的人格分析與預(yù)測[J]. 張磊,陳貞翔,楊波. 計算機(jī)學(xué)報. 2014(08)
本文編號:3138694
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-2羅夏墨跡測驗中的一張圖片[18]??投射測驗的優(yōu)點在于有機(jī)會把被試者最原始的心理特征表現(xiàn)出來,缺點在于??,
在每一輪預(yù)測結(jié)束之后,PMC將兩個分類器得到的高置信度預(yù)測樣本的并??集加入到原來的訓(xùn)練集中,這樣相當(dāng)于每個分類器都把一部分自身學(xué)習(xí)到的信息??提供給另一個分類器。直觀上理解,如圖3-2所示,如果將高置信度預(yù)測樣本的??并集加入到原來的訓(xùn)練集中,那么一定會存在一部分分類器1認(rèn)為置信度高的樣??本點,對分類器2而言是隨機(jī)分布的,同理也會有一部分分類器2認(rèn)為置信度高??的樣本點,對分類器1而言是隨機(jī)分布的,這樣就達(dá)到了“相互學(xué)習(xí)”的目的。??IS??(a)?X1?view?(b)?x2?view??圖3-2存在“分歧”的兩個視圖??需要指出,與傳統(tǒng)的Co-training方法相比,PMC的區(qū)別在于:(1)沒有使??用預(yù)先劃分的視圖,而是在訓(xùn)練過程中自動劃分視圖。(2)訓(xùn)練過程中劃分的視??圖不是從頭至尾固定不變的。PMC相當(dāng)于將Co-training算法擴(kuò)展到了單視圖學(xué)??習(xí)中。??3.?2文本特征提取??在本文的實驗中,為了提取更豐富的語言特征,將采用三類語言特征:LIWC,??N-gram和LDA。LIWC常被作為語言特征用于社交網(wǎng)絡(luò)人格分析中,具有良好??的信效度
LDA:假設(shè)有M篇文檔,對應(yīng)第d個文檔中有n個詞。LDA解決的問題是??要找到每一篇文檔的主題分布和每一個主題中詞的分布。訓(xùn)練的過程如下:??首先假設(shè)主題模型的個數(shù)K,那么LDA模型的解決方案為如圖3-3所示:??〇F〇f^?*-l-y〇4〇??v?h?Tl??I?A1?D?一__K??圖3-3?LDA模型??每一篇文檔的主題分布和每一個主題中詞的分布是兩個獨立的分布,我們可??以分別假設(shè)。??Dirichlet分布是多項式的概率分布,我們目的是得到文檔在各個主題的分布??概率,所以對任意一文檔,可以使用Dirichlet分布作為主題分布的先驗分布:??8d?=?Dirichlet(a)?(3-12)??其中,a為分布的超參數(shù),是一個K維向量。??LDA假設(shè)主題中詞的先驗分布是Dirichlet分布,即對于任意主題A:,其詞分??布卩k為??Pk=?Dirichlet(fj)?(3-13)??其中,為分布的超參數(shù),是一個7維向量。7代表詞匯表里所有詞的個數(shù)。??對于數(shù)據(jù)中任一一篇文檔d中的第n個詞,我們可以從主題分布化中得到它??的主題編號的分布為:
【參考文獻(xiàn)】:
期刊論文
[1]社交網(wǎng)絡(luò)用戶的人格分析與預(yù)測[J]. 張磊,陳貞翔,楊波. 計算機(jī)學(xué)報. 2014(08)
本文編號:3138694
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3138694.html
最近更新
教材專著