基于LDA-HMM的知識(shí)流動(dòng)模式發(fā)現(xiàn)研究
發(fā)布時(shí)間:2020-10-17 14:56
【目的/意義】知識(shí)流動(dòng)模式能夠動(dòng)態(tài)反映知識(shí)形態(tài)在知識(shí)流動(dòng)中發(fā)生的變化,體現(xiàn)學(xué)科系統(tǒng)中不同知識(shí)體系的發(fā)展規(guī)律,因此從科學(xué)文獻(xiàn)角度出發(fā)研究知識(shí)流動(dòng)模式的發(fā)現(xiàn)具有重要意義。【方法/過(guò)程】以圖書(shū)情報(bào)學(xué)領(lǐng)域?yàn)槔?設(shè)計(jì)一種組合方法,首先采用LDA(latent Dirichlet allocation,隱狄里克雷分布)主題模型進(jìn)行領(lǐng)域內(nèi)文獻(xiàn)的主題聚類,然后提取引用和被引用數(shù)據(jù)構(gòu)成主題知識(shí)流入、流出特征,并作為HMM(Hidden Markov Model,隱馬爾可夫模型)訓(xùn)練模型的觀測(cè)值序列,識(shí)別不同的隱藏狀態(tài),進(jìn)一步對(duì)模型的擬合效果進(jìn)行評(píng)估,最后通過(guò)聚類分析將隱藏狀態(tài)序列與知識(shí)流動(dòng)模式一一對(duì)應(yīng),揭示圖書(shū)情報(bào)學(xué)領(lǐng)域存在不同知識(shí)流動(dòng)模式的差異性。【結(jié)果/結(jié)論】實(shí)驗(yàn)結(jié)果顯示,不同類型的知識(shí)流動(dòng)模式具有不同的表現(xiàn)形式,反映了領(lǐng)域內(nèi)部主題研究的演變歷程,為理解和認(rèn)識(shí)科學(xué)發(fā)展趨勢(shì)具有一定價(jià)值。
【部分圖文】:
本文以圖書(shū)情報(bào)領(lǐng)域期刊引用數(shù)據(jù)為例進(jìn)行實(shí)證分析,通過(guò)LDA主題模型劃分知識(shí)單元,將知識(shí)流入、流出作為HMM模型訓(xùn)練輸入?yún)?shù),對(duì)比不同主題知識(shí)流動(dòng)表現(xiàn),以揭示圖書(shū)情報(bào)領(lǐng)域主要的知識(shí)流動(dòng)過(guò)程及規(guī)律,為探究學(xué)科知識(shí)系統(tǒng)動(dòng)態(tài)發(fā)展的理論和實(shí)踐方面提供一個(gè)新視角,具體過(guò)程如圖1。3.1 LDA主題模型
首先,對(duì)圖書(shū)情報(bào)領(lǐng)域數(shù)據(jù)集進(jìn)行主題生成,主題數(shù)K取5至120區(qū)間(步長(zhǎng)為5),運(yùn)行參數(shù)α為50/K(K為主題數(shù)),β為0.01,迭代次數(shù)為1000。然后,根據(jù)公式(1)計(jì)算不同主題數(shù)下的困惑度值,結(jié)果見(jiàn)圖2。橫坐標(biāo)表示主題數(shù)K,縱坐標(biāo)表示困惑度值Perplexity。圖中的曲線顯示,困惑度值隨著主題數(shù)的增加呈現(xiàn)出先減小后增加的趨勢(shì),當(dāng)主題數(shù)為25時(shí),困惑度值達(dá)到最小值2.206。按照困惑度最小LDA聚類效果最佳的原則,本文取最優(yōu)主題數(shù)為25。5.1.2 LDA主題分類結(jié)果
HMM模型是一個(gè)雙重隨機(jī)過(guò)程,一重是描述隱狀態(tài)與觀測(cè)值之間的對(duì)應(yīng)關(guān)系,另一重是描述狀態(tài)之間的轉(zhuǎn)移關(guān)系。本文Baum-Welch算法的實(shí)現(xiàn)是利用Python的隱馬爾科夫HMMLearn庫(kù)實(shí)現(xiàn),對(duì)表2中的樣本數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建多維連續(xù)HMM模型。隱狀態(tài)的確定是HMM模型中的重要問(wèn)題,根據(jù)公式(2)BIC準(zhǔn)則計(jì)算公式,輸入不同隱狀態(tài)數(shù)訓(xùn)練HMM并計(jì)算模型的BIC值,得到結(jié)果見(jiàn)表3。結(jié)果顯示,當(dāng)狀態(tài)數(shù)為6時(shí),BIC值達(dá)到最小為5125.72,因此根據(jù)“BIC值越小,模型越優(yōu)”的原則,取知識(shí)流動(dòng)隱狀態(tài)數(shù)為6,模型適配度最好。設(shè)定隱狀態(tài)數(shù)為6,提取25個(gè)主題樣本的知識(shí)流入、流出特征,輸入到最終訓(xùn)練的HMM值中進(jìn)行識(shí)別,得到每個(gè)觀測(cè)值對(duì)應(yīng)的隱狀態(tài)(狀態(tài)1至狀態(tài)6)。聚集不同隱狀態(tài)對(duì)應(yīng)的知識(shí)流入、知識(shí)流出特征,繪制等高線圖,見(jiàn)圖3;圖3中橫、縱坐標(biāo)為知識(shí)流入、流出自變量,因變量用二元偏態(tài)分布概率密度函數(shù)表示。
【相似文獻(xiàn)】
本文編號(hào):2844941
【部分圖文】:
本文以圖書(shū)情報(bào)領(lǐng)域期刊引用數(shù)據(jù)為例進(jìn)行實(shí)證分析,通過(guò)LDA主題模型劃分知識(shí)單元,將知識(shí)流入、流出作為HMM模型訓(xùn)練輸入?yún)?shù),對(duì)比不同主題知識(shí)流動(dòng)表現(xiàn),以揭示圖書(shū)情報(bào)領(lǐng)域主要的知識(shí)流動(dòng)過(guò)程及規(guī)律,為探究學(xué)科知識(shí)系統(tǒng)動(dòng)態(tài)發(fā)展的理論和實(shí)踐方面提供一個(gè)新視角,具體過(guò)程如圖1。3.1 LDA主題模型
首先,對(duì)圖書(shū)情報(bào)領(lǐng)域數(shù)據(jù)集進(jìn)行主題生成,主題數(shù)K取5至120區(qū)間(步長(zhǎng)為5),運(yùn)行參數(shù)α為50/K(K為主題數(shù)),β為0.01,迭代次數(shù)為1000。然后,根據(jù)公式(1)計(jì)算不同主題數(shù)下的困惑度值,結(jié)果見(jiàn)圖2。橫坐標(biāo)表示主題數(shù)K,縱坐標(biāo)表示困惑度值Perplexity。圖中的曲線顯示,困惑度值隨著主題數(shù)的增加呈現(xiàn)出先減小后增加的趨勢(shì),當(dāng)主題數(shù)為25時(shí),困惑度值達(dá)到最小值2.206。按照困惑度最小LDA聚類效果最佳的原則,本文取最優(yōu)主題數(shù)為25。5.1.2 LDA主題分類結(jié)果
HMM模型是一個(gè)雙重隨機(jī)過(guò)程,一重是描述隱狀態(tài)與觀測(cè)值之間的對(duì)應(yīng)關(guān)系,另一重是描述狀態(tài)之間的轉(zhuǎn)移關(guān)系。本文Baum-Welch算法的實(shí)現(xiàn)是利用Python的隱馬爾科夫HMMLearn庫(kù)實(shí)現(xiàn),對(duì)表2中的樣本數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建多維連續(xù)HMM模型。隱狀態(tài)的確定是HMM模型中的重要問(wèn)題,根據(jù)公式(2)BIC準(zhǔn)則計(jì)算公式,輸入不同隱狀態(tài)數(shù)訓(xùn)練HMM并計(jì)算模型的BIC值,得到結(jié)果見(jiàn)表3。結(jié)果顯示,當(dāng)狀態(tài)數(shù)為6時(shí),BIC值達(dá)到最小為5125.72,因此根據(jù)“BIC值越小,模型越優(yōu)”的原則,取知識(shí)流動(dòng)隱狀態(tài)數(shù)為6,模型適配度最好。設(shè)定隱狀態(tài)數(shù)為6,提取25個(gè)主題樣本的知識(shí)流入、流出特征,輸入到最終訓(xùn)練的HMM值中進(jìn)行識(shí)別,得到每個(gè)觀測(cè)值對(duì)應(yīng)的隱狀態(tài)(狀態(tài)1至狀態(tài)6)。聚集不同隱狀態(tài)對(duì)應(yīng)的知識(shí)流入、知識(shí)流出特征,繪制等高線圖,見(jiàn)圖3;圖3中橫、縱坐標(biāo)為知識(shí)流入、流出自變量,因變量用二元偏態(tài)分布概率密度函數(shù)表示。
【相似文獻(xiàn)】
相關(guān)期刊論文 前1條
1 陳偉;林超然;李金秋;楊早立;;基于LDA-HMM的專利技術(shù)主題演化趨勢(shì)分析——以船用柴油機(jī)技術(shù)為例[J];情報(bào)學(xué)報(bào);2018年07期
本文編號(hào):2844941
本文鏈接:http://sikaile.net/tushudanganlunwen/2844941.html
最近更新
教材專著