文獻(xiàn)語義耦合網(wǎng)絡(luò)的構(gòu)建與聚類研究
發(fā)布時間:2022-01-03 15:12
隨著網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,文本挖掘領(lǐng)域日益受到關(guān)注,已經(jīng)成為當(dāng)前研究的熱點(diǎn)之一。文本挖掘指的是從文本數(shù)據(jù)中獲取有價值的信息和知識,最常用的一種方法就是利用文獻(xiàn)耦合對現(xiàn)有文獻(xiàn)進(jìn)行回顧分析。傳統(tǒng)的文獻(xiàn)耦合網(wǎng)絡(luò)是通過文獻(xiàn)間的耦合強(qiáng)度構(gòu)建的,只考慮了耦合關(guān)系,沒有考慮文獻(xiàn)內(nèi)容間的相似性。為了更準(zhǔn)確地刻畫文獻(xiàn)間的相似關(guān)系,本文在文獻(xiàn)耦合網(wǎng)絡(luò)的基礎(chǔ)上添加語義信息,構(gòu)建文獻(xiàn)語義耦合網(wǎng)絡(luò),并對構(gòu)建的網(wǎng)絡(luò)進(jìn)行聚類分析。本文的研究工作主要從以下三方面開展:首先,構(gòu)建文獻(xiàn)語義耦合網(wǎng)絡(luò)。通過隱含狄利克雷分配(Latent Dirichlet Allocation,簡稱LDA)建模方法量化網(wǎng)絡(luò)中節(jié)點(diǎn)的語義信息,將節(jié)點(diǎn)的語義信息與節(jié)點(diǎn)間的耦合關(guān)系相結(jié)合,在網(wǎng)絡(luò)拓?fù)涮卣鞯幕A(chǔ)上考慮網(wǎng)絡(luò)的語義特征,借助社會網(wǎng)絡(luò)拓?fù)鋭莸乃枷霕?gòu)建語義網(wǎng)絡(luò)的語義場模型,進(jìn)而構(gòu)建文獻(xiàn)語義耦合網(wǎng)絡(luò)。其次,優(yōu)化模塊度評價指標(biāo)。由于本文構(gòu)建的文獻(xiàn)語義耦合網(wǎng)絡(luò)既考慮了節(jié)點(diǎn)間的耦合關(guān)系,也考慮了節(jié)點(diǎn)的語義信息。因此,其相應(yīng)的社區(qū)發(fā)現(xiàn)評價指標(biāo)不僅要考慮社區(qū)內(nèi)部的關(guān)系合理性,還需要考慮節(jié)點(diǎn)間的語義信息相似性;谏鲜隹紤],定義一個語義模塊度評價指標(biāo)。通...
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
Louvain算法流程圖
文獻(xiàn)語義耦合網(wǎng)絡(luò)的構(gòu)建與聚類研究 話題分布先驗參數(shù) 某一話題中,關(guān)鍵詞分布的先驗參數(shù)圖 3.1 為 LDA 模型對 w , d , z 的存儲結(jié)構(gòu),灰色代表集合內(nèi)的相同元素,wwwwiiii1345 表 明wi1,wi3,wi4,wi5是 同 一 關(guān) 鍵 詞 ,dddiii126 表 明wi1,wi2,wi6是隸屬于di1的關(guān)鍵詞,zzziii136 表明wi1,wi3,wi6都在同一話題zi1下且zi1分別隸屬于節(jié)點(diǎn)di1和di3。
圖 3.2 LDA 概率圖模型型中話題和關(guān)鍵詞的聯(lián)合概率密度函數(shù)為: ,,,,.1 1 KmNnmmnmwzPzP zw P P 和z ,得到網(wǎng)絡(luò)中節(jié)點(diǎn)的邊緣分布: ,,.1 Pw P Pz Pwz d Nn zndnnnbs 迭代過程 Sampling 是 MCMC(Markov-Chain Monte Carlo)算法的一個特樣來替代全概率分布的抽樣。這個算法的思想是每次選取概定其他維度的變量值抽樣確定當(dāng)前維度的值,不斷迭代,直5]。的關(guān)鍵詞層w和話題層z 之間的關(guān)系可用下式表示:
本文編號:3566493
【文章來源】:山西大學(xué)山西省
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
Louvain算法流程圖
文獻(xiàn)語義耦合網(wǎng)絡(luò)的構(gòu)建與聚類研究 話題分布先驗參數(shù) 某一話題中,關(guān)鍵詞分布的先驗參數(shù)圖 3.1 為 LDA 模型對 w , d , z 的存儲結(jié)構(gòu),灰色代表集合內(nèi)的相同元素,wwwwiiii1345 表 明wi1,wi3,wi4,wi5是 同 一 關(guān) 鍵 詞 ,dddiii126 表 明wi1,wi2,wi6是隸屬于di1的關(guān)鍵詞,zzziii136 表明wi1,wi3,wi6都在同一話題zi1下且zi1分別隸屬于節(jié)點(diǎn)di1和di3。
圖 3.2 LDA 概率圖模型型中話題和關(guān)鍵詞的聯(lián)合概率密度函數(shù)為: ,,,,.1 1 KmNnmmnmwzPzP zw P P 和z ,得到網(wǎng)絡(luò)中節(jié)點(diǎn)的邊緣分布: ,,.1 Pw P Pz Pwz d Nn zndnnnbs 迭代過程 Sampling 是 MCMC(Markov-Chain Monte Carlo)算法的一個特樣來替代全概率分布的抽樣。這個算法的思想是每次選取概定其他維度的變量值抽樣確定當(dāng)前維度的值,不斷迭代,直5]。的關(guān)鍵詞層w和話題層z 之間的關(guān)系可用下式表示:
本文編號:3566493
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3566493.html
最近更新
教材專著