基于HDP的主題詞向量構(gòu)造——以柬語為例
發(fā)布時(shí)間:2021-11-09 03:51
針對(duì)單一詞向量中存在的一詞多義和一義多詞的問題,以柬語為例提出了一種基于HDP主題模型的主題詞向量的構(gòu)造方法。在單一詞向量基礎(chǔ)上融入了主題信息,首先通過HDP主題模型得到單詞主題標(biāo)簽,然后將其視為偽單詞與單詞一起輸入Skip-Gram模型,同時(shí)訓(xùn)練出主題向量和詞向量,最后將文本主題信息的主題向量與單詞訓(xùn)練后得到的詞向量進(jìn)行級(jí)聯(lián),獲得文本中每個(gè)詞的主題詞向量。與未融入主題信息的詞向量模型相比,該方法在單詞相似度和文本分類方面均取得了更好的效果,獲取的主題詞向量具有更多的語義信息。
【文章來源】:計(jì)算機(jī)工程與科學(xué). 2020,42(06)北大核心CSCD
【文章頁數(shù)】:9 頁
【部分圖文】:
改進(jìn)的主題詞向量模型
其中,oz為主題詞向量,通過連接歸一化后的詞向量和主題向量獲得。通過式(17)可知,本文將模型中得到的所有的主題的概率作為權(quán)重,進(jìn)行加權(quán)求和,得到最終的上下文詞向量。由式(17)得到上下文詞向量的目的是用于衡量?jī)蓚(gè)詞之間的相似性,于是,給定2組具有上下文的單詞(wi,ci)和(wj,cj),其上下文單詞相似度的計(jì)算采用AVGSimC公式,如式(18)所示:
其中,r表示等級(jí)個(gè)數(shù),即測(cè)試集中包含的詞語對(duì)的數(shù)量;g表示2組單詞之間的等級(jí)差數(shù);gi表示第i組單詞的等級(jí)差。在該實(shí)驗(yàn)任務(wù)中進(jìn)行的對(duì)比實(shí)驗(yàn)是將本文所得到的主題詞向量模型和Skip-Gram模型、LDA主題模型、HDP主題模型、LDA-Skip-Gram的主題詞向量模型在上下文單詞相似度任務(wù)上進(jìn)行結(jié)果對(duì)比。
本文編號(hào):3484566
【文章來源】:計(jì)算機(jī)工程與科學(xué). 2020,42(06)北大核心CSCD
【文章頁數(shù)】:9 頁
【部分圖文】:
改進(jìn)的主題詞向量模型
其中,oz為主題詞向量,通過連接歸一化后的詞向量和主題向量獲得。通過式(17)可知,本文將模型中得到的所有的主題的概率作為權(quán)重,進(jìn)行加權(quán)求和,得到最終的上下文詞向量。由式(17)得到上下文詞向量的目的是用于衡量?jī)蓚(gè)詞之間的相似性,于是,給定2組具有上下文的單詞(wi,ci)和(wj,cj),其上下文單詞相似度的計(jì)算采用AVGSimC公式,如式(18)所示:
其中,r表示等級(jí)個(gè)數(shù),即測(cè)試集中包含的詞語對(duì)的數(shù)量;g表示2組單詞之間的等級(jí)差數(shù);gi表示第i組單詞的等級(jí)差。在該實(shí)驗(yàn)任務(wù)中進(jìn)行的對(duì)比實(shí)驗(yàn)是將本文所得到的主題詞向量模型和Skip-Gram模型、LDA主題模型、HDP主題模型、LDA-Skip-Gram的主題詞向量模型在上下文單詞相似度任務(wù)上進(jìn)行結(jié)果對(duì)比。
本文編號(hào):3484566
本文鏈接:http://sikaile.net/waiyulunwen/zhichangyingyu/3484566.html
最近更新
教材專著