基于HDP的主題詞向量構(gòu)造——以柬語為例

發(fā)布時(shí)間：2021-11-09 03:51

　　針對(duì)單一詞向量中存在的一詞多義和一義多詞的問題,以柬語為例提出了一種基于HDP主題模型的主題詞向量的構(gòu)造方法。在單一詞向量基礎(chǔ)上融入了主題信息,首先通過HDP主題模型得到單詞主題標(biāo)簽,然后將其視為偽單詞與單詞一起輸入Skip-Gram模型,同時(shí)訓(xùn)練出主題向量和詞向量,最后將文本主題信息的主題向量與單詞訓(xùn)練后得到的詞向量進(jìn)行級(jí)聯(lián),獲得文本中每個(gè)詞的主題詞向量。與未融入主題信息的詞向量模型相比,該方法在單詞相似度和文本分類方面均取得了更好的效果,獲取的主題詞向量具有更多的語義信息。

【文章來源】：計(jì)算機(jī)工程與科學(xué). 2020,42(06)北大核心CSCD

【文章頁數(shù)】：9 頁

【部分圖文】：

改進(jìn)的主題詞向量模型

柬埔寨,語料,上下文,向量

其中,oz為主題詞向量,通過連接歸一化后的詞向量和主題向量獲得。通過式(17)可知,本文將模型中得到的所有的主題的概率作為權(quán)重,進(jìn)行加權(quán)求和,得到最終的上下文詞向量。由式(17)得到上下文詞向量的目的是用于衡量?jī)蓚€(gè)詞之間的相似性,于是,給定2組具有上下文的單詞(wi,ci)和(wj,cj),其上下文單詞相似度的計(jì)算采用AVGSimC公式,如式(18)所示:

數(shù)據(jù)集,單詞,主題詞,等級(jí)

其中,r表示等級(jí)個(gè)數(shù),即測(cè)試集中包含的詞語對(duì)的數(shù)量;g表示2組單詞之間的等級(jí)差數(shù);gi表示第i組單詞的等級(jí)差。在該實(shí)驗(yàn)任務(wù)中進(jìn)行的對(duì)比實(shí)驗(yàn)是將本文所得到的主題詞向量模型和Skip-Gram模型、LDA主題模型、HDP主題模型、LDA-Skip-Gram的主題詞向量模型在上下文單詞相似度任務(wù)上進(jìn)行結(jié)果對(duì)比。

本文編號(hào)：3484566

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/waiyulunwen/zhichangyingyu/3484566.html

上一篇：論混合式教學(xué)模式在西班牙語筆譯課程中的實(shí)踐與運(yùn)用
下一篇：漢韓空間維度詞“厚/

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HDP的主題詞向量構(gòu)造——以柬語為例