基于詞性標(biāo)注和依存句法的詞向量模型改進(jìn)研究
發(fā)布時(shí)間:2021-06-10 12:30
近年來,深度學(xué)習(xí)借助基于神經(jīng)網(wǎng)絡(luò)的詞向量在自然語言處理領(lǐng)域大放異彩,席卷自然語言處理各項(xiàng)基礎(chǔ)研究。詞向量的質(zhì)量直接影響上層自然語言處理任務(wù)的效果。而詞向量模型則是訓(xùn)練詞向量的核心,但目前諸多的詞向量模型仍存在很多不足之處。這些不足之處包括:(1)網(wǎng)絡(luò)結(jié)構(gòu)問題。目前基于神經(jīng)網(wǎng)絡(luò)的詞向量模型大多將上下文窗口中的詞語同等對(duì)待,不考慮詞語之間的依存關(guān)系;(2)信息丟失問題。固定的上下文窗口會(huì)對(duì)句子成分復(fù)雜的長句和復(fù)合句進(jìn)行裁剪導(dǎo)致部分重要詞匯的丟失;(3)未充分利用詞性標(biāo)注的詞法結(jié)構(gòu)信息和依存句法的句法結(jié)構(gòu)信息,F(xiàn)有基于詞性標(biāo)注改進(jìn)的研究大多僅使用詞性關(guān)聯(lián)修改詞語在上下文中的權(quán)重,基于依存句法改進(jìn)的研究大多沒有考慮依存關(guān)系的差異;(4)二次采樣和負(fù)采樣技術(shù)過于簡(jiǎn)單。詞頻高的詞語在進(jìn)行二次采樣和負(fù)采樣時(shí)被同等對(duì)待,從而導(dǎo)致部分對(duì)預(yù)測(cè)目標(biāo)詞有較大影響的高頻詞丟失。(5)詞性之間的相似度無法衡量。詞性之間存在語義鴻溝,就目前所知,沒有量化詞性之間相似度的算法和數(shù)據(jù)集。針對(duì)基于神經(jīng)網(wǎng)絡(luò)的詞向量模型所面臨的多個(gè)問題,本文在現(xiàn)有工作的基礎(chǔ)上,結(jié)合詞性標(biāo)注和依存句法分析,提出四種改進(jìn)的詞向量模型:(1)基于...
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:106 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW和Skip-gram模型結(jié)構(gòu)圖
第五章 實(shí)驗(yàn)與結(jié)果分析 5-3 可以看出,CBOW+P 模型和 CBOW+PW 模型在文本分類任務(wù)上著上下文窗口的逐漸增大呈現(xiàn)先增后減的趨勢(shì),均在上下文窗口 5-OW+PW 模型在上下文窗口較小的情況下的表現(xiàn)優(yōu)于 CBOW+P 模型 模型的最優(yōu)值表現(xiàn)好于 CBOW+PW 模型。
OW+PW 模型在上下文窗口較小的情況下的表現(xiàn)優(yōu)于 CBOW+P 模型 模型的最優(yōu)值表現(xiàn)好于 CBOW+PW 模型。圖 5-1 上下文窗口大小對(duì)詞相似性任務(wù)的影響
【參考文獻(xiàn)】:
期刊論文
[1]基于詞性與詞序的相關(guān)因子訓(xùn)練的word2vec改進(jìn)模型[J]. 潘博,于重重,張青川,徐世璇,曹帥. 電子學(xué)報(bào). 2018(08)
[2]基于中文維基百科鏈接結(jié)構(gòu)與分類體系的語義相關(guān)度計(jì)算[J]. 汪祥,賈焰,周斌,丁兆云,梁政. 小型微型計(jì)算機(jī)系統(tǒng). 2011(11)
[3]北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范(續(xù))[J]. 俞士汶,段慧明,朱學(xué)鋒,孫斌. 中文信息學(xué)報(bào). 2002(06)
[4]北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J]. 俞士汶,段慧明,朱學(xué)鋒,孫斌. 中文信息學(xué)報(bào). 2002(05)
[5]網(wǎng)上的基礎(chǔ)語言信息資源[J]. 俞士汶. 術(shù)語標(biāo)準(zhǔn)化與信息技術(shù). 2001(04)
本文編號(hào):3222374
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:106 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW和Skip-gram模型結(jié)構(gòu)圖
第五章 實(shí)驗(yàn)與結(jié)果分析 5-3 可以看出,CBOW+P 模型和 CBOW+PW 模型在文本分類任務(wù)上著上下文窗口的逐漸增大呈現(xiàn)先增后減的趨勢(shì),均在上下文窗口 5-OW+PW 模型在上下文窗口較小的情況下的表現(xiàn)優(yōu)于 CBOW+P 模型 模型的最優(yōu)值表現(xiàn)好于 CBOW+PW 模型。
OW+PW 模型在上下文窗口較小的情況下的表現(xiàn)優(yōu)于 CBOW+P 模型 模型的最優(yōu)值表現(xiàn)好于 CBOW+PW 模型。圖 5-1 上下文窗口大小對(duì)詞相似性任務(wù)的影響
【參考文獻(xiàn)】:
期刊論文
[1]基于詞性與詞序的相關(guān)因子訓(xùn)練的word2vec改進(jìn)模型[J]. 潘博,于重重,張青川,徐世璇,曹帥. 電子學(xué)報(bào). 2018(08)
[2]基于中文維基百科鏈接結(jié)構(gòu)與分類體系的語義相關(guān)度計(jì)算[J]. 汪祥,賈焰,周斌,丁兆云,梁政. 小型微型計(jì)算機(jī)系統(tǒng). 2011(11)
[3]北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范(續(xù))[J]. 俞士汶,段慧明,朱學(xué)鋒,孫斌. 中文信息學(xué)報(bào). 2002(06)
[4]北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J]. 俞士汶,段慧明,朱學(xué)鋒,孫斌. 中文信息學(xué)報(bào). 2002(05)
[5]網(wǎng)上的基礎(chǔ)語言信息資源[J]. 俞士汶. 術(shù)語標(biāo)準(zhǔn)化與信息技術(shù). 2001(04)
本文編號(hào):3222374
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3222374.html
最近更新
教材專著