基于深度學(xué)習(xí)的跨語(yǔ)言相似度評(píng)估技術(shù)研究
發(fā)布時(shí)間:2021-07-14 22:48
傳統(tǒng)的跨語(yǔ)言相似度評(píng)估技術(shù)大都依賴語(yǔ)言學(xué)和語(yǔ)用學(xué)的相關(guān)理論,這也與“自然語(yǔ)言”天然的特征有著必然的聯(lián)系。近年來(lái),深度學(xué)習(xí)技術(shù)的興起不斷推動(dòng)圖像識(shí)別、語(yǔ)音識(shí)別和自然語(yǔ)言處理等多個(gè)人工智能研究領(lǐng)域的發(fā)展。對(duì)此,本文研究了將深度學(xué)習(xí)技術(shù)應(yīng)用到中英文跨語(yǔ)言文本相似度計(jì)算領(lǐng)域,主要包括詞語(yǔ)層級(jí)的研究和句子層級(jí)的研究。詞語(yǔ)層級(jí)的研究是將詞語(yǔ)作為文本單元,進(jìn)行詞向量表示學(xué)習(xí)和雙語(yǔ)詞嵌入模型的構(gòu)建。通過(guò)該模型可以生成雙語(yǔ)共享的詞嵌入表示,利用詞與詞之間的空間距離來(lái)度量它們之間的語(yǔ)義相似度;谠~向量相關(guān)理論和Skip-Gram模型,本文首先在人工構(gòu)造的偽雙語(yǔ)語(yǔ)料上進(jìn)行詞向量訓(xùn)練。其次,為了盡可能使生成的詞嵌入空間完備,本文還使用單語(yǔ)語(yǔ)料作為補(bǔ)充以學(xué)習(xí)額外的詞嵌入知識(shí)。此外,以雙語(yǔ)詞嵌入模型為基礎(chǔ),本文還嘗試將詞性信息、文本的主題信息和文本的TF-IDF信息分別與雙語(yǔ)詞表示相結(jié)合構(gòu)建了三種算法,這三種算法均可用于跨語(yǔ)言文本相似度計(jì)算。通過(guò)這種組合可以克服原有的方法在文本語(yǔ)義表征方面的缺陷。句子層級(jí)的研究是將句子作為文本單元,通過(guò)將詞語(yǔ)的語(yǔ)義信息和每個(gè)詞的上下文信息融合起來(lái),將整個(gè)句子表征為一個(gè)向量進(jìn)行跨...
【文章來(lái)源】:哈爾濱工程大學(xué)黑龍江省 211工程院校
【文章頁(yè)數(shù)】:78 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
word2vec詞向量表示CBOW模型是word2vec中最重要的模型,輸入是w上下文context(w)的詞向量,輸出是w的詞向量
-3 -2 -1 01 2 3playergamesplayedroleschooluniversitycollegeresearchtypeteastylebackuniondeathmewfourshowonesixhundredsetgovementfivetravelthirddistanceleafnewbriefright stateseveresecondtimeandsuchgroupgametwopartgovzerowritegodvelheadabovetakensteadpowerfirsttreestandtalentborndowndesmajorfargroupspointagainflycouncilbringgitgonextancientbobevneoondownnextfourthnextfirstlysecondlyfrynorthexiletimesuchpartjourneysopowerancientregimeevneoonnorththengoerstyleanduniongroupgamewritetakemoneymajorfargroupspointagaincouncilbringgonext游戲娛樂(lè)五六四三二一學(xué)校教育研究權(quán)利政府距離簡(jiǎn)潔軀體行動(dòng)次數(shù)天資天賦傳奇死亡旅行點(diǎn)再次風(fēng)格教神明仰向下退后油炸church教堂佇立嶄新力量永遠(yuǎn)團(tuán)隊(duì)議會(huì)設(shè)計(jì)茶飲門票入場(chǎng)券銀行北方部分出發(fā)uniontimeandsuchgrouppowmajorfarpointagaingomoneyfar again距離傳奇死亡再次能力團(tuán)隊(duì)議會(huì)銀行次數(shù)風(fēng)格
本文編號(hào):3285038
【文章來(lái)源】:哈爾濱工程大學(xué)黑龍江省 211工程院校
【文章頁(yè)數(shù)】:78 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
word2vec詞向量表示CBOW模型是word2vec中最重要的模型,輸入是w上下文context(w)的詞向量,輸出是w的詞向量
-3 -2 -1 01 2 3playergamesplayedroleschooluniversitycollegeresearchtypeteastylebackuniondeathmewfourshowonesixhundredsetgovementfivetravelthirddistanceleafnewbriefright stateseveresecondtimeandsuchgroupgametwopartgovzerowritegodvelheadabovetakensteadpowerfirsttreestandtalentborndowndesmajorfargroupspointagainflycouncilbringgitgonextancientbobevneoondownnextfourthnextfirstlysecondlyfrynorthexiletimesuchpartjourneysopowerancientregimeevneoonnorththengoerstyleanduniongroupgamewritetakemoneymajorfargroupspointagaincouncilbringgonext游戲娛樂(lè)五六四三二一學(xué)校教育研究權(quán)利政府距離簡(jiǎn)潔軀體行動(dòng)次數(shù)天資天賦傳奇死亡旅行點(diǎn)再次風(fēng)格教神明仰向下退后油炸church教堂佇立嶄新力量永遠(yuǎn)團(tuán)隊(duì)議會(huì)設(shè)計(jì)茶飲門票入場(chǎng)券銀行北方部分出發(fā)uniontimeandsuchgrouppowmajorfarpointagaingomoneyfar again距離傳奇死亡再次能力團(tuán)隊(duì)議會(huì)銀行次數(shù)風(fēng)格
本文編號(hào):3285038
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3285038.html
最近更新
教材專著