面向?qū)W術(shù)文獻數(shù)據(jù)的同名作者消歧方法研究
【文章頁數(shù)】:97 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-11936-2019年間各年文獻出版數(shù)量當前,學(xué)術(shù)文獻數(shù)目的不斷累積和遞增,是產(chǎn)生一系列學(xué)術(shù)信息爆炸問題的
華東師范大學(xué)碩士學(xué)位論文1第一章緒論1.1研究背景與意義近現(xiàn)代以來,隨著世界科學(xué)研究的蓬勃發(fā)展,各類學(xué)術(shù)文獻數(shù)量正以驚人的速度不斷增長著。依據(jù)文獻增長規(guī)律來看,據(jù)不完全估計,世界上非學(xué)術(shù)類的文獻數(shù)量翻一番的時間大概為三十年到五十年,而學(xué)術(shù)科研工作所產(chǎn)生的學(xué)術(shù)文獻,其數(shù)量上翻一倍的....
圖2-1NNLM模型結(jié)構(gòu)
華東師范大學(xué)碩士學(xué)位論文19產(chǎn)生數(shù)據(jù)稀疏問題,所以一般n的取值為2或者3。另外,這種基于詞的表示方法,詞之間的關(guān)系還是無法衡量。2.2.2文本分布式表示為了緩解文本的離散表示存在的向量稀疏問題以及詞匯鴻溝現(xiàn)象,文本的分布式表示很自然地被提了出來。文本分布式表示(Distribut....
圖2-2CBoW模型和Skip-Gram模型結(jié)構(gòu)
華東師范大學(xué)碩士學(xué)位論文20后來在2013年來自谷歌公司的Mikolov[31]基于NNLM的思路,對神經(jīng)網(wǎng)絡(luò)語言模型進行簡化,提出了Word2Vec模型,并開源了能夠直接生產(chǎn)低維詞向量的工具3。由于模型的簡化和訓(xùn)練方法的優(yōu)化,Word2Vec不僅能夠在百萬級的詞典億級數(shù)據(jù)集上高....
圖2-3Skip-Gram模型原理
華東師范大學(xué)碩士學(xué)位論文21圖2-3Skip-Gram模型原理目標函數(shù):對于一個中心詞其目標為最大化其周邊任意單詞的log概率。跳詞模型(skip-gram)實際上是計算輸入詞的輸入向量與目標詞的輸出向量之間的余弦相似度,然后再經(jīng)過Softmax進行概率歸一化。由于Softmax....
本文編號:3938756
本文鏈接:http://sikaile.net/tushudanganlunwen/3938756.html