天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 社科論文 > 圖書檔案論文 >

面向?qū)W術(shù)文獻數(shù)據(jù)的同名作者消歧方法研究

發(fā)布時間:2024-03-25 19:18
  隨著全球?qū)W術(shù)研究活動的蓬勃發(fā)展,學(xué)術(shù)文獻的發(fā)表數(shù)量與日俱增。為了應(yīng)對海量學(xué)術(shù)文獻的組織和管理挑戰(zhàn),以互聯(lián)網(wǎng)技術(shù)為基礎(chǔ)誕生的一系列學(xué)術(shù)文獻數(shù)據(jù)庫、學(xué)術(shù)搜索平臺以及近幾年興起的學(xué)術(shù)知識圖譜等,正改變著我們對學(xué)術(shù)文獻的組織、管理、查詢和獲取方式。然而,由于學(xué)術(shù)文獻中廣泛存在的作者同名現(xiàn)象,使得許多同名作者的學(xué)術(shù)文獻無法較好的區(qū)分開來。譬如在學(xué)術(shù)信息檢索場景中,基于作者名的文獻檢索方式無法精準獲取到對應(yīng)作者的學(xué)術(shù)文獻。此外,學(xué)術(shù)文獻作者名歧義也給情報學(xué)、文獻計量學(xué)等相關(guān)研究領(lǐng)域帶來了不小的困擾,影響了學(xué)術(shù)評價的準確性。因此,對學(xué)術(shù)文獻中存在的同名作者進行消歧至關(guān)重要。在此背景下,本文研究了學(xué)術(shù)文獻中的同名作者消歧問題,主要針對冷啟動消歧和增量消歧兩個應(yīng)用場景。整體而言,本文的主要內(nèi)容和創(chuàng)新點可以概括為兩個方面:(1)針對學(xué)術(shù)文獻同名作者消歧的冷啟動場景,提出了一種融合異質(zhì)圖網(wǎng)絡(luò)特征和學(xué)術(shù)文獻語義特征的消歧方法。該方法根據(jù)學(xué)術(shù)文獻、學(xué)者及學(xué)者所在機構(gòu)之間的關(guān)系構(gòu)成異質(zhì)圖網(wǎng)絡(luò),借助元路徑隨機游走算法獲取學(xué)術(shù)文獻的關(guān)系表示向量。然后利用Word2Vec訓(xùn)練并提取學(xué)術(shù)文獻數(shù)據(jù)中的語義特征,構(gòu)成學(xué)術(shù)文獻...

【文章頁數(shù)】:97 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖1-11936-2019年間各年文獻出版數(shù)量當前,學(xué)術(shù)文獻數(shù)目的不斷累積和遞增,是產(chǎn)生一系列學(xué)術(shù)信息爆炸問題的

圖1-11936-2019年間各年文獻出版數(shù)量當前,學(xué)術(shù)文獻數(shù)目的不斷累積和遞增,是產(chǎn)生一系列學(xué)術(shù)信息爆炸問題的

華東師范大學(xué)碩士學(xué)位論文1第一章緒論1.1研究背景與意義近現(xiàn)代以來,隨著世界科學(xué)研究的蓬勃發(fā)展,各類學(xué)術(shù)文獻數(shù)量正以驚人的速度不斷增長著。依據(jù)文獻增長規(guī)律來看,據(jù)不完全估計,世界上非學(xué)術(shù)類的文獻數(shù)量翻一番的時間大概為三十年到五十年,而學(xué)術(shù)科研工作所產(chǎn)生的學(xué)術(shù)文獻,其數(shù)量上翻一倍的....


圖2-1NNLM模型結(jié)構(gòu)

圖2-1NNLM模型結(jié)構(gòu)

華東師范大學(xué)碩士學(xué)位論文19產(chǎn)生數(shù)據(jù)稀疏問題,所以一般n的取值為2或者3。另外,這種基于詞的表示方法,詞之間的關(guān)系還是無法衡量。2.2.2文本分布式表示為了緩解文本的離散表示存在的向量稀疏問題以及詞匯鴻溝現(xiàn)象,文本的分布式表示很自然地被提了出來。文本分布式表示(Distribut....


圖2-2CBoW模型和Skip-Gram模型結(jié)構(gòu)

圖2-2CBoW模型和Skip-Gram模型結(jié)構(gòu)

華東師范大學(xué)碩士學(xué)位論文20后來在2013年來自谷歌公司的Mikolov[31]基于NNLM的思路,對神經(jīng)網(wǎng)絡(luò)語言模型進行簡化,提出了Word2Vec模型,并開源了能夠直接生產(chǎn)低維詞向量的工具3。由于模型的簡化和訓(xùn)練方法的優(yōu)化,Word2Vec不僅能夠在百萬級的詞典億級數(shù)據(jù)集上高....


圖2-3Skip-Gram模型原理

圖2-3Skip-Gram模型原理

華東師范大學(xué)碩士學(xué)位論文21圖2-3Skip-Gram模型原理目標函數(shù):對于一個中心詞其目標為最大化其周邊任意單詞的log概率。跳詞模型(skip-gram)實際上是計算輸入詞的輸入向量與目標詞的輸出向量之間的余弦相似度,然后再經(jīng)過Softmax進行概率歸一化。由于Softmax....



本文編號:3938756

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/3938756.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶12c7e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com