基于語義和論文關(guān)系知識圖譜的同名學(xué)者消歧方法研究
發(fā)布時間:2023-08-10 17:00
隨著科學(xué)文獻(xiàn)資源庫的迅速擴(kuò)大,對資源數(shù)據(jù)庫中的學(xué)者建立正確的學(xué)者檔案以及把新增的論文劃分給正確的學(xué)者是一個迫切需要解決的問題。隨著論文量與日俱增,雜亂的數(shù)據(jù)來源以及復(fù)雜的學(xué)者同名情況導(dǎo)致該問題也變得越來越復(fù)雜,所以解決大規(guī)?茖W(xué)文獻(xiàn)數(shù)據(jù)庫中的學(xué)者同名問題是一個極具挑戰(zhàn)性的任務(wù)。針對該任務(wù)本文進(jìn)行了剖析與鉆研,主要的研究工作如下所示:(1)首先對大規(guī)模的學(xué)者消歧數(shù)據(jù)集進(jìn)行了探索性分析,對同名學(xué)者是否在同一機(jī)構(gòu),是否有相同的研究主題,是否有相同的合作者等相關(guān)方面做了基本的分析,大致了解了同名學(xué)者之間的不同情況。(2)本文創(chuàng)新性地提出了使用預(yù)訓(xùn)練語言模型Bert和構(gòu)建論文關(guān)系知識圖譜的方式去獲得論文最終的表示向量,其他同名消歧的方法在獲得文本特征表示時使用的都是Word2vec,而我們則引入了預(yù)訓(xùn)練語言模型Bert。然后使用圖自動編碼器結(jié)合圖譜上論文結(jié)點之間的關(guān)系表征來進(jìn)行學(xué)習(xí)獲得論文最終的表示向量,最后對得到的表示向量進(jìn)行凝聚式層次聚類使得同名學(xué)者的論文數(shù)據(jù)集劃分為許多類簇,從而完成了學(xué)者消歧。(3)在獲得論文結(jié)點之間的關(guān)系特征時,創(chuàng)新性地提出了用預(yù)構(gòu)建-微調(diào)的處理框架去獲得結(jié)點之間的關(guān)系...
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 引言
1.1 研究背景
1.1.1 學(xué)者消歧定義
1.1.2 課題研究意義
1.2 研究現(xiàn)狀
1.2.1 人工審查
1.2.2 學(xué)者交互
1.2.3 統(tǒng)計機(jī)器學(xué)習(xí)
1.3 本文的組織結(jié)構(gòu)
2 相關(guān)理論基礎(chǔ)
2.1 詞向量
2.1.1 one-hot模型
2.1.2 Word2Vec模型
2.2 預(yù)訓(xùn)練語言模型
2.2.1 Bert的輸入結(jié)構(gòu)
2.2.2 預(yù)訓(xùn)練任務(wù)
2.3 TF-IDF
2.4 圖網(wǎng)絡(luò)
2.4.1 圖網(wǎng)絡(luò)簡介
2.4.2 圖自動編碼器
2.5 本章小結(jié)
3 基于語義和論文關(guān)系知識圖譜的同名學(xué)者消歧
3.1 模型介紹
3.1.1 現(xiàn)有模型
3.1.2 現(xiàn)有模型的缺陷
3.2 數(shù)據(jù)特征分析
3.3 基于語義和關(guān)系圖譜的消歧模型
3.3.1 文本語義特征表示
3.3.2 關(guān)系知識圖譜的預(yù)構(gòu)建
3.3.3 關(guān)系知識圖譜的微調(diào)
3.3.4 構(gòu)建圖自動編碼器模型
3.4 本章小結(jié)
4 實驗與分析
4.1 實驗概括
4.1.1 數(shù)據(jù)集
4.1.2 基準(zhǔn)方法
4.1.3 評測指標(biāo)
4.1.4 實驗方案
4.2 實驗結(jié)果與分析
4.2.1 文本語義的實驗結(jié)果與分析
4.2.2 預(yù)構(gòu)建階段的實驗結(jié)果與分析
4.2.3 微調(diào)階段的實驗結(jié)果與分析
4.2.4 對比其他模型的實驗結(jié)果與分析
4.3 實驗室數(shù)據(jù)集上的實驗結(jié)果
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來工作展望
參考文獻(xiàn)
致謝
附錄 攻讀碩士期間的個人獲獎與學(xué)術(shù)成果情況
本文編號:3840886
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 引言
1.1 研究背景
1.1.1 學(xué)者消歧定義
1.1.2 課題研究意義
1.2 研究現(xiàn)狀
1.2.1 人工審查
1.2.2 學(xué)者交互
1.2.3 統(tǒng)計機(jī)器學(xué)習(xí)
1.3 本文的組織結(jié)構(gòu)
2 相關(guān)理論基礎(chǔ)
2.1 詞向量
2.1.1 one-hot模型
2.1.2 Word2Vec模型
2.2 預(yù)訓(xùn)練語言模型
2.2.1 Bert的輸入結(jié)構(gòu)
2.2.2 預(yù)訓(xùn)練任務(wù)
2.3 TF-IDF
2.4 圖網(wǎng)絡(luò)
2.4.1 圖網(wǎng)絡(luò)簡介
2.4.2 圖自動編碼器
2.5 本章小結(jié)
3 基于語義和論文關(guān)系知識圖譜的同名學(xué)者消歧
3.1 模型介紹
3.1.1 現(xiàn)有模型
3.1.2 現(xiàn)有模型的缺陷
3.2 數(shù)據(jù)特征分析
3.3 基于語義和關(guān)系圖譜的消歧模型
3.3.1 文本語義特征表示
3.3.2 關(guān)系知識圖譜的預(yù)構(gòu)建
3.3.3 關(guān)系知識圖譜的微調(diào)
3.3.4 構(gòu)建圖自動編碼器模型
3.4 本章小結(jié)
4 實驗與分析
4.1 實驗概括
4.1.1 數(shù)據(jù)集
4.1.2 基準(zhǔn)方法
4.1.3 評測指標(biāo)
4.1.4 實驗方案
4.2 實驗結(jié)果與分析
4.2.1 文本語義的實驗結(jié)果與分析
4.2.2 預(yù)構(gòu)建階段的實驗結(jié)果與分析
4.2.3 微調(diào)階段的實驗結(jié)果與分析
4.2.4 對比其他模型的實驗結(jié)果與分析
4.3 實驗室數(shù)據(jù)集上的實驗結(jié)果
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來工作展望
參考文獻(xiàn)
致謝
附錄 攻讀碩士期間的個人獲獎與學(xué)術(shù)成果情況
本文編號:3840886
本文鏈接:http://sikaile.net/tushudanganlunwen/3840886.html
最近更新
教材專著