天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 圖書檔案論文 >

面向科技文獻(xiàn)作者檢索的人名消歧方法研究

發(fā)布時(shí)間:2024-03-11 04:26
  隨著科技文獻(xiàn)數(shù)量及檢索需求的日益增加,文獻(xiàn)作者重名問題也越發(fā)影響文獻(xiàn)檢索質(zhì)量,開展人名消歧方法研究是文獻(xiàn)知識(shí)庫建設(shè)過程中亟待解決的關(guān)鍵問題。針對(duì)目前人名消歧準(zhǔn)確率需進(jìn)一步提升的問題,本文充分利用數(shù)據(jù)特征,提出一種基于語義特征和圖關(guān)系特征相融合的二階段聚類消歧改進(jìn)方法。該方法加入IDF加權(quán),三重態(tài)損失學(xué)習(xí),自定義隨機(jī)網(wǎng)絡(luò)游走概率,特征融合等改進(jìn)措施充分挖掘數(shù)據(jù)特征信息,在評(píng)測(cè)數(shù)據(jù)集上取得了較好的消歧效果。研究工作如下:首先,針對(duì)待消歧標(biāo)準(zhǔn)數(shù)據(jù)集制作問題進(jìn)行了研究,給出了詳細(xì)的數(shù)據(jù)集抽取制作流程,并對(duì)本文后續(xù)消歧方法改進(jìn)所要用到的Aminer數(shù)據(jù)集進(jìn)行了統(tǒng)計(jì)分析。通過對(duì)其屬性特征的統(tǒng)計(jì)分析,發(fā)現(xiàn)各屬性特征包含較多的低頻分量,這些特征無法按照規(guī)則有效區(qū)分,為后續(xù)消歧方法改進(jìn)提供了思路。其次,提出了基于文本語義特征嵌入的人名消岐改進(jìn)方法。利用IDF加權(quán),三重態(tài)損失模型調(diào)整嵌入向量,并且計(jì)算文檔語義距離矩陣;诙A段聚類策略,一階段利用DBSCAN算法預(yù)聚類,第二階段,對(duì)離群點(diǎn)使用最大相似度匹配等算法實(shí)現(xiàn)消歧。評(píng)測(cè)結(jié)果表明改進(jìn)方法效果較好,宏平均F1由單一語義嵌入的0.38提升到0.47。然后...

【文章頁數(shù)】:72 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖1-1作者人名消歧輔助構(gòu)建知識(shí)圖譜

圖1-1作者人名消歧輔助構(gòu)建知識(shí)圖譜

上海師范大學(xué)碩士學(xué)位論文第1章緒論1第1章緒論1.1研究背景及意義隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)正邁向以知識(shí)互聯(lián)為特征的“Web3.0”時(shí)代,知識(shí)互聯(lián)的目標(biāo)是實(shí)現(xiàn)人和機(jī)器都可理解的萬維網(wǎng),使得現(xiàn)在的知識(shí)網(wǎng)絡(luò)更加智能化[1-3]。因此,涉及科技、醫(yī)學(xué)、金融等各個(gè)領(lǐng)域的知識(shí)....


圖2-1Skip-gram模型的網(wǎng)絡(luò)結(jié)構(gòu)

圖2-1Skip-gram模型的網(wǎng)絡(luò)結(jié)構(gòu)

上海師范大學(xué)碩士學(xué)位論文第2章文獻(xiàn)作者人名消歧相關(guān)理論11其中式2-12表示文本詞的TF-IDF權(quán)重ij,ij值越大,說明該詞i在文檔j中就越重要。式2-13是詞頻ijTF的計(jì)算公式,表示文本詞i在所有文檔中出現(xiàn)的頻率,用來衡量文本詞i對(duì)于不同文檔的區(qū)分能力,一般來說如果那個(gè)文檔....


圖2-2常見的聚類算法圖給出了常見的聚類算法,這里主要介紹基于劃分的聚類、基于密度的

圖2-2常見的聚類算法圖給出了常見的聚類算法,這里主要介紹基于劃分的聚類、基于密度的

上海師范大學(xué)碩士學(xué)位論文第2章文獻(xiàn)作者人名消歧相關(guān)理論13圖2-2常見的聚類算法圖2-2給出了常見的聚類算法,這里主要介紹基于劃分的聚類、基于密度的聚類這2種,主要原因是這兩種聚類算法應(yīng)用較為廣泛。尤其基于密度聚類算法不需要預(yù)先設(shè)定聚類簇?cái)?shù)k值,因此具備較好數(shù)據(jù)自適應(yīng)性,在人名消....


圖2-3k-means聚類算法流程

圖2-3k-means聚類算法流程

第2章文獻(xiàn)作者人名消歧相關(guān)理論上海師范大學(xué)碩士學(xué)位論文14圖2-3k-means聚類算法流程圖2-3給出了該算法的具體流程,K-means算法雖然具有計(jì)算速度快,原理簡(jiǎn)單清晰,但是該模型需要預(yù)先設(shè)定聚類簇?cái)?shù)。如何在不知道候選集具體可以分成幾個(gè)人的情況下實(shí)現(xiàn)聚類消歧才是人名消歧的主....



本文編號(hào):3925819

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/3925819.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6cd52***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com