天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于圖模型和規(guī)則的同名作者消歧研究

發(fā)布時(shí)間:2022-01-24 07:24
  在科學(xué)文獻(xiàn)管理中,同名消歧一直被視為一個(gè)具有挑戰(zhàn)性的問題,且隨著科學(xué)文獻(xiàn)的大量增長,使得該問題的解決變得愈加困難與緊迫。盡管同名消歧已經(jīng)在學(xué)術(shù)界和工業(yè)界被大量研究,但由于數(shù)據(jù)的雜亂以及同名情況十分復(fù)雜,導(dǎo)致該問題仍未得到很好解決。本文針對(duì)大規(guī)模學(xué)術(shù)論文中的作者同名消歧問題進(jìn)行研究,主要研究工作如下:(1)提出一種基于原子簇的構(gòu)建論文關(guān)系圖的方法,該方法預(yù)先將強(qiáng)關(guān)聯(lián)的論文聚集到一起形成原子簇,圖中以論文和原子簇作為節(jié)點(diǎn),以論文和原子簇、論文和論文之間的關(guān)系構(gòu)建邊,縮小了圖的規(guī)模。(2)結(jié)合論文內(nèi)容信息和論文間的關(guān)系信息進(jìn)行消歧。模型首先利用論文本身的特征屬性信息將每篇論文嵌入到一個(gè)統(tǒng)一的向量空間中,然后基于待消歧的姓名構(gòu)建論文關(guān)系圖,使用圖自動(dòng)編碼器將圖的關(guān)系信息和論文自身的特征信息結(jié)合起來進(jìn)行學(xué)習(xí)來得到最終的論文表示向量,最后對(duì)待消歧的姓名進(jìn)行凝聚式層次聚類分析。(3)提出一個(gè)基于規(guī)則的消歧后處理算法。該算法利用合著者關(guān)系以及作者所屬機(jī)構(gòu)這兩個(gè)強(qiáng)消歧特征進(jìn)行規(guī)則約束,對(duì)每個(gè)待消歧姓名的候選集進(jìn)行兩個(gè)層面的處理。該算法能夠有效提高模型使用預(yù)測(cè)簇?cái)?shù)(即預(yù)測(cè)的同名作者人數(shù))時(shí)的消歧表現(xiàn)。本文... 

【文章來源】:內(nèi)蒙古大學(xué)內(nèi)蒙古自治區(qū) 211工程院校

【文章頁數(shù)】:57 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于圖模型和規(guī)則的同名作者消歧研究


代表性的學(xué)術(shù)數(shù)字圖書館系統(tǒng)

模型圖,模型,隱藏層,單詞


基于圖模型和規(guī)則的同名作者消歧研究12圖2.1Skip-Gram模型Figure2.1Skip-Grammodel在上面的模型中表示與訓(xùn)練實(shí)例中的輸入單詞相對(duì)應(yīng)的獨(dú)熱編碼向量,而{1,…,}表示與訓(xùn)練實(shí)例中的輸出單詞相對(duì)應(yīng)的獨(dú)熱編碼向量。×的矩陣是輸入層和隱藏層之間的權(quán)重矩陣,它的第行表示與詞匯表中第個(gè)單詞相對(duì)應(yīng)的權(quán)重。這個(gè)權(quán)重矩陣是主要的學(xué)習(xí)內(nèi)容,因?yàn)樗~匯表中所有單詞的向量編碼。每個(gè)輸出詞向量還有與其關(guān)聯(lián)的×階的輸出矩陣′。還有一個(gè)包含節(jié)點(diǎn)的隱藏層,具體大小是訓(xùn)練參數(shù)。隱藏層中某個(gè)單元的輸入是模型輸入的加權(quán)和。由于輸入向量是獨(dú)熱編碼的,因此來自非零元素的權(quán)重將是唯一有助于隱藏層的權(quán)重。所以,對(duì)于所有′≠的輸入(=1,′=0),隱藏層的輸出將等于的第行,即,==(,.)(2.2)注意這里沒有激活函數(shù),這是因?yàn)檩斎胧艿姜?dú)熱編碼的限制。同樣,通過計(jì)算其輸入的加權(quán)總和來計(jì)算每個(gè)×個(gè)輸出節(jié)點(diǎn)中每個(gè)節(jié)點(diǎn)的輸入。因此,第個(gè)輸出詞的第個(gè)節(jié)點(diǎn)的輸入是,=′(2.3)

模型圖,模型,隱藏層,單詞


內(nèi)蒙古大學(xué)碩士學(xué)位論文13然而,每個(gè)輸出詞的輸出層共享相同的權(quán)重,所以,=。最終可以通過soft-max函數(shù)計(jì)算第個(gè)輸出詞的第個(gè)節(jié)點(diǎn)的輸出,該函數(shù)產(chǎn)生多項(xiàng)式分布,=,=,=exp,∑exp′′=1(2.4)簡單來講,該值是第個(gè)輸出詞的第個(gè)節(jié)點(diǎn)的輸出等于第個(gè)輸出向量的第個(gè)索引的實(shí)際值的概率。2.CBOW模型本節(jié)我們介紹另一個(gè)Word2Vec模型——連續(xù)詞袋模型(CBOW)。CBOW模型和Skip-Gram模型在許多方面都是彼此的鏡像,CBOW模型如下圖2.2所示,圖2.2CBOW模型Figure2.2CBOWmodel它看起來像是Skip-Gram模型輸入輸出的交換,輸入層由大小為的單詞窗口和大小為的詞匯表的獨(dú)熱編碼的上下文單詞{1,…,}組成。隱藏層是維向量,輸出層是訓(xùn)練集中的輸出單詞,該單詞也是獨(dú)熱編碼。獨(dú)熱編碼的輸入向量通過一個(gè)×維的權(quán)重矩陣與隱藏層連接,隱藏層通過一個(gè)×的權(quán)重矩陣與輸出層連接。簡單介紹前向傳播過程,以下假設(shè)輸入和輸出權(quán)重矩陣已知,第一部是評(píng)估隱藏層的輸出,它由下面的公式計(jì)


本文編號(hào):3606135

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3606135.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4be90***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com