基于編輯距離的多實體可信確認算法
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1MeTCa系統(tǒng)的整體架構(gòu)
多實體可信確認算法模型(Multi-EntityTrustedConfirmationAlgorithms,MeTCa)的整體框架如圖1所示,主要有3個階段:分布式弱可信數(shù)據(jù)獲取階段、命名實體識別階段和多參數(shù)融合可信確認階段。3.1數(shù)據(jù)獲取
圖2爬蟲的架構(gòu)圖
測試的郵箱地址來自國內(nèi)外各大高校公開的教師的郵箱地址,共1000個。通過自動化技術(shù)將郵箱地址分別輸入到百度、必應和谷歌三大搜索引擎的搜索框中,爬取相關(guān)弱可信數(shù)據(jù)。實驗使用3臺主機進行分布式爬取:一臺主機作為控制節(jié)點,從文件中獲取待爬取的郵箱地址,并將其傳遞給其余兩臺爬蟲節(jié)點下的....
圖3Bi-LSTM-CRF網(wǎng)絡的結(jié)構(gòu)
目標文本在進入模型識別前首先進行語種的識別,若網(wǎng)頁內(nèi)容中超過50%的字符為英文字母,則判斷該網(wǎng)頁為英文網(wǎng)頁,否則為中文網(wǎng)頁[15]。然后,將它們分別投入針對中文或英文的訓練的Bi-LSTM-CRF模型中進行實體識別。在區(qū)分語種后,實體的識別準確度得到了明顯的提升。其中,Bi-LS....
圖4有效實體占總實體的堆積圖
圖4中,橫坐標為排序前N的網(wǎng)頁頁面數(shù),左縱坐標為TopN頁面中的平均實體數(shù)(單位:個),右縱坐標為平均有效實體的占比。在Top30頁時,平均有效占比達到了最大值,即89%,后面的頁面抓取到的實體多為與郵箱地址相關(guān)度低的無效實體。因此,在實驗中采集數(shù)據(jù)時,選擇獲取三大引擎的To....
本文編號:3899542
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3899542.html