基于中文名稱規(guī)范檔的人物信息聚合研究
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2.1語義網(wǎng)結(jié)構(gòu)層次模型圖
基于中文名稱規(guī)范檔的人物信息聚合研究12圖2.1語義網(wǎng)結(jié)構(gòu)層次模型圖2.1.2本體與實例的關(guān)系本體(ontology)最先是由亞里士多德提出的,在哲學(xué)領(lǐng)域被定義為:“對世界客觀存在物體的系統(tǒng)性描述,即存在論”。1960年本體被引入知識工程領(lǐng)域后,相關(guān)專家學(xué)者給出了許多不同的定義。....
圖3.3待處理文本統(tǒng)計圖
基于中文名稱規(guī)范檔的人物信息聚合研究22200_7ba0yba0y|b名400_a變異名稱810_a數(shù)據(jù)參考來源830_a作者簡介856_u個人簡況名稱規(guī)范檔中人物名稱數(shù)據(jù)大多來自書目記錄,因此本文選擇《亞洲周刊》評選的20世紀排名前一百的中文小說和中國近現(xiàn)代作家排行榜前一百名的....
圖3.7:層次聚類過程
第三章國內(nèi)中文名稱規(guī)范檔的人物聚合27圖3.7:層次聚類過程經(jīng)過上述相似度計算過程后,實驗獲得匹配數(shù)據(jù)。本文采用Purity和F-score分數(shù)對聚類結(jié)果進行評價,Purity是聚類評價方法之一,需要計算正確聚類的文檔數(shù)占全部文檔數(shù)的比例,其中Ω表示聚類的集合,ω_k表示第k類個....
圖3.8:聚類結(jié)果評估統(tǒng)計圖
基于中文名稱規(guī)范檔的人物信息聚合研究28R=+在基于聚類分析的中文個人名稱實驗中,隨機抽取20個實體的數(shù)據(jù)進行統(tǒng)計,精確率P、召回率R、F-score分數(shù)如圖3.8所示,總體效果較好。實驗結(jié)果證明了基于中文個人名稱聚類并建立實體鏈接的有效性,其中purity率計算得:88.514....
本文編號:3951646
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3951646.html