基于關(guān)聯(lián)規(guī)則的Wikidata人物名稱數(shù)據(jù)分析——以諾貝爾文學獎得主為主題
發(fā)布時間:2020-02-04 03:22
【摘要】:[目的 /意義]挖掘不同名稱數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,將關(guān)于某一實體或主題的領(lǐng)域知識表現(xiàn)出來,這對實現(xiàn)不同層次、不同粒度的知識體系的解構(gòu)和重構(gòu)、提供滿足多種需求的知識服務工作具有重要的研究意義。[方法/過程]提出一種基于人物實體數(shù)據(jù)運行關(guān)聯(lián)規(guī)則挖掘?qū)嶒灥难芯靠蚣?通過對人物實體條目的抽取、預處理及屬性識別與分類等處理方法,利用R語言得到人物實體集的關(guān)聯(lián)規(guī)則,實現(xiàn)多種名稱數(shù)據(jù)的關(guān)聯(lián),最后從Wikidata知識庫提取113位諾貝爾文學獎得主的實體條目進行實證分析。[結(jié)果 /結(jié)論]分析右部為地點名稱、機構(gòu)名稱、時間名稱和主題名稱等4種不同類型規(guī)則的關(guān)聯(lián)特征,實現(xiàn)不同名稱數(shù)據(jù)類型的關(guān)系挖掘問題。本研究可為知識的揭示、聚合和關(guān)聯(lián)提供新的視角,探索了數(shù)據(jù)挖掘技術(shù)在名稱數(shù)據(jù)中的應用。
【圖文】:
識,為更好地促進名稱數(shù)據(jù)方面的關(guān)聯(lián)關(guān)系揭示和知識挖掘研究,為利用關(guān)聯(lián)規(guī)則技術(shù)開展知識關(guān)聯(lián)和知識服務工作提供借鑒。2研究框架與方法2.1研究框架人物實體條目中的許多屬性值是可訪問的、名稱數(shù)據(jù)型的資源,本文主要利用某一群體內(nèi)人物實體所涉及的名稱數(shù)據(jù)之間的關(guān)聯(lián)性,挖掘隱形的潛在知識。因此,本研究嘗試將人物信息條目看作事務型數(shù)據(jù)類型,將若干個屬性及其取值具體化為事務項,,使用基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘技術(shù)應用于人物實體集,通過對規(guī)則的關(guān)聯(lián)分析,獲取資源間的未知信息。本文的研究框架如圖1所示,首先,從知識庫中抽取選定群體內(nèi)所有人物實體的條目,用于構(gòu)建人物實體集;然后,人工識別屬性值為名稱數(shù)據(jù)型資源及其關(guān)聯(lián)的屬性名稱,將篩選后的數(shù)據(jù)轉(zhuǎn)化為事務型數(shù)據(jù)格式;接著,選擇Apriori算法運行挖掘布爾型關(guān)聯(lián)規(guī)則的實驗,主要步驟分為數(shù)據(jù)分析、頻繁項集發(fā)現(xiàn)及關(guān)聯(lián)規(guī)則生成;最后,根據(jù)規(guī)則左右部的名稱數(shù)據(jù)類型標識其規(guī)則類型,按照劃分后的種類對規(guī)則進行關(guān)聯(lián)分析。2.2研究方法2.2.1數(shù)據(jù)源與采集方法目前,以關(guān)聯(lián)數(shù)據(jù)形式構(gòu)建的大規(guī)模知識庫不斷涌現(xiàn),因其具有結(jié)構(gòu)化、可訪問性和開放性等特點,為數(shù)據(jù)挖掘提供了豐富、可靠的資源。Wikidata是一個多語言、開放協(xié)作、支持復用的知識庫項目[6]。根據(jù)2015年10月的維基數(shù)據(jù)統(tǒng)計報告[7],人物實體條目約占總庫的18.5%,團體名稱和行政領(lǐng)土實體名稱的條目數(shù)位列其后,分別約占12.6%和12.3%。在人物實體條目頁面中,Wikidata通過“P+ID”形式的屬性(property),使用OWL語言、SKOS和Schema等詞匯集具體描述人物實體的特性和關(guān)系,實現(xiàn)了多種名稱數(shù)據(jù)條目之間的連接,提高了數(shù)據(jù)的效用和價值。因此,本文選擇Wikidata為實驗數(shù)?
tralhome籍貫P6Residence居住地點P7Worklocation工作地點P8archivesat存檔地點機構(gòu)名稱P9educatedat畢業(yè)院校P10memberof所屬組織P11employer供職機構(gòu)P12memberofpoliticalparty所屬政黨P13awardreceived所獲獎項P14religion宗教組織事件名稱P15conflict戰(zhàn)爭人物名稱P16influencedby影響者時間名稱P17dateofbirth出生年份P18dateofdeath逝世年份主題名稱P19movement藝術(shù)流派P20genre文學體裁物實體的基本信息,每一項代表一個屬性及其屬性值,項采用“屬性序號_屬性值”的表示形式。數(shù)據(jù)的存儲格式如圖2所示,“P1_France”的含義為“人物1的國籍是法國”。圖2數(shù)據(jù)存儲格式3.2實驗過程3.2.1數(shù)據(jù)分析根據(jù)結(jié)果可知:數(shù)據(jù)集共包含113條事務數(shù)據(jù)、990個不同的項;在這些事務數(shù)據(jù)中,最少的包含5個項,最多的包含57個項。項頻率的最大值為0.3186,最小值和3個四分位數(shù)的值均為0.00885,說明支持度閾值應設(shè)定在兩個數(shù)值之間。頻率最高的前20位的項如圖3所示,橫坐標為項的頻率,縱坐標為項名,可知:{P10_AmericanAcademyofArtsandSciences}出現(xiàn)的頻率約為0.32,是事務數(shù)據(jù)中最頻繁出現(xiàn)的項;其余項的頻率大致分布在0.08-0.14左右;出生年份和逝世年份屬性是較為頻繁的項。圖3前20位出現(xiàn)頻率最高的項3.2.2參數(shù)設(shè)置經(jīng)過多次對支持度閾值的調(diào)整和試驗,在挖掘頻繁項集過程中,最小支持度閾值設(shè)為0.025;在運行關(guān)聯(lián)規(guī)則生成過程中,最小支持度閾值設(shè)為0.025,最小置信度閾值設(shè)為0.5,規(guī)則最小長度為2,并按照提升度降序排序。3.2.3結(jié)果分類與篩選實驗最終得到238條關(guān)聯(lián)規(guī)則。在這些規(guī)則中,長度為2、3、4的規(guī)則數(shù)量分別為125條、107條、6條;規(guī)則右部所涉及的屬性共12種,分別為國籍、出生地點、逝世
本文編號:2576216
【圖文】:
識,為更好地促進名稱數(shù)據(jù)方面的關(guān)聯(lián)關(guān)系揭示和知識挖掘研究,為利用關(guān)聯(lián)規(guī)則技術(shù)開展知識關(guān)聯(lián)和知識服務工作提供借鑒。2研究框架與方法2.1研究框架人物實體條目中的許多屬性值是可訪問的、名稱數(shù)據(jù)型的資源,本文主要利用某一群體內(nèi)人物實體所涉及的名稱數(shù)據(jù)之間的關(guān)聯(lián)性,挖掘隱形的潛在知識。因此,本研究嘗試將人物信息條目看作事務型數(shù)據(jù)類型,將若干個屬性及其取值具體化為事務項,,使用基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘技術(shù)應用于人物實體集,通過對規(guī)則的關(guān)聯(lián)分析,獲取資源間的未知信息。本文的研究框架如圖1所示,首先,從知識庫中抽取選定群體內(nèi)所有人物實體的條目,用于構(gòu)建人物實體集;然后,人工識別屬性值為名稱數(shù)據(jù)型資源及其關(guān)聯(lián)的屬性名稱,將篩選后的數(shù)據(jù)轉(zhuǎn)化為事務型數(shù)據(jù)格式;接著,選擇Apriori算法運行挖掘布爾型關(guān)聯(lián)規(guī)則的實驗,主要步驟分為數(shù)據(jù)分析、頻繁項集發(fā)現(xiàn)及關(guān)聯(lián)規(guī)則生成;最后,根據(jù)規(guī)則左右部的名稱數(shù)據(jù)類型標識其規(guī)則類型,按照劃分后的種類對規(guī)則進行關(guān)聯(lián)分析。2.2研究方法2.2.1數(shù)據(jù)源與采集方法目前,以關(guān)聯(lián)數(shù)據(jù)形式構(gòu)建的大規(guī)模知識庫不斷涌現(xiàn),因其具有結(jié)構(gòu)化、可訪問性和開放性等特點,為數(shù)據(jù)挖掘提供了豐富、可靠的資源。Wikidata是一個多語言、開放協(xié)作、支持復用的知識庫項目[6]。根據(jù)2015年10月的維基數(shù)據(jù)統(tǒng)計報告[7],人物實體條目約占總庫的18.5%,團體名稱和行政領(lǐng)土實體名稱的條目數(shù)位列其后,分別約占12.6%和12.3%。在人物實體條目頁面中,Wikidata通過“P+ID”形式的屬性(property),使用OWL語言、SKOS和Schema等詞匯集具體描述人物實體的特性和關(guān)系,實現(xiàn)了多種名稱數(shù)據(jù)條目之間的連接,提高了數(shù)據(jù)的效用和價值。因此,本文選擇Wikidata為實驗數(shù)?
tralhome籍貫P6Residence居住地點P7Worklocation工作地點P8archivesat存檔地點機構(gòu)名稱P9educatedat畢業(yè)院校P10memberof所屬組織P11employer供職機構(gòu)P12memberofpoliticalparty所屬政黨P13awardreceived所獲獎項P14religion宗教組織事件名稱P15conflict戰(zhàn)爭人物名稱P16influencedby影響者時間名稱P17dateofbirth出生年份P18dateofdeath逝世年份主題名稱P19movement藝術(shù)流派P20genre文學體裁物實體的基本信息,每一項代表一個屬性及其屬性值,項采用“屬性序號_屬性值”的表示形式。數(shù)據(jù)的存儲格式如圖2所示,“P1_France”的含義為“人物1的國籍是法國”。圖2數(shù)據(jù)存儲格式3.2實驗過程3.2.1數(shù)據(jù)分析根據(jù)結(jié)果可知:數(shù)據(jù)集共包含113條事務數(shù)據(jù)、990個不同的項;在這些事務數(shù)據(jù)中,最少的包含5個項,最多的包含57個項。項頻率的最大值為0.3186,最小值和3個四分位數(shù)的值均為0.00885,說明支持度閾值應設(shè)定在兩個數(shù)值之間。頻率最高的前20位的項如圖3所示,橫坐標為項的頻率,縱坐標為項名,可知:{P10_AmericanAcademyofArtsandSciences}出現(xiàn)的頻率約為0.32,是事務數(shù)據(jù)中最頻繁出現(xiàn)的項;其余項的頻率大致分布在0.08-0.14左右;出生年份和逝世年份屬性是較為頻繁的項。圖3前20位出現(xiàn)頻率最高的項3.2.2參數(shù)設(shè)置經(jīng)過多次對支持度閾值的調(diào)整和試驗,在挖掘頻繁項集過程中,最小支持度閾值設(shè)為0.025;在運行關(guān)聯(lián)規(guī)則生成過程中,最小支持度閾值設(shè)為0.025,最小置信度閾值設(shè)為0.5,規(guī)則最小長度為2,并按照提升度降序排序。3.2.3結(jié)果分類與篩選實驗最終得到238條關(guān)聯(lián)規(guī)則。在這些規(guī)則中,長度為2、3、4的規(guī)則數(shù)量分別為125條、107條、6條;規(guī)則右部所涉及的屬性共12種,分別為國籍、出生地點、逝世
本文編號:2576216
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2576216.html
最近更新
教材專著