知識(shí)圖譜的Top-k摘要模式挖掘方法
發(fā)布時(shí)間:2021-03-30 18:57
近年來,在網(wǎng)絡(luò)信息技術(shù)的支撐下,以維基百科、Yago、Freebase等為代表的包含大量非結(jié)構(gòu)化、異構(gòu)數(shù)據(jù)的知識(shí)圖譜得到了快速發(fā)展。然而,知識(shí)圖譜數(shù)據(jù)具有體量大、內(nèi)容豐富、類型多樣、缺乏統(tǒng)一模式描述特點(diǎn)。因此,提取知識(shí)圖譜模式信息,并形成摘要模式,對(duì)于提升知識(shí)檢索、挖掘質(zhì)量具有重要研究意義,F(xiàn)有的摘要模式挖掘方法得到的圖譜模式存在以下問題:1)挖掘的效率低;2)用戶很難控制算法的頻繁度值,往往產(chǎn)生大量的頻繁子圖模式;3)不同模式之間往往相互交疊冗余。同時(shí),已有的研究成果仍然存在部分上述問題。針對(duì)這些不足之處,本論文提出了新的摘要模式挖掘方法,將知識(shí)圖譜的摘要模式挖掘建模為優(yōu)化問題,并證明目標(biāo)函數(shù)滿足次模性,利用次模函數(shù)邊際效益最大化的數(shù)學(xué)性質(zhì)對(duì)Top-k摘要模式進(jìn)行貪心近似求解。實(shí)驗(yàn)結(jié)果表明,本文提出的摘要模式挖掘方法在挖掘質(zhì)量和挖掘效率上均優(yōu)于已有的雙目標(biāo)函數(shù)模型方法。本文的研究工作和創(chuàng)新點(diǎn)歸納如下:層次化的摘要模式的定義。首先,本文使用圖模擬匹配方法給出摘要模式的判定準(zhǔn)則。其次,實(shí)際應(yīng)用中,知識(shí)圖譜的標(biāo)簽往往帶有層次信息關(guān)系,本文基于摘要模式判定準(zhǔn)則提出考慮節(jié)點(diǎn)標(biāo)簽層次化結(jié)構(gòu)的摘要...
【文章來源】:云南大學(xué)云南省 211工程院校
【文章頁數(shù)】:48 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3:基于pregel的非層次化的摘要模型判定及其覆蓋子圖求解??
次樹為:r2,:r3,:r4。以定義2判定涉及到的標(biāo)簽有:{叫義山叫』;},圖g??中沒有這3類標(biāo)簽的節(jié)點(diǎn),因此&不是圖g的摘要模式。??然而,在實(shí)際應(yīng)用中,當(dāng)用戶查詢不到內(nèi)容時(shí),會(huì)選擇退而求其次。圖4中的??知識(shí)圖G不存在帶有Mi類型標(biāo)簽的圖節(jié)點(diǎn),故基于/i?=?1的標(biāo)簽松弛化的定義求解??(?(叫,1),以對(duì)^:^^財(cái)^崦上岣^財(cái)^^并規(guī)定:當(dāng)圖節(jié)點(diǎn)的標(biāo)簽類型為??(KA^l)中的任意一個(gè)時(shí),該節(jié)點(diǎn)即為標(biāo)簽類型岣的匹配節(jié)點(diǎn)。同理,對(duì)Cn?乂』??做九=1的標(biāo)簽松弛化,利用上述規(guī)定可知,二者均能在圖G中查詢到可匹配的圖??節(jié)點(diǎn)。利用標(biāo)簽層次化的摘要模式判定準(zhǔn)則對(duì)再次做合法摘要模式判定,Pi為知??識(shí)圖G的一個(gè)合法的層次化的摘要模式。??使用圖譜節(jié)點(diǎn)標(biāo)簽之間的層次化關(guān)系結(jié)構(gòu),做標(biāo)簽松弛化,弱化標(biāo)簽類型需完??全一致的約束,該方法能解決某些情況下,具有標(biāo)簽層次化結(jié)構(gòu)的知識(shí)圖譜中圖模??式匹配失敗的問題。下面給出基于層次化的摘要模式的具體判定過程和其覆蓋子??圖的求解。??首先給出基于圖模擬的圖節(jié)點(diǎn)匹配過程。分別計(jì)算&中各個(gè)節(jié)點(diǎn)在層次樹中??的/I跳孩子節(jié)點(diǎn)集{e叫。對(duì)于知識(shí)圖G任意一節(jié)點(diǎn)u
2)?luTopk算法與subTopk和BiOpt算法的對(duì)比??如圖6所示,圖6給出了?luTopk與subTopk、BiOpt算法的覆蓋度對(duì)比,BiOpt??中參數(shù)a的取值為0.7。圖6a、6b、6c的實(shí)驗(yàn)數(shù)據(jù)集依次為Caida、Yago和Stanford。??同樣的,根據(jù)式(3)使用最大覆蓋數(shù)計(jì)算相應(yīng)的覆蓋度值。由圖中可知,luTopk??的覆蓋度低于subTopk,但優(yōu)于BiOpt。隨著摘要模式數(shù)目的增加,luTopk的覆蓋??度隨之增加。??a*???yd&s?■?Z?■—.二??S?|'!,馱:/:::??^a/'?-^-subTopk?^?o.e?■?一subTopk?驗(yàn)?%?subTopk??02[.〇r^?-〇-Bi0pt-0.7?c/?^8t0pt-DJ?GJ?■念?^8i0pt-0.7??十?kiTopk?luTopk?,,??,?■?>???—??<■???'?'?o?w?uy?m?m??QK>40g〇8G?03S4〇6S^??k?k?k??(a)數(shù)據(jù)集Caida的覆蓋度對(duì)比?(b)數(shù)據(jù)集Yago的覆蓋度對(duì)比?(c)數(shù)據(jù)集Stanford的覆蓋度對(duì)比??
【參考文獻(xiàn)】:
期刊論文
[1]基于子圖同構(gòu)的vEPC虛擬網(wǎng)絡(luò)分層協(xié)同映射算法[J]. 劉彩霞,李凌書,湯紅波,王曉雷,盧干強(qiáng). 電子與信息學(xué)報(bào). 2017(05)
[2]面向維基百科的領(lǐng)域知識(shí)演化關(guān)系抽取[J]. 高俊平,張暉,趙旭劍,楊春明,李波. 計(jì)算機(jī)學(xué)報(bào). 2016(10)
[3]面向在線教育領(lǐng)域的大數(shù)據(jù)研究及應(yīng)用[J]. 陳池,王宇鵬,李超,張勇,邢春曉. 計(jì)算機(jī)研究與發(fā)展. 2014(S1)
[4]二分類圖上的非冗余協(xié)同圖模式挖掘算法[J]. 王章輝,趙宇海,王國(guó)仁,李源. 計(jì)算機(jī)學(xué)報(bào). 2015(07)
[5]基于Aprior&FP-growth算法的研究[J]. 晏杰,亓文娟. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2013(05)
博士論文
[1]網(wǎng)絡(luò)環(huán)境下的領(lǐng)域知識(shí)挖掘[D]. 王萍.華東師范大學(xué) 2010
本文編號(hào):3109984
【文章來源】:云南大學(xué)云南省 211工程院校
【文章頁數(shù)】:48 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3:基于pregel的非層次化的摘要模型判定及其覆蓋子圖求解??
次樹為:r2,:r3,:r4。以定義2判定涉及到的標(biāo)簽有:{叫義山叫』;},圖g??中沒有這3類標(biāo)簽的節(jié)點(diǎn),因此&不是圖g的摘要模式。??然而,在實(shí)際應(yīng)用中,當(dāng)用戶查詢不到內(nèi)容時(shí),會(huì)選擇退而求其次。圖4中的??知識(shí)圖G不存在帶有Mi類型標(biāo)簽的圖節(jié)點(diǎn),故基于/i?=?1的標(biāo)簽松弛化的定義求解??(?(叫,1),以對(duì)^:^^財(cái)^崦上岣^財(cái)^^并規(guī)定:當(dāng)圖節(jié)點(diǎn)的標(biāo)簽類型為??(KA^l)中的任意一個(gè)時(shí),該節(jié)點(diǎn)即為標(biāo)簽類型岣的匹配節(jié)點(diǎn)。同理,對(duì)Cn?乂』??做九=1的標(biāo)簽松弛化,利用上述規(guī)定可知,二者均能在圖G中查詢到可匹配的圖??節(jié)點(diǎn)。利用標(biāo)簽層次化的摘要模式判定準(zhǔn)則對(duì)再次做合法摘要模式判定,Pi為知??識(shí)圖G的一個(gè)合法的層次化的摘要模式。??使用圖譜節(jié)點(diǎn)標(biāo)簽之間的層次化關(guān)系結(jié)構(gòu),做標(biāo)簽松弛化,弱化標(biāo)簽類型需完??全一致的約束,該方法能解決某些情況下,具有標(biāo)簽層次化結(jié)構(gòu)的知識(shí)圖譜中圖模??式匹配失敗的問題。下面給出基于層次化的摘要模式的具體判定過程和其覆蓋子??圖的求解。??首先給出基于圖模擬的圖節(jié)點(diǎn)匹配過程。分別計(jì)算&中各個(gè)節(jié)點(diǎn)在層次樹中??的/I跳孩子節(jié)點(diǎn)集{e叫。對(duì)于知識(shí)圖G任意一節(jié)點(diǎn)u
2)?luTopk算法與subTopk和BiOpt算法的對(duì)比??如圖6所示,圖6給出了?luTopk與subTopk、BiOpt算法的覆蓋度對(duì)比,BiOpt??中參數(shù)a的取值為0.7。圖6a、6b、6c的實(shí)驗(yàn)數(shù)據(jù)集依次為Caida、Yago和Stanford。??同樣的,根據(jù)式(3)使用最大覆蓋數(shù)計(jì)算相應(yīng)的覆蓋度值。由圖中可知,luTopk??的覆蓋度低于subTopk,但優(yōu)于BiOpt。隨著摘要模式數(shù)目的增加,luTopk的覆蓋??度隨之增加。??a*???yd&s?■?Z?■—.二??S?|'!,馱:/:::??^a/'?-^-subTopk?^?o.e?■?一subTopk?驗(yàn)?%?subTopk??02[.〇r^?-〇-Bi0pt-0.7?c/?^8t0pt-DJ?GJ?■念?^8i0pt-0.7??十?kiTopk?luTopk?,,??,?■?>???—??<■???'?'?o?w?uy?m?m??QK>40g〇8G?03S4〇6S^??k?k?k??(a)數(shù)據(jù)集Caida的覆蓋度對(duì)比?(b)數(shù)據(jù)集Yago的覆蓋度對(duì)比?(c)數(shù)據(jù)集Stanford的覆蓋度對(duì)比??
【參考文獻(xiàn)】:
期刊論文
[1]基于子圖同構(gòu)的vEPC虛擬網(wǎng)絡(luò)分層協(xié)同映射算法[J]. 劉彩霞,李凌書,湯紅波,王曉雷,盧干強(qiáng). 電子與信息學(xué)報(bào). 2017(05)
[2]面向維基百科的領(lǐng)域知識(shí)演化關(guān)系抽取[J]. 高俊平,張暉,趙旭劍,楊春明,李波. 計(jì)算機(jī)學(xué)報(bào). 2016(10)
[3]面向在線教育領(lǐng)域的大數(shù)據(jù)研究及應(yīng)用[J]. 陳池,王宇鵬,李超,張勇,邢春曉. 計(jì)算機(jī)研究與發(fā)展. 2014(S1)
[4]二分類圖上的非冗余協(xié)同圖模式挖掘算法[J]. 王章輝,趙宇海,王國(guó)仁,李源. 計(jì)算機(jī)學(xué)報(bào). 2015(07)
[5]基于Aprior&FP-growth算法的研究[J]. 晏杰,亓文娟. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2013(05)
博士論文
[1]網(wǎng)絡(luò)環(huán)境下的領(lǐng)域知識(shí)挖掘[D]. 王萍.華東師范大學(xué) 2010
本文編號(hào):3109984
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3109984.html
最近更新
教材專著