實(shí)體一致性擴(kuò)展技術(shù)研究
發(fā)布時(shí)間:2021-08-23 12:27
近年來,網(wǎng)絡(luò)表格的研究逐漸得到人們的關(guān)注,相對(duì)于文本型數(shù)據(jù),網(wǎng)絡(luò)表格可以幫助人們直觀地了解自己感興趣的信息。人們感興趣的信息往往分散在多個(gè)網(wǎng)絡(luò)表格中,對(duì)于給定的實(shí)體與待擴(kuò)展的屬性名,實(shí)體擴(kuò)展以網(wǎng)絡(luò)表格作為數(shù)據(jù)源,返回每一實(shí)體相對(duì)應(yīng)的屬性值,該項(xiàng)技術(shù)廣泛應(yīng)用于數(shù)據(jù)集成和搜索引擎中,F(xiàn)有方法假定網(wǎng)絡(luò)表格為實(shí)體-屬性二元關(guān)系。對(duì)于需要擴(kuò)展多列屬性的表格,解決的方法是將這些表格拆分為若干個(gè)實(shí)體-屬性二元關(guān)系。在拆分的過程中,表格的語(yǔ)義被割裂,導(dǎo)致單獨(dú)擴(kuò)展的二元關(guān)系拼接而成的結(jié)果表具有實(shí)體不一致的問題。同時(shí),現(xiàn)有方法大多返回單一的實(shí)體擴(kuò)展結(jié)果,通常不能完全滿足用戶的需求。對(duì)于給定的實(shí)體與屬性名,本文的研究目標(biāo)是返回與之相對(duì)應(yīng)top-k個(gè)一致的結(jié)果表。為了確保結(jié)果表的高一致性和精確度,我們提出一致性匹配關(guān)系的概念,通過構(gòu)建覆蓋率為γ的一致性團(tuán)來實(shí)現(xiàn)實(shí)體一致性擴(kuò)展;跇(gòu)建結(jié)果表的答案表之間應(yīng)該具有一致性匹配關(guān)系的事實(shí),我們將網(wǎng)絡(luò)表格作為結(jié)點(diǎn),一致性匹配關(guān)系作為邊去構(gòu)建一致性團(tuán)。通過擴(kuò)展查詢使得一致性團(tuán)的覆蓋率到達(dá)特定的閾值γ。論文證明,將一致性團(tuán)中的結(jié)點(diǎn)作為答案表可以得到一致性的結(jié)果表。我們?cè)谒慕M...
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-2網(wǎng)絡(luò)表格的分類??ure?1-2.?Classification?of?web?tables??
它在HTML上有自己的標(biāo)簽。實(shí)體擴(kuò)展是以網(wǎng)絡(luò)表格為數(shù)據(jù)源實(shí)現(xiàn)數(shù)??據(jù)集成的一種技術(shù),為了更好的實(shí)現(xiàn)實(shí)體擴(kuò)展,我們應(yīng)當(dāng)全面的理解網(wǎng)絡(luò)表格的??特征,包括其自身的特征和HTML中的特征。圖2-1是從維基百科[23]中得到的網(wǎng)??絡(luò)表格的截圖,其對(duì)應(yīng)的HTML代碼如圖2-2所示。??List?of?best-se]ling?individual?books?丨?edit?|??More?than?100?million?copies?丨edit]??Book???Au,hor(s)?*?抑丨.?";:S*?*??language?published??Don?Quixote?Miguel?de?Cervantes?Spanish?1605??|???????????????1??????????A?Tale?of?Two?Cities?Charles?Dickens?English?1859??The?Lord?of?the?Rings?J.?R.?R.?Tolkien?English?1954-1955??.,?.?Antoine?de?Saint-?,?
?td>£ngiish<'td'-??m?<xd>l859-/td>??圖2-2.網(wǎng)絡(luò)表格的HTML代碼??Figure?2-2.?HTML?code?of?web?table??我們不僅僅對(duì)網(wǎng)絡(luò)表格的HTML特征進(jìn)行了總結(jié)
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)庫(kù)領(lǐng)域中的模式及模式匹配[J]. 邢文端. 中國(guó)校外教育. 2013(07)
[2]圖數(shù)據(jù)中Top-k屬性差異q-clique查詢[J]. 孫煥良,盧智,劉俊嶺,于戈. 計(jì)算機(jī)學(xué)報(bào). 2012(11)
[3]PageRank算法研究綜述[J]. 李稚楹,楊武,謝治軍. 計(jì)算機(jī)科學(xué). 2011(S1)
[4]一種半自動(dòng)化的復(fù)雜語(yǔ)義匹配系統(tǒng)[J]. 符雙,周燕川,干露,魏忠,曹奇英. 計(jì)算機(jī)與數(shù)字工程. 2009(03)
碩士論文
[1]網(wǎng)絡(luò)表格的實(shí)體列發(fā)現(xiàn)方法研究[D]. 張麗方.北京交通大學(xué) 2017
[2]基于眾包的網(wǎng)絡(luò)表格語(yǔ)義恢復(fù)[D]. 劉華西.北京交通大學(xué) 2016
[3]網(wǎng)絡(luò)表格的實(shí)體列發(fā)現(xiàn)與標(biāo)識(shí)[D]. 任向冉.北京交通大學(xué) 2015
[4]網(wǎng)絡(luò)表格間的關(guān)聯(lián)關(guān)系發(fā)現(xiàn)[D]. 任紅偉.北京交通大學(xué) 2015
[5]數(shù)據(jù)庫(kù)模式發(fā)現(xiàn)與匹配方法的研究[D]. 李風(fēng)舉.電子科技大學(xué) 2012
[6]數(shù)據(jù)庫(kù)模式匹配方法的研究[D]. 孫瑾.山東大學(xué) 2009
本文編號(hào):3357865
【文章來源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:64 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-2網(wǎng)絡(luò)表格的分類??ure?1-2.?Classification?of?web?tables??
它在HTML上有自己的標(biāo)簽。實(shí)體擴(kuò)展是以網(wǎng)絡(luò)表格為數(shù)據(jù)源實(shí)現(xiàn)數(shù)??據(jù)集成的一種技術(shù),為了更好的實(shí)現(xiàn)實(shí)體擴(kuò)展,我們應(yīng)當(dāng)全面的理解網(wǎng)絡(luò)表格的??特征,包括其自身的特征和HTML中的特征。圖2-1是從維基百科[23]中得到的網(wǎng)??絡(luò)表格的截圖,其對(duì)應(yīng)的HTML代碼如圖2-2所示。??List?of?best-se]ling?individual?books?丨?edit?|??More?than?100?million?copies?丨edit]??Book???Au,hor(s)?*?抑丨.?";:S*?*??language?published??Don?Quixote?Miguel?de?Cervantes?Spanish?1605??|???????????????1??????????A?Tale?of?Two?Cities?Charles?Dickens?English?1859??The?Lord?of?the?Rings?J.?R.?R.?Tolkien?English?1954-1955??.,?.?Antoine?de?Saint-?,?
?td>£ngiish<'td'-??m?<xd>l859-/td>??圖2-2.網(wǎng)絡(luò)表格的HTML代碼??Figure?2-2.?HTML?code?of?web?table??我們不僅僅對(duì)網(wǎng)絡(luò)表格的HTML特征進(jìn)行了總結(jié)
【參考文獻(xiàn)】:
期刊論文
[1]數(shù)據(jù)庫(kù)領(lǐng)域中的模式及模式匹配[J]. 邢文端. 中國(guó)校外教育. 2013(07)
[2]圖數(shù)據(jù)中Top-k屬性差異q-clique查詢[J]. 孫煥良,盧智,劉俊嶺,于戈. 計(jì)算機(jī)學(xué)報(bào). 2012(11)
[3]PageRank算法研究綜述[J]. 李稚楹,楊武,謝治軍. 計(jì)算機(jī)科學(xué). 2011(S1)
[4]一種半自動(dòng)化的復(fù)雜語(yǔ)義匹配系統(tǒng)[J]. 符雙,周燕川,干露,魏忠,曹奇英. 計(jì)算機(jī)與數(shù)字工程. 2009(03)
碩士論文
[1]網(wǎng)絡(luò)表格的實(shí)體列發(fā)現(xiàn)方法研究[D]. 張麗方.北京交通大學(xué) 2017
[2]基于眾包的網(wǎng)絡(luò)表格語(yǔ)義恢復(fù)[D]. 劉華西.北京交通大學(xué) 2016
[3]網(wǎng)絡(luò)表格的實(shí)體列發(fā)現(xiàn)與標(biāo)識(shí)[D]. 任向冉.北京交通大學(xué) 2015
[4]網(wǎng)絡(luò)表格間的關(guān)聯(lián)關(guān)系發(fā)現(xiàn)[D]. 任紅偉.北京交通大學(xué) 2015
[5]數(shù)據(jù)庫(kù)模式發(fā)現(xiàn)與匹配方法的研究[D]. 李風(fēng)舉.電子科技大學(xué) 2012
[6]數(shù)據(jù)庫(kù)模式匹配方法的研究[D]. 孫瑾.山東大學(xué) 2009
本文編號(hào):3357865
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3357865.html
最近更新
教材專著