實體一致性擴展技術研究
發(fā)布時間:2021-08-23 12:27
近年來,網(wǎng)絡表格的研究逐漸得到人們的關注,相對于文本型數(shù)據(jù),網(wǎng)絡表格可以幫助人們直觀地了解自己感興趣的信息。人們感興趣的信息往往分散在多個網(wǎng)絡表格中,對于給定的實體與待擴展的屬性名,實體擴展以網(wǎng)絡表格作為數(shù)據(jù)源,返回每一實體相對應的屬性值,該項技術廣泛應用于數(shù)據(jù)集成和搜索引擎中。現(xiàn)有方法假定網(wǎng)絡表格為實體-屬性二元關系。對于需要擴展多列屬性的表格,解決的方法是將這些表格拆分為若干個實體-屬性二元關系。在拆分的過程中,表格的語義被割裂,導致單獨擴展的二元關系拼接而成的結果表具有實體不一致的問題。同時,現(xiàn)有方法大多返回單一的實體擴展結果,通常不能完全滿足用戶的需求。對于給定的實體與屬性名,本文的研究目標是返回與之相對應top-k個一致的結果表。為了確保結果表的高一致性和精確度,我們提出一致性匹配關系的概念,通過構建覆蓋率為γ的一致性團來實現(xiàn)實體一致性擴展;跇嫿ńY果表的答案表之間應該具有一致性匹配關系的事實,我們將網(wǎng)絡表格作為結點,一致性匹配關系作為邊去構建一致性團。通過擴展查詢使得一致性團的覆蓋率到達特定的閾值γ。論文證明,將一致性團中的結點作為答案表可以得到一致性的結果表。我們在四組...
【文章來源】:北京交通大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖1-2網(wǎng)絡表格的分類??ure?1-2.?Classification?of?web?tables??
它在HTML上有自己的標簽。實體擴展是以網(wǎng)絡表格為數(shù)據(jù)源實現(xiàn)數(shù)??據(jù)集成的一種技術,為了更好的實現(xiàn)實體擴展,我們應當全面的理解網(wǎng)絡表格的??特征,包括其自身的特征和HTML中的特征。圖2-1是從維基百科[23]中得到的網(wǎng)??絡表格的截圖,其對應的HTML代碼如圖2-2所示。??List?of?best-se]ling?individual?books?丨?edit?|??More?than?100?million?copies?丨edit]??Book???Au,hor(s)?*?抑丨.?";:S*?*??language?published??Don?Quixote?Miguel?de?Cervantes?Spanish?1605??|???????????????1??????????A?Tale?of?Two?Cities?Charles?Dickens?English?1859??The?Lord?of?the?Rings?J.?R.?R.?Tolkien?English?1954-1955??.,?.?Antoine?de?Saint-?,?
?td>£ngiish<'td'-??m?<xd>l859-/td>??圖2-2.網(wǎng)絡表格的HTML代碼??Figure?2-2.?HTML?code?of?web?table??我們不僅僅對網(wǎng)絡表格的HTML特征進行了總結
【參考文獻】:
期刊論文
[1]數(shù)據(jù)庫領域中的模式及模式匹配[J]. 邢文端. 中國校外教育. 2013(07)
[2]圖數(shù)據(jù)中Top-k屬性差異q-clique查詢[J]. 孫煥良,盧智,劉俊嶺,于戈. 計算機學報. 2012(11)
[3]PageRank算法研究綜述[J]. 李稚楹,楊武,謝治軍. 計算機科學. 2011(S1)
[4]一種半自動化的復雜語義匹配系統(tǒng)[J]. 符雙,周燕川,干露,魏忠,曹奇英. 計算機與數(shù)字工程. 2009(03)
碩士論文
[1]網(wǎng)絡表格的實體列發(fā)現(xiàn)方法研究[D]. 張麗方.北京交通大學 2017
[2]基于眾包的網(wǎng)絡表格語義恢復[D]. 劉華西.北京交通大學 2016
[3]網(wǎng)絡表格的實體列發(fā)現(xiàn)與標識[D]. 任向冉.北京交通大學 2015
[4]網(wǎng)絡表格間的關聯(lián)關系發(fā)現(xiàn)[D]. 任紅偉.北京交通大學 2015
[5]數(shù)據(jù)庫模式發(fā)現(xiàn)與匹配方法的研究[D]. 李風舉.電子科技大學 2012
[6]數(shù)據(jù)庫模式匹配方法的研究[D]. 孫瑾.山東大學 2009
本文編號:3357865
【文章來源】:北京交通大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【部分圖文】:
圖1-2網(wǎng)絡表格的分類??ure?1-2.?Classification?of?web?tables??
它在HTML上有自己的標簽。實體擴展是以網(wǎng)絡表格為數(shù)據(jù)源實現(xiàn)數(shù)??據(jù)集成的一種技術,為了更好的實現(xiàn)實體擴展,我們應當全面的理解網(wǎng)絡表格的??特征,包括其自身的特征和HTML中的特征。圖2-1是從維基百科[23]中得到的網(wǎng)??絡表格的截圖,其對應的HTML代碼如圖2-2所示。??List?of?best-se]ling?individual?books?丨?edit?|??More?than?100?million?copies?丨edit]??Book???Au,hor(s)?*?抑丨.?";:S*?*??language?published??Don?Quixote?Miguel?de?Cervantes?Spanish?1605??|???????????????1??????????A?Tale?of?Two?Cities?Charles?Dickens?English?1859??The?Lord?of?the?Rings?J.?R.?R.?Tolkien?English?1954-1955??.,?.?Antoine?de?Saint-?,?
?td>£ngiish<'td'-??m?<xd>l859-/td>??圖2-2.網(wǎng)絡表格的HTML代碼??Figure?2-2.?HTML?code?of?web?table??我們不僅僅對網(wǎng)絡表格的HTML特征進行了總結
【參考文獻】:
期刊論文
[1]數(shù)據(jù)庫領域中的模式及模式匹配[J]. 邢文端. 中國校外教育. 2013(07)
[2]圖數(shù)據(jù)中Top-k屬性差異q-clique查詢[J]. 孫煥良,盧智,劉俊嶺,于戈. 計算機學報. 2012(11)
[3]PageRank算法研究綜述[J]. 李稚楹,楊武,謝治軍. 計算機科學. 2011(S1)
[4]一種半自動化的復雜語義匹配系統(tǒng)[J]. 符雙,周燕川,干露,魏忠,曹奇英. 計算機與數(shù)字工程. 2009(03)
碩士論文
[1]網(wǎng)絡表格的實體列發(fā)現(xiàn)方法研究[D]. 張麗方.北京交通大學 2017
[2]基于眾包的網(wǎng)絡表格語義恢復[D]. 劉華西.北京交通大學 2016
[3]網(wǎng)絡表格的實體列發(fā)現(xiàn)與標識[D]. 任向冉.北京交通大學 2015
[4]網(wǎng)絡表格間的關聯(lián)關系發(fā)現(xiàn)[D]. 任紅偉.北京交通大學 2015
[5]數(shù)據(jù)庫模式發(fā)現(xiàn)與匹配方法的研究[D]. 李風舉.電子科技大學 2012
[6]數(shù)據(jù)庫模式匹配方法的研究[D]. 孫瑾.山東大學 2009
本文編號:3357865
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/3357865.html
最近更新
教材專著