網(wǎng)絡表格擴展技術研究
本文關鍵詞:網(wǎng)絡表格擴展技術研究
更多相關文章: 網(wǎng)絡表格 列重合 列映射 一致性支持度 Top-k擴展
【摘要】:互聯(lián)網(wǎng)的快速發(fā)展使得網(wǎng)絡上的數(shù)據(jù)量急速增加,幾乎每一個被瀏覽的網(wǎng)頁中都包含了信息豐富的HTML表格,稱之為網(wǎng)絡表格。用戶通過搜索引擎查詢并獲取有用信息時,網(wǎng)絡表格相對于文本等數(shù)據(jù)形式具有更好的結(jié)構(gòu)化特性,可以使人們非常清晰直觀地看到自己感興趣的信息。網(wǎng)絡表格擴展是根據(jù)已知信息去擴展與主列相關的其他屬性列信息,滿足用戶整合結(jié)構(gòu)化信息的需要。已有的表格擴展查詢系統(tǒng)存在一定的局限性:一方面,這些系統(tǒng)主要針對由主列和待擴展列組成的實體-屬性二元表進行單列擴展,將該算法用于多個待擴展列的表格時,多個二元表合并而成的結(jié)果容易出現(xiàn)實體不一致現(xiàn)象;另一方面,這些系統(tǒng)提供給用戶的結(jié)果表多數(shù)是唯一的,當用戶想要根據(jù)機器提供的多列擴展結(jié)果來檢查數(shù)據(jù)源,辨別或手動修正一些錯誤信息時,唯一的結(jié)果表無法滿足用戶的篩選需求。針對以上問題,本文對網(wǎng)絡表格擴展做了深入研究,具體工作如下:(1)為了避免不一致現(xiàn)象的發(fā)生,本文根據(jù)列重合度設計列映射算法,實現(xiàn)了基于列重合度的網(wǎng)絡表格一致性擴展方法(Column-Overlap Consistent Augmentation,CCA)。CCA方法對查詢表進行預處理,綜合考慮各個屬性列間以及各元組行之間的關系,首次提出一致性支持度的概念,并將一致性支持度應用于填值算法。相關實驗表明,CCA方法在多列擴展問題上與現(xiàn)有方法相比有更高的精確度、覆蓋率和一致性,以及更低的查詢時間代價。CCA既能保證候選表的高支持度,又能使結(jié)果表中填值所使用的數(shù)據(jù)源數(shù)目最少,有效地避免了實體不一致問題。(2)為了滿足用戶的篩選需求,本文在CCA方法的基礎上改進填值算法,設計并實現(xiàn)了網(wǎng)絡表格的Top-k擴展方法(Top-k Augmentation of Web Table,TAT),提出Top-k支持度的概念,實現(xiàn)互斥型和迭代型Top-k擴展算法,根據(jù)用戶需求迭代給出Top-k個多樣化結(jié)果供用戶篩選和修正。實驗表明,TAT很好地實現(xiàn)了 Top-k結(jié)果表的展現(xiàn),各個結(jié)果表的可靠性和結(jié)果集的多樣性均呈現(xiàn)出理想水平。
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP393.092
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊林青;插圖與表格的規(guī)范化[J];華東電力;2001年04期
2 金穎云;怎樣把表格里的行數(shù)據(jù)轉(zhuǎn)成列數(shù)據(jù)[J];電腦知識與技術;2002年07期
3 ;善用表格讓辦公更輕松[J];電腦愛好者;2009年18期
4 金穎云;;怎樣把表格里的行數(shù)據(jù)轉(zhuǎn)成列數(shù)據(jù)[J];軟件;2003年11期
5 陳桂鑫;表格數(shù)據(jù) 頁頁心中有數(shù)[J];電腦愛好者;2004年24期
6 毛毛蟲;;Word表格行數(shù)據(jù)移動有快招[J];電腦迷;2008年12期
7 阮慧寧;;表格中數(shù)據(jù)的編輯加工技巧[J];科技與出版;2011年07期
8 徐群;;通用表格生成系統(tǒng)的實現(xiàn)[J];計算機光盤軟件與應用;2012年18期
9 張平,黃尚康,潘保昌;一種復雜表格識別和處理方法[J];電子科學學刊;1994年03期
10 梁虹,李天牧;一種通用的表格自動處理系統(tǒng)[J];云南大學學報(自然科學版);1995年01期
中國重要會議論文全文數(shù)據(jù)庫 前6條
1 靳忠;李橫;李萌;;ASP.NET中動態(tài)表格的實現(xiàn)[A];全國ISNBM學術交流會暨電腦開發(fā)與應用創(chuàng)刊20周年慶祝大會論文集[C];2005年
2 張慧;李學慶;;基于模型驅(qū)動的表格識別[A];第六屆和諧人機環(huán)境聯(lián)合學術會議(HHME2010)、第19屆全國多媒體學術會議(NCMT2010)、第6屆全國人機交互學術會議(CHCI2010)、第5屆全國普適計算學術會議(PCC2010)論文集[C];2010年
3 王輝;楊凱;郎士寧;馮少華;王月蓉;;.Net控制Excel自動生成表格的應用研究[A];計算機研究新進展(2010)——河南省計算機學會2010年學術年會論文集[C];2010年
4 高景;;“Word計算和排序表格數(shù)據(jù)”教學設計[A];2012年河北省教師教育學會教學設計主題論壇論文集[C];2012年
5 白慧敏;;基于Moodle平臺的《表格數(shù)據(jù)的圖形化》網(wǎng)絡教學案例[A];河北省教師教育學會第二屆中小學教師教學案例展論文集[C];2013年
6 袁鴻雁;;Web表格信息抽取技術的研究[A];2008'中國信息技術與應用學術論壇論文集(一)[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前4條
1 伊禮俊;如何讓海量數(shù)據(jù)自動進電腦[N];中國計算機報;2007年
2 江蘇 羅松林;Word 2000表格中的計算方法[N];中國電腦教育報;2001年
3 本報記者 張智江;中外管理軟件大比拼[N];通信信息報;2003年
4 河北 劉勇;Help Me[N];電腦報;2004年
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 史廣順;文檔圖像中表格結(jié)構(gòu)的自動定位與分析[D];南開大學;2003年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉華西;基于眾包的網(wǎng)絡表格語義恢復[D];北京交通大學;2016年
2 曹貞興;Web表格數(shù)據(jù)提取與分析系統(tǒng)的設計與實現(xiàn)[D];哈爾濱工業(yè)大學;2016年
3 劉巖;網(wǎng)頁中實體表格信息抽取方法的研究[D];北京工業(yè)大學;2016年
4 張麗方;網(wǎng)絡表格的實體列發(fā)現(xiàn)方法研究[D];北京交通大學;2017年
5 齊飛;網(wǎng)絡表格擴展技術研究[D];北京交通大學;2017年
6 王小鳳;表格數(shù)據(jù)的采集和處理[D];蘇州大學;2002年
7 羅靜;互聯(lián)網(wǎng)表格數(shù)據(jù)的語義恢復[D];北京交通大學;2014年
8 任向冉;網(wǎng)絡表格的實體列發(fā)現(xiàn)與標識[D];北京交通大學;2015年
9 任紅偉;網(wǎng)絡表格間的關聯(lián)關系發(fā)現(xiàn)[D];北京交通大學;2015年
10 潘小燕;半結(jié)構(gòu)化文本中的表格信息抽取技術的研究[D];哈爾濱工業(yè)大學;2007年
,本文編號:1265947
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1265947.html