天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

網(wǎng)絡(luò)表格擴(kuò)展技術(shù)研究

發(fā)布時(shí)間:2017-12-08 10:04

  本文關(guān)鍵詞:網(wǎng)絡(luò)表格擴(kuò)展技術(shù)研究


  更多相關(guān)文章: 網(wǎng)絡(luò)表格 列重合 列映射 一致性支持度 Top-k擴(kuò)展


【摘要】:互聯(lián)網(wǎng)的快速發(fā)展使得網(wǎng)絡(luò)上的數(shù)據(jù)量急速增加,幾乎每一個(gè)被瀏覽的網(wǎng)頁中都包含了信息豐富的HTML表格,稱之為網(wǎng)絡(luò)表格。用戶通過搜索引擎查詢并獲取有用信息時(shí),網(wǎng)絡(luò)表格相對(duì)于文本等數(shù)據(jù)形式具有更好的結(jié)構(gòu)化特性,可以使人們非常清晰直觀地看到自己感興趣的信息。網(wǎng)絡(luò)表格擴(kuò)展是根據(jù)已知信息去擴(kuò)展與主列相關(guān)的其他屬性列信息,滿足用戶整合結(jié)構(gòu)化信息的需要。已有的表格擴(kuò)展查詢系統(tǒng)存在一定的局限性:一方面,這些系統(tǒng)主要針對(duì)由主列和待擴(kuò)展列組成的實(shí)體-屬性二元表進(jìn)行單列擴(kuò)展,將該算法用于多個(gè)待擴(kuò)展列的表格時(shí),多個(gè)二元表合并而成的結(jié)果容易出現(xiàn)實(shí)體不一致現(xiàn)象;另一方面,這些系統(tǒng)提供給用戶的結(jié)果表多數(shù)是唯一的,當(dāng)用戶想要根據(jù)機(jī)器提供的多列擴(kuò)展結(jié)果來檢查數(shù)據(jù)源,辨別或手動(dòng)修正一些錯(cuò)誤信息時(shí),唯一的結(jié)果表無法滿足用戶的篩選需求。針對(duì)以上問題,本文對(duì)網(wǎng)絡(luò)表格擴(kuò)展做了深入研究,具體工作如下:(1)為了避免不一致現(xiàn)象的發(fā)生,本文根據(jù)列重合度設(shè)計(jì)列映射算法,實(shí)現(xiàn)了基于列重合度的網(wǎng)絡(luò)表格一致性擴(kuò)展方法(Column-Overlap Consistent Augmentation,CCA)。CCA方法對(duì)查詢表進(jìn)行預(yù)處理,綜合考慮各個(gè)屬性列間以及各元組行之間的關(guān)系,首次提出一致性支持度的概念,并將一致性支持度應(yīng)用于填值算法。相關(guān)實(shí)驗(yàn)表明,CCA方法在多列擴(kuò)展問題上與現(xiàn)有方法相比有更高的精確度、覆蓋率和一致性,以及更低的查詢時(shí)間代價(jià)。CCA既能保證候選表的高支持度,又能使結(jié)果表中填值所使用的數(shù)據(jù)源數(shù)目最少,有效地避免了實(shí)體不一致問題。(2)為了滿足用戶的篩選需求,本文在CCA方法的基礎(chǔ)上改進(jìn)填值算法,設(shè)計(jì)并實(shí)現(xiàn)了網(wǎng)絡(luò)表格的Top-k擴(kuò)展方法(Top-k Augmentation of Web Table,TAT),提出Top-k支持度的概念,實(shí)現(xiàn)互斥型和迭代型Top-k擴(kuò)展算法,根據(jù)用戶需求迭代給出Top-k個(gè)多樣化結(jié)果供用戶篩選和修正。實(shí)驗(yàn)表明,TAT很好地實(shí)現(xiàn)了 Top-k結(jié)果表的展現(xiàn),各個(gè)結(jié)果表的可靠性和結(jié)果集的多樣性均呈現(xiàn)出理想水平。
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP393.092

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 楊林青;插圖與表格的規(guī)范化[J];華東電力;2001年04期

2 金穎云;怎樣把表格里的行數(shù)據(jù)轉(zhuǎn)成列數(shù)據(jù)[J];電腦知識(shí)與技術(shù);2002年07期

3 ;善用表格讓辦公更輕松[J];電腦愛好者;2009年18期

4 金穎云;;怎樣把表格里的行數(shù)據(jù)轉(zhuǎn)成列數(shù)據(jù)[J];軟件;2003年11期

5 陳桂鑫;表格數(shù)據(jù) 頁頁心中有數(shù)[J];電腦愛好者;2004年24期

6 毛毛蟲;;Word表格行數(shù)據(jù)移動(dòng)有快招[J];電腦迷;2008年12期

7 阮慧寧;;表格中數(shù)據(jù)的編輯加工技巧[J];科技與出版;2011年07期

8 徐群;;通用表格生成系統(tǒng)的實(shí)現(xiàn)[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年18期

9 張平,黃尚康,潘保昌;一種復(fù)雜表格識(shí)別和處理方法[J];電子科學(xué)學(xué)刊;1994年03期

10 梁虹,李天牧;一種通用的表格自動(dòng)處理系統(tǒng)[J];云南大學(xué)學(xué)報(bào)(自然科學(xué)版);1995年01期

中國重要會(huì)議論文全文數(shù)據(jù)庫 前6條

1 靳忠;李橫;李萌;;ASP.NET中動(dòng)態(tài)表格的實(shí)現(xiàn)[A];全國ISNBM學(xué)術(shù)交流會(huì)暨電腦開發(fā)與應(yīng)用創(chuàng)刊20周年慶祝大會(huì)論文集[C];2005年

2 張慧;李學(xué)慶;;基于模型驅(qū)動(dòng)的表格識(shí)別[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年

3 王輝;楊凱;郎士寧;馮少華;王月蓉;;.Net控制Excel自動(dòng)生成表格的應(yīng)用研究[A];計(jì)算機(jī)研究新進(jìn)展(2010)——河南省計(jì)算機(jī)學(xué)會(huì)2010年學(xué)術(shù)年會(huì)論文集[C];2010年

4 高景;;“Word計(jì)算和排序表格數(shù)據(jù)”教學(xué)設(shè)計(jì)[A];2012年河北省教師教育學(xué)會(huì)教學(xué)設(shè)計(jì)主題論壇論文集[C];2012年

5 白慧敏;;基于Moodle平臺(tái)的《表格數(shù)據(jù)的圖形化》網(wǎng)絡(luò)教學(xué)案例[A];河北省教師教育學(xué)會(huì)第二屆中小學(xué)教師教學(xué)案例展論文集[C];2013年

6 袁鴻雁;;Web表格信息抽取技術(shù)的研究[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年

中國重要報(bào)紙全文數(shù)據(jù)庫 前4條

1 伊禮俊;如何讓海量數(shù)據(jù)自動(dòng)進(jìn)電腦[N];中國計(jì)算機(jī)報(bào);2007年

2 江蘇 羅松林;Word 2000表格中的計(jì)算方法[N];中國電腦教育報(bào);2001年

3 本報(bào)記者 張智江;中外管理軟件大比拼[N];通信信息報(bào);2003年

4 河北 劉勇;Help Me[N];電腦報(bào);2004年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 史廣順;文檔圖像中表格結(jié)構(gòu)的自動(dòng)定位與分析[D];南開大學(xué);2003年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 劉華西;基于眾包的網(wǎng)絡(luò)表格語義恢復(fù)[D];北京交通大學(xué);2016年

2 曹貞興;Web表格數(shù)據(jù)提取與分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年

3 劉巖;網(wǎng)頁中實(shí)體表格信息抽取方法的研究[D];北京工業(yè)大學(xué);2016年

4 張麗方;網(wǎng)絡(luò)表格的實(shí)體列發(fā)現(xiàn)方法研究[D];北京交通大學(xué);2017年

5 齊飛;網(wǎng)絡(luò)表格擴(kuò)展技術(shù)研究[D];北京交通大學(xué);2017年

6 王小鳳;表格數(shù)據(jù)的采集和處理[D];蘇州大學(xué);2002年

7 羅靜;互聯(lián)網(wǎng)表格數(shù)據(jù)的語義恢復(fù)[D];北京交通大學(xué);2014年

8 任向冉;網(wǎng)絡(luò)表格的實(shí)體列發(fā)現(xiàn)與標(biāo)識(shí)[D];北京交通大學(xué);2015年

9 任紅偉;網(wǎng)絡(luò)表格間的關(guān)聯(lián)關(guān)系發(fā)現(xiàn)[D];北京交通大學(xué);2015年

10 潘小燕;半結(jié)構(gòu)化文本中的表格信息抽取技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2007年

,

本文編號(hào):1265947

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1265947.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶60998***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com