Web表格的實體列發(fā)現(xiàn)算法
本文選題:Web表格 + 實體列。 參考:《計算機工程》2017年12期
【摘要】:針對機器無法理解Web表格語義信息的問題,傳統(tǒng)的實體列發(fā)現(xiàn)方法通常依靠表頭信息和知識庫發(fā)現(xiàn)實體列,不適用于沒有表頭的Web表格。為此,提出一種基于列值間近似依賴關(guān)系和規(guī)范化的Web表格實體列發(fā)現(xiàn)算法,對無表頭或者無法恢復(fù)出完整表頭的表格甚至多實體列表格進行實體列標(biāo)注。由Web表格中的屬性值探測出Web表格屬性間內(nèi)在的近似函數(shù)依賴關(guān)系,根據(jù)Web表格的特點對噪聲函數(shù)依賴進行刪減,通過函數(shù)依賴集進行規(guī)范化,得到Web表格的實體列。與利用知識庫進行實體列探測的算法相比,該算法不依賴表頭信息,召回率和精確度均提高了3%~5%,適用性更強。
[Abstract]:To solve the problem that the machine can not understand the semantic information of Web tables, traditional entity column discovery methods usually rely on header information and knowledge base to find entity columns, which is not suitable for Web tables without header. In this paper, an entity column discovery algorithm based on the approximate dependency between column values and canonical Web table entity column discovery is proposed, which can annotate the entity column of the table without or without the complete header or even the multi-entity list lattice. The intrinsic approximate functional dependencies among the attributes of the Web table are detected from the attribute values in the Web table. According to the characteristics of the Web table, the noise function dependency is deleted, and the entity column of the Web table is obtained through the normalization of the function dependency set. Compared with the algorithm using knowledge base for entity column detection, the algorithm does not rely on header information, and the recall rate and accuracy are increased by 3% and 5%, and the applicability of the algorithm is stronger.
【作者單位】: 北京交通大學(xué)計算機與信息技術(shù)學(xué)院;
【基金】:國家自然科學(xué)基金(61370060)
【分類號】:TP301.6
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李廣洲,丁金芳,鄧海山;基于Web的化學(xué)計算機化自適應(yīng)測驗系統(tǒng)的實現(xiàn)[J];計算機與應(yīng)用化學(xué);2002年05期
2 趙松林;基于Web服務(wù)的企業(yè)應(yīng)用集成[J];微型機與應(yīng)用;2003年08期
3 宋平;;基于Web服務(wù)的企業(yè)應(yīng)用集成[J];福建電腦;2007年10期
4 彭玉華;;基于Web的學(xué)生信息管理系統(tǒng)的設(shè)計與實現(xiàn)[J];民營科技;2010年09期
5 ;借會獻(xiàn)技——國際軟件博覽會中心議題web計算及應(yīng)用[J];每周電腦報;1997年43期
6 向劍鋒;;基于Web的企業(yè)信息管理系統(tǒng)安全方案[J];信息與電腦(理論版);2013年11期
7 張彩虹;;分布式虛擬現(xiàn)實系統(tǒng)Web服務(wù)器的設(shè)計與實現(xiàn)[J];計算機光盤軟件與應(yīng)用;2014年05期
8 黃建德;黃其標(biāo);;基于WEB的學(xué)生信息管理系統(tǒng)的研究與構(gòu)建[J];計算機光盤軟件與應(yīng)用;2014年02期
9 黃廷輝,朱英;一種基于WEB的車輛調(diào)度管理系統(tǒng)[J];桂林電子工業(yè)學(xué)院學(xué)報;2000年03期
10 李陶深,劉波,楊柳,嚴(yán)毅;基于Web的多媒體檔案管理信息系統(tǒng)設(shè)計與實現(xiàn)[J];廣西科學(xué)院學(xué)報;2000年S1期
相關(guān)會議論文 前10條
1 王衛(wèi);;基于Web的數(shù)據(jù)庫應(yīng)用[A];第十八屆中國(天津)’2004IT、網(wǎng)絡(luò)、信息技術(shù)、電子、儀器儀表創(chuàng)新學(xué)術(shù)會議論文集[C];2004年
2 張默;廖湖聲;杜金蓮;;基于Web服務(wù)的開放式地理信息系統(tǒng)的研究[A];2006年全國開放式分布與并行計算機學(xué)術(shù)會議論文集(三)[C];2006年
3 鄭菊艷;續(xù)愛民;;基于WEB模式的科研項目管理系統(tǒng)的設(shè)計與實現(xiàn)[A];第十四屆中國科協(xié)年會第5分會場:綠色船舶與海洋裝備創(chuàng)新發(fā)展及產(chǎn)業(yè)化論壇論文集[C];2012年
4 鄭菊艷;續(xù)愛民;;基于WEB模式的科研項目管理系統(tǒng)的設(shè)計與實現(xiàn)[A];2012年MIS/S&A學(xué)術(shù)交流會議論文集[C];2012年
5 于莉莉;張毅;;基于Web的人力資源管理系統(tǒng)研究與設(shè)計[A];2008全國制造業(yè)信息化標(biāo)準(zhǔn)化論壇論文集[C];2008年
6 劉穎;;基于Web的學(xué)生信息管理系統(tǒng)的設(shè)計與實現(xiàn)[A];2008年計算機應(yīng)用技術(shù)交流會論文集[C];2008年
7 靳忠;李橫;李萌;;ASP.NET中動態(tài)表格的實現(xiàn)[A];全國ISNBM學(xué)術(shù)交流會暨電腦開發(fā)與應(yīng)用創(chuàng)刊20周年慶祝大會論文集[C];2005年
8 粟智;;基于Web技術(shù)下的分析實驗室計算機網(wǎng)絡(luò)管理系統(tǒng)的開發(fā)與設(shè)計[A];2003年藥物分析論壇“熱分析在藥物分析中的應(yīng)用”專題學(xué)術(shù)研討會論文集[C];2003年
9 張慧;李學(xué)慶;;基于模型驅(qū)動的表格識別[A];第六屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計算學(xué)術(shù)會議(PCC2010)論文集[C];2010年
10 胡新平;董建成;;基于Web的遠(yuǎn)程醫(yī)療會診系統(tǒng)[A];中華醫(yī)學(xué)會第十次全國醫(yī)學(xué)信息學(xué)術(shù)會議論文匯編[C];2004年
相關(guān)重要報紙文章 前10條
1 伊禮俊;如何讓海量數(shù)據(jù)自動進電腦[N];中國計算機報;2007年
2 王雅麗;博客社區(qū)齊上陣 銀行借Web 2.0拉攏未來客戶[N];中國計算機報;2008年
3 本報記者 黃智軍;Web應(yīng)用呼喚新型安全系統(tǒng)[N];計算機世界;2009年
4 本報記者 徐恒;手機瀏覽器:競爭不斷加劇 Web大勢所趨[N];中國電子報;2009年
5 訊源;企業(yè)引入Web 2.0的5項忠告[N];計算機世界;2007年
6 迅源;企業(yè)為何害怕Web 2.0?[N];計算機世界;2007年
7 河南省文物考古研究所 北京大學(xué)考古文博學(xué)院 張!》窖嗝;以WEB和3S技術(shù)為支持的南水北調(diào)禹州段考古區(qū)域系統(tǒng)調(diào)查取得初步成果[N];中國文物報;2012年
8 王磊;如何通過Web 2.0贏取客戶[N];中國計算機報;2008年
9 于翔;Web應(yīng)用安全任重道遠(yuǎn)[N];網(wǎng)絡(luò)世界;2008年
10 江蘇 羅松林;Word 2000表格中的計算方法[N];中國電腦教育報;2001年
相關(guān)博士學(xué)位論文 前9條
1 黃治虎;基于網(wǎng)頁信息和圖像特征的Web圖像檢索研究[D];重慶大學(xué);2015年
2 張璞;Web評論文本情感分類方法研究[D];重慶大學(xué);2015年
3 劉維東;Web短文本知識關(guān)聯(lián)模型及其語義連貫計算方法[D];上海大學(xué);2016年
4 孫慧峰;基于協(xié)同過濾的個性化Web推薦[D];北京郵電大學(xué);2012年
5 何儒漢;Web圖像的多模融合檢索研究[D];華中科技大學(xué);2007年
6 史廣順;文檔圖像中表格結(jié)構(gòu)的自動定位與分析[D];南開大學(xué);2003年
7 孫濤;面向市場情報分析的Web實體事件融合問題研究[D];山東大學(xué);2014年
8 許洪波;大規(guī)模信息過濾技術(shù)研究及其在Web問答系統(tǒng)中的應(yīng)用[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2003年
9 韓志剛;地理超媒體數(shù)據(jù)模型及Web服務(wù)研究[D];河南大學(xué);2011年
相關(guān)碩士學(xué)位論文 前10條
1 張銳;基于Web技術(shù)下的出差管理系統(tǒng)[D];西安工業(yè)大學(xué);2015年
2 游維;基于Rest的Web業(yè)務(wù)系統(tǒng)日志采集與分析系統(tǒng)的研究與開發(fā)[D];山東大學(xué);2015年
3 陶瑩昌;基于Web的校園二手圖書拍賣平臺的設(shè)計與實現(xiàn)[D];西華師范大學(xué);2015年
4 周贏;基于WEB的績效管理系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2015年
5 吳朝云;基于eyeOS的Web操作系統(tǒng)云存儲研究[D];電子科技大學(xué);2014年
6 林嵐;基于WEB的單位工資管理系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
7 武志國;基于Web的人力資源管理系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
8 王雁;基于WEB的三維動畫素材管理系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2013年
9 張靈鈺;基于web平臺的高校學(xué)生工作管理系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2013年
10 馮庚;基于WEB的智能油庫信息管理系統(tǒng)設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
,本文編號:1896365
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1896365.html