基于模板與視覺(jué)特征的Web數(shù)據(jù)抽取技術(shù)研究
發(fā)布時(shí)間:2020-12-04 09:44
隨著Web數(shù)據(jù)庫(kù)的不斷增長(zhǎng),通過(guò)查詢(xún)接口訪(fǎng)問(wèn)獲得以HTML頁(yè)面形式動(dòng)態(tài)呈現(xiàn)的Web資源逐漸成為信息獲取的主要手段,有效獲取并集成分布在Web上的各數(shù)據(jù)庫(kù)資源具有重要的現(xiàn)實(shí)意義與廣闊的應(yīng)用前景。本文以Web數(shù)據(jù)庫(kù)資源獲取與集成為出發(fā)點(diǎn),針對(duì)Web數(shù)據(jù)的異構(gòu)、動(dòng)態(tài)、多源特性導(dǎo)致現(xiàn)有Web數(shù)據(jù)抽取方法抽取準(zhǔn)確率低、抽取效率不高、無(wú)法集成多源數(shù)據(jù)等問(wèn)題,提出了基于視覺(jué)的Web數(shù)據(jù)抽取、Web數(shù)據(jù)模板構(gòu)造和多源Web數(shù)據(jù)融合等改進(jìn)方法,論文的主要工作如下:(1)根據(jù)Web數(shù)據(jù)記錄視覺(jué)特征,研究查詢(xún)結(jié)果頁(yè)面數(shù)據(jù)記錄的結(jié)構(gòu)相似性和文本組織形式多樣性,針對(duì)現(xiàn)有Web數(shù)據(jù)抽取方法無(wú)法準(zhǔn)確抽取Web數(shù)據(jù)記錄,提出了基于視覺(jué)與DOM樹(shù)的Web數(shù)據(jù)定位與抽。╒ision and DOM-tree based Web data Location and Extraction,VDLE)方法。該方法引入視覺(jué)塊重心偏移量定位數(shù)據(jù)區(qū)域,利用譜聚類(lèi)算法定位數(shù)據(jù)區(qū)域內(nèi)結(jié)構(gòu)相似的節(jié)點(diǎn)簇,并結(jié)合文本組織多樣性對(duì)數(shù)據(jù)記錄進(jìn)行定位。實(shí)驗(yàn)結(jié)果表明,VDLE的抽取結(jié)果查準(zhǔn)率為99%,比基于DOM樹(shù)的Deep Web實(shí)體抽取機(jī)制(D...
【文章來(lái)源】:重慶交通大學(xué)重慶市
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文組織結(jié)構(gòu)
定位數(shù)據(jù)區(qū)域內(nèi)結(jié)構(gòu)相似的節(jié)點(diǎn)簇,并結(jié)合文本。抽取相關(guān)概念與樹(shù)路徑相似度層次結(jié)構(gòu)展示 HTML 文檔,提供訪(fǎng)問(wèn)、操作構(gòu)口,允許程序、腳本動(dòng)態(tài)訪(fǎng)問(wèn)并更新 HTML 文中,節(jié)點(diǎn)類(lèi)型分為根節(jié)點(diǎn)、中間節(jié)點(diǎn)、葉子節(jié)點(diǎn) 樹(shù)頂端;中間節(jié)點(diǎn)擁有父節(jié)點(diǎn)與子節(jié)點(diǎn),是連子節(jié)點(diǎn)沒(méi)有子節(jié)點(diǎn),其內(nèi)容直接展示在頁(yè)面上。系,同一父節(jié)點(diǎn)的節(jié)點(diǎn)之間構(gòu)成兄弟關(guān)系。DO到葉子結(jié)點(diǎn)所經(jīng)過(guò)的節(jié)點(diǎn)標(biāo)簽組成的序列。D
J( a,b)C為節(jié)點(diǎn)a與節(jié)點(diǎn)b的杰卡德相似系數(shù),集合 A B為節(jié)點(diǎn) a 與節(jié)點(diǎn) b 的最近公共父節(jié)點(diǎn)對(duì)應(yīng)的樹(shù)路徑上的節(jié)點(diǎn)集合,集合 A B為節(jié)點(diǎn)a與節(jié)點(diǎn)b樹(shù)路徑上的總節(jié)點(diǎn)集合,| A B|為集合 A B中節(jié)點(diǎn)的數(shù)目,| A |與 | B |分別表示集合 A 與集合 B 中節(jié)點(diǎn)的數(shù)目。2.1.2 頁(yè)面分割算法作為微軟下一代搜索引擎核心分頁(yè)算法,VIPS 利用頁(yè)面布局結(jié)構(gòu)對(duì)網(wǎng)頁(yè)進(jìn)行分塊。VIPS 定義 Web 頁(yè)面的結(jié)構(gòu)如下: ( , , )(2.2)其中, (...)1 2N , ,, ,表示頁(yè)面中的所有視覺(jué)塊集合,視覺(jué)塊之間沒(méi)有任何重疊,每個(gè)視覺(jué)塊可以迭代表示; (...)1 2T , ,, ,表示頁(yè)面中所有分割條的集合,由 中兩個(gè)視覺(jué)塊確定; (...)1 2M , , ,代表集合 中兩個(gè)視覺(jué)塊之間的關(guān)系,表示為 {NULL}。如 NULLij ( , ) 表示相鄰視覺(jué)塊i 與j 之間存在分割條 ()ij , 。VIPS 工作流程如下:
【參考文獻(xiàn)】:
期刊論文
[1]基于知網(wǎng)與搜索引擎的詞匯語(yǔ)義相似度計(jì)算[J]. 吳克介,王家偉. 計(jì)算機(jī)與現(xiàn)代化. 2018(04)
[2]針對(duì)開(kāi)源論壇網(wǎng)頁(yè)的信息抽取研究[J]. 劉春梅,郭巖,俞曉明,趙嶺,劉悅,程學(xué)旗. 計(jì)算機(jī)科學(xué)與探索. 2017(01)
[3]基于2008版《知網(wǎng)》的詞語(yǔ)相似度計(jì)算方法[J]. 魏韡,向陽(yáng). 計(jì)算機(jī)工程. 2015(09)
[4]Deep Web數(shù)據(jù)采集查詢(xún)構(gòu)造方法研究[J]. 林海倫,楊曉剛,熊錦華,王元卓,賈巖濤,程學(xué)旗. 計(jì)算機(jī)科學(xué)與探索. 2015(09)
[5]信息抽取研究綜述[J]. 郭喜躍,何婷婷. 計(jì)算機(jī)科學(xué). 2015(02)
[6]基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度改進(jìn)算法研究[J]. 張滬寅,劉道波,溫春艷. 計(jì)算機(jī)工程. 2015(02)
[7]基于視覺(jué)特征的就業(yè)信息頁(yè)面抽取方法[J]. 張昕,鄂海紅,宋美娜,楊俊. 軟件. 2014(09)
[8]一種基于HowNet的詞語(yǔ)語(yǔ)義相似度計(jì)算方法[J]. 范弘屹,張仰森. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(04)
[9]使用網(wǎng)絡(luò)搜索引擎計(jì)算漢語(yǔ)詞匯的語(yǔ)義相似度[J]. 高國(guó)強(qiáng),黃呂威,陳豐鈺. 計(jì)算機(jī)技術(shù)與發(fā)展. 2014(07)
[10]基于本體的語(yǔ)義相似度算法研究[J]. 賀元香,史寶明,張永. 計(jì)算機(jī)應(yīng)用與軟件. 2013(11)
碩士論文
[1]Web數(shù)據(jù)集成中包裝器自適應(yīng)方法研究[D]. 羅偉.山東大學(xué) 2011
本文編號(hào):2897379
【文章來(lái)源】:重慶交通大學(xué)重慶市
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
論文組織結(jié)構(gòu)
定位數(shù)據(jù)區(qū)域內(nèi)結(jié)構(gòu)相似的節(jié)點(diǎn)簇,并結(jié)合文本。抽取相關(guān)概念與樹(shù)路徑相似度層次結(jié)構(gòu)展示 HTML 文檔,提供訪(fǎng)問(wèn)、操作構(gòu)口,允許程序、腳本動(dòng)態(tài)訪(fǎng)問(wèn)并更新 HTML 文中,節(jié)點(diǎn)類(lèi)型分為根節(jié)點(diǎn)、中間節(jié)點(diǎn)、葉子節(jié)點(diǎn) 樹(shù)頂端;中間節(jié)點(diǎn)擁有父節(jié)點(diǎn)與子節(jié)點(diǎn),是連子節(jié)點(diǎn)沒(méi)有子節(jié)點(diǎn),其內(nèi)容直接展示在頁(yè)面上。系,同一父節(jié)點(diǎn)的節(jié)點(diǎn)之間構(gòu)成兄弟關(guān)系。DO到葉子結(jié)點(diǎn)所經(jīng)過(guò)的節(jié)點(diǎn)標(biāo)簽組成的序列。D
J( a,b)C為節(jié)點(diǎn)a與節(jié)點(diǎn)b的杰卡德相似系數(shù),集合 A B為節(jié)點(diǎn) a 與節(jié)點(diǎn) b 的最近公共父節(jié)點(diǎn)對(duì)應(yīng)的樹(shù)路徑上的節(jié)點(diǎn)集合,集合 A B為節(jié)點(diǎn)a與節(jié)點(diǎn)b樹(shù)路徑上的總節(jié)點(diǎn)集合,| A B|為集合 A B中節(jié)點(diǎn)的數(shù)目,| A |與 | B |分別表示集合 A 與集合 B 中節(jié)點(diǎn)的數(shù)目。2.1.2 頁(yè)面分割算法作為微軟下一代搜索引擎核心分頁(yè)算法,VIPS 利用頁(yè)面布局結(jié)構(gòu)對(duì)網(wǎng)頁(yè)進(jìn)行分塊。VIPS 定義 Web 頁(yè)面的結(jié)構(gòu)如下: ( , , )(2.2)其中, (...)1 2N , ,, ,表示頁(yè)面中的所有視覺(jué)塊集合,視覺(jué)塊之間沒(méi)有任何重疊,每個(gè)視覺(jué)塊可以迭代表示; (...)1 2T , ,, ,表示頁(yè)面中所有分割條的集合,由 中兩個(gè)視覺(jué)塊確定; (...)1 2M , , ,代表集合 中兩個(gè)視覺(jué)塊之間的關(guān)系,表示為 {NULL}。如 NULLij ( , ) 表示相鄰視覺(jué)塊i 與j 之間存在分割條 ()ij , 。VIPS 工作流程如下:
【參考文獻(xiàn)】:
期刊論文
[1]基于知網(wǎng)與搜索引擎的詞匯語(yǔ)義相似度計(jì)算[J]. 吳克介,王家偉. 計(jì)算機(jī)與現(xiàn)代化. 2018(04)
[2]針對(duì)開(kāi)源論壇網(wǎng)頁(yè)的信息抽取研究[J]. 劉春梅,郭巖,俞曉明,趙嶺,劉悅,程學(xué)旗. 計(jì)算機(jī)科學(xué)與探索. 2017(01)
[3]基于2008版《知網(wǎng)》的詞語(yǔ)相似度計(jì)算方法[J]. 魏韡,向陽(yáng). 計(jì)算機(jī)工程. 2015(09)
[4]Deep Web數(shù)據(jù)采集查詢(xún)構(gòu)造方法研究[J]. 林海倫,楊曉剛,熊錦華,王元卓,賈巖濤,程學(xué)旗. 計(jì)算機(jī)科學(xué)與探索. 2015(09)
[5]信息抽取研究綜述[J]. 郭喜躍,何婷婷. 計(jì)算機(jī)科學(xué). 2015(02)
[6]基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度改進(jìn)算法研究[J]. 張滬寅,劉道波,溫春艷. 計(jì)算機(jī)工程. 2015(02)
[7]基于視覺(jué)特征的就業(yè)信息頁(yè)面抽取方法[J]. 張昕,鄂海紅,宋美娜,楊俊. 軟件. 2014(09)
[8]一種基于HowNet的詞語(yǔ)語(yǔ)義相似度計(jì)算方法[J]. 范弘屹,張仰森. 北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版). 2014(04)
[9]使用網(wǎng)絡(luò)搜索引擎計(jì)算漢語(yǔ)詞匯的語(yǔ)義相似度[J]. 高國(guó)強(qiáng),黃呂威,陳豐鈺. 計(jì)算機(jī)技術(shù)與發(fā)展. 2014(07)
[10]基于本體的語(yǔ)義相似度算法研究[J]. 賀元香,史寶明,張永. 計(jì)算機(jī)應(yīng)用與軟件. 2013(11)
碩士論文
[1]Web數(shù)據(jù)集成中包裝器自適應(yīng)方法研究[D]. 羅偉.山東大學(xué) 2011
本文編號(hào):2897379
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2897379.html
最近更新
教材專(zhuān)著