一種基于視覺特征的Deep Web信息抽取方法

發(fā)布時(shí)間：2018-10-09 07:16

【摘要】：隨著Web數(shù)據(jù)庫(kù)的不斷增長(zhǎng),大量網(wǎng)絡(luò)信息通過普通搜索引擎難以滿足用戶的需求,需要用戶提交表單查詢并從后臺(tái)數(shù)據(jù)庫(kù)中返回結(jié)果頁(yè)面才能獲取到想要的信息,稱為Deep Web。因此如何有效地抽取這些實(shí)體信息成為一個(gè)值得研究的問題。論文通過分析Deep Web結(jié)果頁(yè)面的特點(diǎn),結(jié)合人的視覺特征,提出了一種基于視覺特征的Deep Web信息抽取方法。該方法充分利用了人的視覺特征,在解析器將Web文檔解析成語法樹之前,將Web頁(yè)面一些與主題無關(guān)的信息(例如導(dǎo)航欄、廣告)等去除,并對(duì)優(yōu)化后的DOM樹利用VIPS算法對(duì)其進(jìn)行語義分塊,分塊后根據(jù)位置特征首先尋找到基準(zhǔn)視覺塊,以該基準(zhǔn)視覺塊作為中心位置逆序和順序遍歷DOM樹尋找所有相似的視覺塊并對(duì)其進(jìn)行抽取。從實(shí)驗(yàn)效果來看,該方法從提取信息速度和提取信息的準(zhǔn)確率和完整率方面與傳統(tǒng)方法相比都有一定的提高。
[Abstract]:With the continuous growth of Web database, a large amount of network information can not meet the needs of users through the ordinary search engine. It requires users to submit form queries and return the results page from the background database to get the desired information, called Deep Web.. Therefore, how to extract these entity information effectively becomes a problem worth studying. By analyzing the characteristics of the Deep Web result page and combining the human visual features, a Deep Web information extraction method based on visual features is proposed in this paper. This method makes full use of human visual features. Before parser parses Web documents into syntax trees, it removes some topic-independent information (such as navigation bar, advertising) from Web pages. The optimized DOM tree is divided into semantic blocks by using VIPS algorithm, and the reference visual blocks are first found according to the location features. The reference visual block is used as the center position to traverse the DOM tree in reverse order and order to find all the similar visual blocks and extract them. The experimental results show that this method can improve the speed of information extraction and the accuracy and completeness of information extraction.
【作者單位】：上海師范大學(xué);
【分類號(hào)】：TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 石楨;姚天f ;;一種基于統(tǒng)計(jì)和規(guī)則的核心地名抽取方法[J];微型電腦應(yīng)用;2013年02期

2 張世輝;一種新的基于距離的漢字筆畫抽取方法[J];計(jì)算機(jī)工程;2003年14期

3 王大亮;涂序彥;鄭雪峰;佟子健;;多策略融合的搭配抽取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期

4 楊建明;;關(guān)系抽取方法研究[J];電子技術(shù);2009年04期

5 孫繼鵬;賈民;劉增寶;;一種面向文本的概念抽取方法的研究[J];計(jì)算機(jī)應(yīng)用與軟件;2009年09期

6 鄭偉;呂建新;張建偉;;文本分類中特征預(yù)抽取方法研究[J];情報(bào)科學(xué);2011年01期

7 肖明軍,張巍,鄒翔,蔡慶生;一種多策略聯(lián)合信息抽取方法[J];小型微型計(jì)算機(jī)系統(tǒng);2005年04期

8 郝博一;夏云慶;鄔曉鈞;鄭方;劉軼;;基于泛化和繁殖的自舉式意見目標(biāo)抽取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年S1期

9 栗春亮;朱艷輝;徐葉強(qiáng);;中文產(chǎn)品評(píng)論中屬性詞抽取方法研究[J];計(jì)算機(jī)工程;2011年12期

10 蔡虹,葉水生;基于KPS的Web信息抽取[J];計(jì)算機(jī)與現(xiàn)代化;2005年06期

相關(guān)會(huì)議論文前10條

1 宋濤;李素建;;基于流形排序的領(lǐng)域詞抽取方法[A];第五屆全國(guó)青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年

2 卞真旭;;一種關(guān)鍵詞抽取方法研究[A];2011年安徽省智能電網(wǎng)技術(shù)論壇論文集[C];2011年

3 羅斐;毛宇光;;基于領(lǐng)域分類的查詢接口模式抽取方法[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年

4 栗春亮;朱艷輝;徐葉強(qiáng);;中文產(chǎn)品評(píng)論中屬性詞抽取方法研究[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

5 劉昊;王健;林鴻飛;;一種模板與圖核融合的蛋白質(zhì)關(guān)系抽取方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

6 翁偉;王厚峰;;基于LDA的關(guān)鍵詞抽取方法[A];第五屆全國(guó)青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年

7 何莉;林鴻飛;;一種面向WEB的生物醫(yī)學(xué)領(lǐng)域英漢術(shù)語翻譯對(duì)抽取方法[A];中國(guó)計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展（2007-2009）[C];2009年

8 左云存;宗成慶;;基于HMM的短語翻譯對(duì)抽取方法[A];全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議（JSCL-2005）論文集[C];2005年

9 王裴巖;張桂平;白宇;;一種基于核函數(shù)的技術(shù)關(guān)鍵詞連接關(guān)系抽取方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年

10 蒲宇達(dá);關(guān)毅;王強(qiáng);;基于數(shù)據(jù)挖掘思想的網(wǎng)頁(yè)正文抽取方法的研究[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

相關(guān)博士學(xué)位論文前1條

1 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年

相關(guān)碩士學(xué)位論文前10條

1 陳倩;基于特征模型的跨領(lǐng)域信息抽取方法研究[D];上海大學(xué);2015年

2 劉驍;基于產(chǎn)品評(píng)論的意見抽取方法研究[D];黑龍江大學(xué);2015年

3 呂云云;基于集成學(xué)習(xí)的中文觀點(diǎn)句抽取方法研究[D];山西大學(xué);2013年

4 楊云;基于句法結(jié)構(gòu)的評(píng)價(jià)對(duì)象抽取方法研究[D];東北師范大學(xué);2015年

5 方瑩;基于句子聚類的信息抽取方法研究[D];山西大學(xué);2005年

6 徐曉明;面向手機(jī)用戶的社團(tuán)抽取方法研究[D];吉林大學(xué);2014年

7 李震;基于聚類的事件蘊(yùn)涵抽取方法研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2011年

8 王立;中文復(fù)述模板及搭配抽取方法研究[D];華中師范大學(xué);2013年

9 張文文;網(wǎng)絡(luò)文本觀點(diǎn)句抽取方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2012年

10 王強(qiáng);基于結(jié)構(gòu)化預(yù)測(cè)模型的企業(yè)信息聯(lián)合抽取方法研究[D];南京師范大學(xué);2014年

，

本文編號(hào)：2258448

資料下載

論文發(fā)表

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2258448.html

上一篇：基于個(gè)性化預(yù)測(cè)的推送算法研究
下一篇：融合搜索引擎結(jié)果集的模糊積分算法

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于視覺特征的Deep Web信息抽取方法