基于DOM樹層次特征的多記錄網(wǎng)頁抽取
發(fā)布時間:2018-07-12 16:11
本文選題:信息抽取 + 多記錄網(wǎng)頁; 參考:《模式識別與人工智能》2015年02期
【摘要】:現(xiàn)有的多記錄網(wǎng)頁抽取方法通常是對文件對象模型(DOM)樹進行整體縱向結構分析,計算的結構相似度普遍偏低,使其不能正確識別記錄區(qū)域.文中提出基于DOM樹層次特征的記錄抽取方法,該方法利用DOM樹不同層次節(jié)點的不同作用對其進行橫向分析,將尋找相似子樹的問題轉換為尋找節(jié)點塊的相似子塊,最后采用雙向拓展搜索非重疊重復子塊進行記錄分隔.實驗表明該方法能抽取現(xiàn)有抽取器無法處理的頁面,多個數(shù)據(jù)源的抽取結果驗證其有效性.
[Abstract]:The existing multi-record web page extraction methods usually analyze the whole vertical structure of the file object model (Dom) tree, and the calculated structural similarity is generally low, which makes it unable to identify the recording region correctly. In this paper, a record extraction method based on the hierarchical feature of Dom tree is proposed. The method uses the different functions of different nodes in Dom tree to analyze it horizontally, and the problem of finding similar subtree is transformed into finding similar sub-block of node block. Finally, two-way extended search non-overlapping repeat blocks are used to separate the records. Experiments show that the proposed method can extract pages that cannot be processed by existing extractors, and the results of multiple data sources verify its effectiveness.
【作者單位】: 福州大學數(shù)學與計算機科學學院;
【基金】:國家自然科學基金青年科學基金項目(No.61300105) 教育部博士點基金聯(lián)合項目(No.2012351410010) 福建省科技重大專項項目(No.2013H6012) 福州市科技計劃項目(No.2013-PT-45)資助
【分類號】:TP393.092;TP391.1
【相似文獻】
相關期刊論文 前10條
1 彭文滔;葉飛躍;李霞;員紅娟;;信息抽取中基于DOM樹的過濾器方法的研究[J];微計算機信息;2008年30期
2 王磊;蔣建中;郭軍利;;基于擴展DOM樹的Web頁面信息抽取[J];計算機應用與軟件;2007年06期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
相關碩士學位論文 前1條
1 李冬;基于DOM樹的Deep Web實體抽取的研究與實現(xiàn)[D];東北大學;2008年
,本文編號:2117711
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2117711.html
最近更新
教材專著