面向不規(guī)則列表的網(wǎng)頁數(shù)據(jù)抽取技術(shù)的研究
發(fā)布時間:2017-08-03 06:20
本文關(guān)鍵詞:面向不規(guī)則列表的網(wǎng)頁數(shù)據(jù)抽取技術(shù)的研究
更多相關(guān)文章: 列表頁 網(wǎng)頁數(shù)據(jù)抽取 標(biāo)簽樹匹配 部分樹對齊
【摘要】:抽取列表頁中的列表數(shù)據(jù)可以用于進(jìn)一步的數(shù)據(jù)挖掘以及數(shù)據(jù)集成等系統(tǒng)。針對怎樣提高自動抽取列表頁數(shù)據(jù)的準(zhǔn)確率和適應(yīng)性進(jìn)行了研究。在研究已有的多數(shù)據(jù)區(qū)域挖掘算法和數(shù)據(jù)記錄識別算法的基礎(chǔ)上,針對列表頁數(shù)據(jù)記錄組織方式的多樣性改進(jìn)了數(shù)據(jù)記錄識別算法,提高了識別數(shù)據(jù)記錄的準(zhǔn)確率。而對于數(shù)據(jù)記錄之間的不規(guī)則性問題,在已有的標(biāo)簽樹匹配算法的基礎(chǔ)上加入了對節(jié)點內(nèi)容的考慮,提高了兩棵標(biāo)簽樹匹配的準(zhǔn)確率。根據(jù)構(gòu)成數(shù)據(jù)記錄的標(biāo)簽樹之間的匹配結(jié)果,再采用部分樹對齊算法生成一個數(shù)據(jù)記錄的最大匹配結(jié)構(gòu),進(jìn)而用于抽取出所有數(shù)據(jù)記錄。實驗結(jié)果表明,提出的改進(jìn)算法有效提高了自動抽取列表頁數(shù)據(jù)的準(zhǔn)確率和適應(yīng)性。
【作者單位】: 南京財經(jīng)大學(xué)信息工程學(xué)院;
【關(guān)鍵詞】: 列表頁 網(wǎng)頁數(shù)據(jù)抽取 標(biāo)簽樹匹配 部分樹對齊
【分類號】:TP393.092;TP391.1
【正文快照】: 0引言隨著當(dāng)今世界互聯(lián)網(wǎng)的飛速發(fā)展,Web已經(jīng)發(fā)展成為一個巨大的和共享的信息空間,這些大量的數(shù)據(jù)可以為進(jìn)一步的數(shù)據(jù)挖掘、數(shù)據(jù)集成等系統(tǒng)提供數(shù)據(jù)支持,因此,網(wǎng)頁數(shù)據(jù)抽取[1]將具有廣闊的前景和應(yīng)用價值。列表頁是其中一種很重要的富含數(shù)據(jù)的網(wǎng)頁,其特點是每一個頁面都含有一,
本文編號:613019
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/613019.html
最近更新
教材專著