頁面圖文模型與元素特征歸納
本文選題:頁面信息抽取 + 頁面元素 ; 參考:《計算機(jī)工程與科學(xué)》2013年04期
【摘要】:針對以圖文內(nèi)容為核心的頁面信息抽取,以形式化的方式提出了對頁面進(jìn)行元素分析的理論模型。通過定義基礎(chǔ)元素集與變換規(guī)則,頁面圖文模型簡化了頁面DOM樹結(jié)構(gòu),并展現(xiàn)出頁面內(nèi)元素的圖文特征。在此基礎(chǔ)上,通過定義元素分類相似度,從頁面圖文模型的元素特征中進(jìn)行優(yōu)選,歸納最佳分類特征,提出并實(shí)現(xiàn)了獲取最佳分類特征集與識別閾值的算法。實(shí)驗(yàn)結(jié)果表明,頁面圖文模型簡化了頁面元素的規(guī)模,特征集歸納算法能夠在較小的學(xué)習(xí)成本下獲得理想的分類精度。
[Abstract]:Aiming at the page information extraction with the content of graph and text as the core, a theoretical model for the element analysis of the page is put forward in a formalized way. By defining the basic element set and transformation rules, the page text model simplifies the structure of the page DOM tree and presents the features of the elements in the page. On this basis, by defining the similarity of element classification, selecting the best classification feature from the element feature of the page graph and text model, the algorithm of obtaining the best classification feature set and the recognition threshold is proposed and implemented. The experimental results show that the page graph and text model simplifies the size of page elements, and the feature set inductive algorithm can achieve ideal classification accuracy at a lower learning cost.
【作者單位】: 解放軍理工大學(xué);
【基金】:國家863計劃資助項(xiàng)目(2010AA012404)
【分類號】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 丁振凡;ASP動態(tài)網(wǎng)頁中頁面元素間的數(shù)據(jù)關(guān)聯(lián)處理技術(shù)[J];計算機(jī)時代;2000年10期
2 魏婧;WEB元素的對象表達(dá)[J];安徽大學(xué)學(xué)報(自然科學(xué)版);2002年04期
3 顧宏立;Navigator 4.0與IE 4.0中動態(tài)HTML的異同[J];電子與電腦;1997年12期
4 張競波;;淺談網(wǎng)頁設(shè)計中的布局工具[J];電腦知識與技術(shù);2009年24期
5 陽富民,周艷,周正勇;WML瀏覽器的設(shè)計與實(shí)現(xiàn)[J];計算機(jī)工程與科學(xué);2004年09期
6 ;網(wǎng)頁創(chuàng)作利器—Namo WebEditor 3[J];電腦知識與技術(shù);2000年S3期
7 王志軍;廣告克星使用指南[J];電子與電腦;2000年11期
8 翁建元;Web緩存技術(shù)及產(chǎn)品[J];計算機(jī)周刊;2000年29期
9 劉永平;讓你的網(wǎng)頁個性十足[J];電腦愛好者;2001年13期
10 盛翼;網(wǎng)頁表格的特殊應(yīng)用[J];電腦知識與技術(shù);2002年02期
相關(guān)會議論文 前1條
1 景東俠;吳林榮;白光弼;;基于CMS技術(shù)的陜西氣象信息內(nèi)網(wǎng)的設(shè)計與實(shí)現(xiàn)[A];信息技術(shù)在氣象領(lǐng)域的開發(fā)應(yīng)用論文集(二)[C];2006年
相關(guān)重要報紙文章 前4條
1 一葦;在Dreamweaver中進(jìn)行網(wǎng)頁優(yōu)化[N];中國電腦教育報;2001年
2 Dream Zeus;網(wǎng)站制作輕松學(xué)(四)[N];計算機(jī)世界;2004年
3 飛飛;專業(yè)級的選擇[N];中國電腦教育報;2002年
4 7star;用CSS控制網(wǎng)頁總體風(fēng)格[N];中國電腦教育報;2002年
相關(guān)碩士學(xué)位論文 前1條
1 李龍;動態(tài)性、安全型網(wǎng)站開發(fā)平臺的研究與開發(fā)[D];浙江大學(xué);2002年
,本文編號:1860526
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1860526.html