融合結(jié)構(gòu)和內(nèi)容特征提取多類型網(wǎng)頁文本要素
本文關(guān)鍵詞:融合結(jié)構(gòu)和內(nèi)容特征提取多類型網(wǎng)頁文本要素
更多相關(guān)文章: 多類型網(wǎng)頁 網(wǎng)頁要素自動提取 結(jié)構(gòu)特征 內(nèi)容特征
【摘要】:針對網(wǎng)頁設(shè)計結(jié)構(gòu)與文本內(nèi)容上的關(guān)聯(lián)特點,提出了融合結(jié)構(gòu)和內(nèi)容特征的多類型網(wǎng)頁文本要素提取方法。依據(jù)網(wǎng)頁頭部標題元素與網(wǎng)頁體內(nèi)容上的聯(lián)系提取網(wǎng)頁標題;提取網(wǎng)頁正文區(qū)域的網(wǎng)頁結(jié)構(gòu)和內(nèi)容上的多個特征分類網(wǎng)頁DOM節(jié)點,定義節(jié)點的擴展、整合規(guī)則獲得正文候選塊,引入密度值和影響因子從各候選塊中甄別正文塊;利用發(fā)布時間與標題、正文之間的位置關(guān)系,通過正則表達式實現(xiàn)發(fā)布時間的提取。對國內(nèi)新聞網(wǎng)站、博客、論壇及貼吧進行抽取試驗,結(jié)果表明該方法具有較好的效果。
【作者單位】: 昆明理工大學(xué)信息工程與自動化學(xué)院;昆明理工大學(xué)智能信息處理重點實驗室;
【基金】:國家自然科學(xué)基金(61175068;61472168) 云南省自然科學(xué)基金重點項目(2013FA030)
【分類號】:TP393.092;TP391.1
【正文快照】:
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李建華,王志國,馬曉云,韓建國;網(wǎng)頁發(fā)布常用方法及遇到問題[J];電腦開發(fā)與應(yīng)用;2001年11期
2 王崢;穿梭網(wǎng)絡(luò)看設(shè)計——小議網(wǎng)頁設(shè)計[J];蘇州絲綢工學(xué)院學(xué)報;1999年06期
3 李亞文;網(wǎng)頁設(shè)計系列講座(一) 信息世界的新時尚——用網(wǎng)頁展示自己[J];多媒體世界;1999年02期
4 張?zhí)锪?網(wǎng)頁設(shè)計系列講座(四) 在世界面前展示你的風(fēng)采——網(wǎng)頁發(fā)布[J];多媒體世界;1999年05期
5 高渭文;馬敏峰;;科技期刊網(wǎng)頁的規(guī)劃設(shè)計與制作維護[J];學(xué)報編輯論叢;2000年00期
6 康軍;出版社網(wǎng)頁的設(shè)計與開發(fā)[J];科技與出版;2000年05期
7 郭再新,常征旗;查詢網(wǎng)頁與網(wǎng)頁發(fā)布[J];南京廣播電視大學(xué)學(xué)報;2000年04期
8 付斌 ,韓松;網(wǎng)頁沙龍之發(fā)布我的網(wǎng)頁[J];網(wǎng)絡(luò)與信息;2001年10期
9 顧綺芳;韓斌;;《網(wǎng)頁設(shè)計》教學(xué)探索[J];職業(yè)圈;2007年14期
10 彭菊萍;李俊青;;基于網(wǎng)絡(luò)教學(xué)環(huán)境下的網(wǎng)頁設(shè)計課程教學(xué)的探索與實踐[J];科技信息(科學(xué)教研);2007年28期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 高渭文;馬敏峰;;科技期刊網(wǎng)頁的規(guī)劃設(shè)計與制作維護[A];學(xué)報編輯論叢(第九集)[C];2000年
2 孫周軍;肖文名;;基于組合策略網(wǎng)頁防篡改系統(tǒng)實現(xiàn)方法研究[A];2011年中國氣象學(xué)會氣象通信與信息技術(shù)委員會暨國家氣象信息中心科技年會論文摘要[C];2011年
中國重要報紙全文數(shù)據(jù)庫 前7條
1 本報記者 王兵 通訊員 韋煒;小網(wǎng)頁 大名片 長鏈條[N];中國氣象報;2012年
2 林欣欣;Micromedia家族新寵 contribute[N];中國電腦教育報;2003年
3 愛上一條魚;傻瓜網(wǎng)站管理工具[N];電腦報;2004年
4 湖南省株洲縣教育局教育技術(shù)裝備站 許賽蘇;做個合格的信息管理員[N];中國電腦教育報;2004年
5 ;書山有路勤為徑[N];中國電腦教育報;2004年
6 王兆和;到秘密花園里“摘”煙花[N];中國電腦教育報;2004年
7 通訊員 郝金榮 記者 曾居仁;萬村千鄉(xiāng)網(wǎng)頁工程建成入選貴州“三農(nóng)”十大新聞[N];中國氣象報;2013年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 林盛;時間感知的Web搜索研究[D];中國科學(xué)技術(shù)大學(xué);2015年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 梁靜;網(wǎng)頁防篡改中分布式文件同步系統(tǒng)的研究[D];西安工業(yè)大學(xué);2013年
2 馮勝;基于正文結(jié)構(gòu)和長句提取的網(wǎng)頁去重研究[D];重慶大學(xué);2010年
3 王海潮;基于網(wǎng)頁結(jié)構(gòu)的信息抽取關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2011年
4 譚慶華;贛縣中學(xué)博客網(wǎng)頁建設(shè)初探[D];江西師范大學(xué);2005年
5 王ZMr,
本文編號:1198687
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1198687.html