融合結構和內容特征提取多類型網頁文本要素
本文關鍵詞:融合結構和內容特征提取多類型網頁文本要素
更多相關文章: 多類型網頁 網頁要素自動提取 結構特征 內容特征
【摘要】:針對網頁設計結構與文本內容上的關聯特點,提出了融合結構和內容特征的多類型網頁文本要素提取方法。依據網頁頭部標題元素與網頁體內容上的聯系提取網頁標題;提取網頁正文區(qū)域的網頁結構和內容上的多個特征分類網頁DOM節(jié)點,定義節(jié)點的擴展、整合規(guī)則獲得正文候選塊,引入密度值和影響因子從各候選塊中甄別正文塊;利用發(fā)布時間與標題、正文之間的位置關系,通過正則表達式實現發(fā)布時間的提取。對國內新聞網站、博客、論壇及貼吧進行抽取試驗,結果表明該方法具有較好的效果。
【作者單位】: 昆明理工大學信息工程與自動化學院;昆明理工大學智能信息處理重點實驗室;
【基金】:國家自然科學基金(61175068;61472168) 云南省自然科學基金重點項目(2013FA030)
【分類號】:TP393.092;TP391.1
【正文快照】:
【相似文獻】
中國期刊全文數據庫 前10條
1 李建華,王志國,馬曉云,韓建國;網頁發(fā)布常用方法及遇到問題[J];電腦開發(fā)與應用;2001年11期
2 王崢;穿梭網絡看設計——小議網頁設計[J];蘇州絲綢工學院學報;1999年06期
3 李亞文;網頁設計系列講座(一) 信息世界的新時尚——用網頁展示自己[J];多媒體世界;1999年02期
4 張?zhí)锪?網頁設計系列講座(四) 在世界面前展示你的風采——網頁發(fā)布[J];多媒體世界;1999年05期
5 高渭文;馬敏峰;;科技期刊網頁的規(guī)劃設計與制作維護[J];學報編輯論叢;2000年00期
6 康軍;出版社網頁的設計與開發(fā)[J];科技與出版;2000年05期
7 郭再新,常征旗;查詢網頁與網頁發(fā)布[J];南京廣播電視大學學報;2000年04期
8 付斌 ,韓松;網頁沙龍之發(fā)布我的網頁[J];網絡與信息;2001年10期
9 顧綺芳;韓斌;;《網頁設計》教學探索[J];職業(yè)圈;2007年14期
10 彭菊萍;李俊青;;基于網絡教學環(huán)境下的網頁設計課程教學的探索與實踐[J];科技信息(科學教研);2007年28期
中國重要會議論文全文數據庫 前2條
1 高渭文;馬敏峰;;科技期刊網頁的規(guī)劃設計與制作維護[A];學報編輯論叢(第九集)[C];2000年
2 孫周軍;肖文名;;基于組合策略網頁防篡改系統(tǒng)實現方法研究[A];2011年中國氣象學會氣象通信與信息技術委員會暨國家氣象信息中心科技年會論文摘要[C];2011年
中國重要報紙全文數據庫 前7條
1 本報記者 王兵 通訊員 韋煒;小網頁 大名片 長鏈條[N];中國氣象報;2012年
2 林欣欣;Micromedia家族新寵 contribute[N];中國電腦教育報;2003年
3 愛上一條魚;傻瓜網站管理工具[N];電腦報;2004年
4 湖南省株洲縣教育局教育技術裝備站 許賽蘇;做個合格的信息管理員[N];中國電腦教育報;2004年
5 ;書山有路勤為徑[N];中國電腦教育報;2004年
6 王兆和;到秘密花園里“摘”煙花[N];中國電腦教育報;2004年
7 通訊員 郝金榮 記者 曾居仁;萬村千鄉(xiāng)網頁工程建成入選貴州“三農”十大新聞[N];中國氣象報;2013年
中國博士學位論文全文數據庫 前1條
1 林盛;時間感知的Web搜索研究[D];中國科學技術大學;2015年
中國碩士學位論文全文數據庫 前10條
1 梁靜;網頁防篡改中分布式文件同步系統(tǒng)的研究[D];西安工業(yè)大學;2013年
2 馮勝;基于正文結構和長句提取的網頁去重研究[D];重慶大學;2010年
3 王海潮;基于網頁結構的信息抽取關鍵技術研究[D];華南理工大學;2011年
4 譚慶華;贛縣中學博客網頁建設初探[D];江西師范大學;2005年
5 王ZMr,
本文編號:1198687
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1198687.html