可擴展的網(wǎng)頁關鍵信息抽取研究
本文選題:關鍵信息 + 信息抽取 ; 參考:《中文信息學報》2015年01期
【摘要】:該文提出了一種可擴展的網(wǎng)頁關鍵信息抽取框架。該框架很好地融合了模板無關的全自動信息抽取算法和基于模板的信息抽取算法,從本質上提高抽取精度和抽取效率。該框架中的一些關鍵環(huán)節(jié)可根據(jù)需求進行替換,因此該框架具有很好的可擴展性。同時,該文還提出了模板的正交過濾算法。將該算法引入基于模板的抽取算法中,能夠從本質上提高生成的模板的準確性。實驗結果驗證了上述結論。
[Abstract]:In this paper, an extensible framework for extracting key information from web pages is proposed.The framework combines the template independent automatic information extraction algorithm and the template based information extraction algorithm to improve the extraction accuracy and efficiency.Some key links in the framework can be replaced according to requirements, so the framework has good scalability.At the same time, an orthogonal filtering algorithm for templates is proposed.This algorithm can improve the accuracy of the generated template in essence by introducing it into the template extraction algorithm.The experimental results verify the above conclusions.
【作者單位】: 中國科學院計算技術研究所;中國科學院大學;
【基金】:國家自然科學基金(61100083) 國家863計劃基金(2012AA011003)
【分類號】:TP393.092;TP391.1
【相似文獻】
相關期刊論文 前10條
1 松濤;“吸”盡網(wǎng)絡中有用的網(wǎng)頁信息[J];電腦知識與技術;2004年13期
2 朱精南,趙明生;網(wǎng)頁版面信息分析[J];計算機工程;2004年12期
3 梁邦勇,李涓子,王克宏;基于語義Web的網(wǎng)頁推薦模型[J];清華大學學報(自然科學版);2004年09期
4 王海燕;張正凱;任建浩;;從審美角度淺談網(wǎng)頁藝術設計[J];中國電化教育;2004年09期
5 賈海龍,任玉珍;網(wǎng)頁藝術設計[J];新鄉(xiāng)師范高等?茖W校學報;2005年05期
6 劉肖冰;淺談網(wǎng)頁藝術設計[J];安陽師范學院學報;2005年05期
7 孫迎春;;網(wǎng)頁設計研究[J];南平師專學報;2005年03期
8 文濤;網(wǎng)頁的視覺傳達設計與分析[J];沈陽教育學院學報;2005年01期
9 宋春暉;網(wǎng)頁設計中的美學應用分析[J];海南師范學院學報(自然科學版);2005年01期
10 張秀虎;;淺談網(wǎng)頁的訪問權限[J];教育信息化;2005年17期
相關會議論文 前10條
1 吳建軍;;談網(wǎng)頁設計的藝術性表現(xiàn)[A];經天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學術交流會優(yōu)秀論文選編[C];2005年
2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關度研究[A];語言計算與基于內容的文本處理——全國第七屆計算語言學聯(lián)合學術會議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結構劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學術會議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達中的應用研究[A];2006年中國機械工程學會年會暨中國工程院機械與運載工程學部首屆年會論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學術交流會通信與信息技術會議論文集(上冊)[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結構的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學術會議論文集[C];2010年
9 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2000年
10 于滿泉;譚松波;許洪波;;網(wǎng)頁內部結構挖掘技術研究[A];NCIRCS2004第一屆全國信息檢索與內容安全學術會議論文集[C];2004年
相關重要報紙文章 前10條
1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農服務新渠道[N];中國氣象報;2012年
2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年
3 羅震宇 嚴小斌;一種新型WEB開發(fā)技術的探討[N];中國冶金報;2011年
4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年
5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年
8 飄零劍客;網(wǎng)絡監(jiān)控利器——AnyView[N];中國電腦教育報;2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年
10 ;網(wǎng)絡應用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年
相關博士學位論文 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術研究[D];北京郵電大學;2013年
2 龔昌盛;基于語義標注的網(wǎng)頁廣告加載模型研究[D];武漢大學;2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學;2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學;2007年
5 徐晴陽;基于關系子群發(fā)現(xiàn)算法的聚焦爬行技術[D];吉林大學;2008年
6 曹魯慧;Web個人信息集成問題研究[D];山東大學;2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學;2012年
8 羅娜;基于本體的主題爬行技術研究[D];吉林大學;2009年
9 張勇實;基于鏈接相似性分析的WEB結構挖掘方法研究[D];哈爾濱工程大學;2012年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學;2006年
相關碩士學位論文 前10條
1 高文梁;改進的基于歷史信息分析的網(wǎng)頁排序算法[D];大連理工大學;2009年
2 劉輝;網(wǎng)頁信息過濾系統(tǒng)的研究與設計[D];蘇州大學;2009年
3 趙胤;海量網(wǎng)頁搜集系統(tǒng)的設計[D];東北大學 ;2009年
4 羅永蓮;突發(fā)事件語料噪聲排除與網(wǎng)頁去重方法研究[D];山西大學;2005年
5 黃永光;基于網(wǎng)頁挖掘的搜索引擎若干技術的研究[D];哈爾濱工業(yè)大學;2006年
6 張超群;基于網(wǎng)頁分塊技術的主題爬行[D];吉林大學;2007年
7 張雅潔;網(wǎng)頁視覺基礎設計與應用研究[D];東北師范大學;2007年
8 黃文蓓;基于網(wǎng)頁分割和摘要的小屏幕設備網(wǎng)頁自適應技術研究與實現(xiàn)[D];華東師范大學;2008年
9 劉華暉;需求概念圖導引下的網(wǎng)頁檢索結果分析[D];上海交通大學;2011年
10 程歡;網(wǎng)頁中動態(tài)色彩及其情感可視化研究[D];哈爾濱工業(yè)大學;2011年
,本文編號:1740696
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1740696.html