基于多特征融合的網(wǎng)頁(yè)正文信息抽取
[Abstract]:Nowadays, the mainstream web pages are divided into single positive style pages and multi-positive stylistic pages. The text information of these pages has multiple text features. In order to locate the location of text information accurately, we can start with its features and the design habits of web designers. In view of this, this paper proposes a method of text information extraction based on multi-feature fusion. The experimental results show that this method has high accuracy and generality for the text extraction of single and multi-style web pages, and adapts well to various web pages of different styles.
【作者單位】: 西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院 思維與智慧研究所;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61152001,61170111) 中國(guó)科學(xué)院自動(dòng)化研究所復(fù)雜系統(tǒng)管理與控制重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(20110102)
【分類(lèi)號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 冀高峰;湯庸;道煒;吳桂賓;黃帆;王鵬;;基于XML的自動(dòng)學(xué)習(xí)Web信息抽取[J];計(jì)算機(jī)科學(xué);2008年03期
2 劉輝;陳靜玉;徐學(xué)洲;;基于模板流程配置的Web信息抽取[J];計(jì)算機(jī)工程;2008年20期
3 鄭長(zhǎng)松;傅彥;佘莉;;基于模板的Web信息自動(dòng)提取方法[J];計(jì)算機(jī)應(yīng)用研究;2009年02期
4 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期
5 周佳穎;朱珍民;高曉芳;;基于統(tǒng)計(jì)與正文特征的中文網(wǎng)頁(yè)正文抽取研究[J];中文信息學(xué)報(bào);2009年05期
6 劉亞?wèn)|;彭艦;張達(dá)平;;基于智能的網(wǎng)頁(yè)信息提取系統(tǒng)的研究與設(shè)計(jì)[J];四川大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 高博;朱東華;韓士雄;;一種智能化的信息采集系統(tǒng)的研究與實(shí)現(xiàn)[J];兵工學(xué)報(bào);2009年S1期
2 王楠;;一種實(shí)現(xiàn)Web數(shù)據(jù)到XML文檔的轉(zhuǎn)換算法[J];大連海事大學(xué)學(xué)報(bào);2010年03期
3 宋明秋;張瑞雪;吳新濤;李文立;;網(wǎng)頁(yè)正文信息抽取新方法[J];大連理工大學(xué)學(xué)報(bào);2009年04期
4 趙文;唐建雄;高慶鋒;;基于統(tǒng)計(jì)的中文網(wǎng)頁(yè)正文抽取的研究[J];電腦知識(shí)與技術(shù);2008年01期
5 王強(qiáng);戰(zhàn)忠麗;張鳳君;;基于語(yǔ)義分組向量空間模型的Web新聞檢索算法[J];電子科技;2011年04期
6 胡瑜;王立志;;基于HTML結(jié)構(gòu)特征的網(wǎng)頁(yè)信息提取[J];遼寧石油化工大學(xué)學(xué)報(bào);2009年03期
7 任玉;樊勇;鄭家恒;;基于分塊的網(wǎng)頁(yè)主題文本抽取[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年01期
8 劉豐;韓輝;周蕾;齊峻瑤;徐寶梁;;網(wǎng)絡(luò)信息技術(shù)在傳染病輿情監(jiān)測(cè)中的應(yīng)用[J];中國(guó)國(guó)境衛(wèi)生檢疫雜志;2012年04期
9 李文;鄭邦習(xí);鄧武;;基于XML和DOM技術(shù)的Web信息抽取模型[J];大連交通大學(xué)學(xué)報(bào);2013年03期
10 向程冠;熊世桓;;基于CSS視覺(jué)分塊的Web碎片信息抽取算法[J];計(jì)算機(jī)光盤(pán)軟件與應(yīng)用;2013年16期
相關(guān)會(huì)議論文 前4條
1 胡飛;;一種Web頁(yè)面的主題區(qū)域搜索方法[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
2 王春元;張韜;;一種獲取網(wǎng)頁(yè)主要中文信息的方法[A];全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集(第二十四卷)[C];2009年
3 時(shí)達(dá)明;林鴻飛;楊志豪;;基于網(wǎng)頁(yè)框架和規(guī)則的網(wǎng)頁(yè)噪音去除方法[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
4 蒲宇達(dá);關(guān)毅;王強(qiáng);;基于數(shù)據(jù)挖掘思想的網(wǎng)頁(yè)正文抽取方法的研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
相關(guān)博士學(xué)位論文 前5條
1 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測(cè)系統(tǒng)研究[D];北京郵電大學(xué);2011年
2 王春元;公共網(wǎng)絡(luò)信息系統(tǒng)安全管理的研究[D];合肥工業(yè)大學(xué);2009年
3 王桂紅;農(nóng)產(chǎn)品市場(chǎng)價(jià)格web信息分析方法研究[D];沈陽(yáng)農(nóng)業(yè)大學(xué);2013年
4 宋鑫瑩;網(wǎng)絡(luò)信息自動(dòng)化高效抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年
5 吳共慶;基于標(biāo)簽路徑特征的Web新聞內(nèi)容抽取研究[D];合肥工業(yè)大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 王樂(lè)超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年
2 孟桂國(guó);基于維基百科的雙語(yǔ)語(yǔ)料挖掘技術(shù)研究[D];蘇州大學(xué);2010年
3 孟祥燕;問(wèn)答對(duì)自動(dòng)獲取的研究[D];昆明理工大學(xué);2008年
4 呂楠;話題追蹤與演化分析技術(shù)研究[D];解放軍信息工程大學(xué);2009年
5 許世明;中文網(wǎng)頁(yè)分類(lèi)技術(shù)研究及預(yù)分類(lèi)算法實(shí)現(xiàn)[D];西安電子科技大學(xué);2009年
6 陳晶;基于網(wǎng)頁(yè)的信息抽取的研究[D];西安工業(yè)大學(xué);2011年
7 王偉;搜索引擎智能化技術(shù)中若干關(guān)鍵問(wèn)題的研究與實(shí)現(xiàn)[D];河北科技大學(xué);2011年
8 李亞洲;文本分類(lèi)語(yǔ)料庫(kù)自動(dòng)構(gòu)建系統(tǒng)的研究與改進(jìn)[D];武漢理工大學(xué);2011年
9 高永勝;基于樹(shù)形結(jié)構(gòu)的網(wǎng)頁(yè)數(shù)據(jù)抽取模式研究及應(yīng)用[D];大連理工大學(xué);2011年
10 張瑞雪;基于DOM樹(shù)的網(wǎng)頁(yè)相似度研究與應(yīng)用[D];大連理工大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張紹華,徐林昊,楊文柱,薛文玲,李天柱;基于樣本實(shí)例的Web信息抽取[J];河北大學(xué)學(xué)報(bào)(自然科學(xué)版);2001年04期
2 張茂元;張金隆;盧正鼎;鄒春燕;;基于特征相關(guān)學(xué)習(xí)的網(wǎng)頁(yè)信息提取方法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年07期
3 殷賢亮;李猛;;基于分塊的網(wǎng)頁(yè)主題信息自動(dòng)提取算法[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年10期
4 高軍 ,王騰蛟 ,楊冬青 ,唐世渭;基于Ontology的Web內(nèi)容二階段半自動(dòng)提取方法[J];計(jì)算機(jī)學(xué)報(bào);2004年03期
5 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁(yè)信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期
6 宋睿華,馬少平,陳剛,李景陽(yáng);一種提高中文搜索引擎檢索質(zhì)量的HTML解析方法[J];中文信息學(xué)報(bào);2003年04期
7 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁(yè)正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期
8 梅雪;程學(xué)旗;郭巖;張剛;丁國(guó)棟;;一種全自動(dòng)生成網(wǎng)頁(yè)信息抽取Wrapper的方法[J];中文信息學(xué)報(bào);2008年01期
9 歐健文,董守斌,蔡斌;模板化網(wǎng)頁(yè)主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
10 楊少華;林海略;韓燕波;;針對(duì)模板生成網(wǎng)頁(yè)的一種數(shù)據(jù)自動(dòng)抽取方法(英文)[J];軟件學(xué)報(bào);2008年02期
相關(guān)會(huì)議論文 前1條
1 蒲宇達(dá);關(guān)毅;王強(qiáng);;基于數(shù)據(jù)挖掘思想的網(wǎng)頁(yè)正文抽取方法的研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 吳鵬飛;馬鳳娟;;基于Boost.Regex的網(wǎng)頁(yè)信息抽取[J];電腦編程技巧與維護(hù);2009年15期
2 徐明;;輕松破解網(wǎng)頁(yè)右鍵屏蔽六招[J];電腦校園;2002年12期
3 杜翠茹;;淺析網(wǎng)頁(yè)布局方法在教學(xué)中的優(yōu)化[J];大眾科技;2010年05期
4 孟濤,閆宏飛,王繼民;Web網(wǎng)頁(yè)信息變化的時(shí)間局部性規(guī)律及其驗(yàn)證[J];情報(bào)學(xué)報(bào);2005年04期
5 ;和朋友看同一個(gè)網(wǎng)頁(yè)的幸福生活[J];計(jì)算機(jī)與網(wǎng)絡(luò);2005年18期
6 張曉彥;張曉明;;一種基于表格屬性的網(wǎng)頁(yè)信息隱藏算法[J];北京石油化工學(xué)院學(xué)報(bào);2009年01期
7 郭利偉;王家兵;;Web信息自動(dòng)標(biāo)引方法比較[J];內(nèi)蒙古科技與經(jīng)濟(jì);2009年07期
8 胡少榮;孟嗣儀;劉云;張彥超;丁飛;;網(wǎng)頁(yè)信息自動(dòng)抽取技術(shù)的研究[J];鐵路計(jì)算機(jī)應(yīng)用;2010年09期
9 張莉,曾致遠(yuǎn);Windows下網(wǎng)頁(yè)信息實(shí)時(shí)監(jiān)聽(tīng)程序的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2005年03期
10 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁(yè)信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期
相關(guān)會(huì)議論文 前10條
1 韓近強(qiáng);趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識(shí)的網(wǎng)頁(yè)篩選系統(tǒng)[A];第十九屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2002年
2 王曉峰;劉惟一;;從用戶需求到網(wǎng)頁(yè)集團(tuán)的模糊變換[A];第二十屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2003年
3 吳倩;楊逍;張兆心;;基于視覺(jué)特征的網(wǎng)頁(yè)信息提取[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
4 羅陽(yáng);季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁(yè)的雙語(yǔ)資源挖掘方法[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
5 張貫虹;烏達(dá)巴拉;鞏政;;基于向量空間模型的網(wǎng)頁(yè)文本句子對(duì)齊方法研究[A];第十一屆全國(guó)人機(jī)語(yǔ)音通訊學(xué)術(shù)會(huì)議論文集(一)[C];2011年
6 趙玉芳;張一鳴;;基于網(wǎng)頁(yè)信息的印象形成的初步研究[A];第十屆全國(guó)心理學(xué)學(xué)術(shù)大會(huì)論文摘要集[C];2005年
7 張陽(yáng);李戰(zhàn)懷;近藤?gòu)V幸;;WEB PAGE的自動(dòng)分類(lèi)[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
8 甘衛(wèi)東;郭宏騫;曾令奇;;泌尿外科病人使用因特網(wǎng)情況及相關(guān)專(zhuān)業(yè)網(wǎng)頁(yè)質(zhì)量調(diào)查[A];第十五屆全國(guó)泌尿外科學(xué)術(shù)會(huì)議論文集[C];2008年
9 何平;李錦;;基于Web挖掘技術(shù)的用戶模糊偏好分析[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
10 黃華軍;王保衛(wèi);孫星明;;基于CSS類(lèi)選擇符重復(fù)引入的網(wǎng)頁(yè)信息隱藏算法[A];第八屆全國(guó)信息隱藏與多媒體安全學(xué)術(shù)大會(huì)湖南省計(jì)算機(jī)學(xué)會(huì)第十一屆學(xué)術(shù)年會(huì)論文集[C];2009年
相關(guān)重要報(bào)紙文章 前10條
1 壯壯;批量保存網(wǎng)頁(yè)信息[N];電腦報(bào);2004年
2 東方早報(bào)記者 李偉;要名還是要利,這是個(gè)問(wèn)題[N];東方早報(bào);2011年
3 金山軟件副總裁 楊桓;著力“三大系統(tǒng)” 構(gòu)筑網(wǎng)絡(luò)安全屏障[N];中國(guó)電子報(bào);2009年
4 郭京霞;楓葉之都狀告百度惡意排名一審敗訴[N];中國(guó)知識(shí)產(chǎn)權(quán)報(bào);2007年
5 路人甲;請(qǐng)個(gè)專(zhuān)家來(lái)貼圖[N];電腦報(bào);2005年
6 夏凌;搜索引擎排名糾紛百度勝出[N];中華工商時(shí)報(bào);2007年
7 錢(qián)鵬;網(wǎng)盡Web頁(yè)中的好東東[N];電腦報(bào);2004年
8 郭京霞;百度勝訴搜索引擎排名糾紛案[N];中國(guó)企業(yè)報(bào);2007年
9 任一鳴;垂直搜索:抓住細(xì)分需求[N];計(jì)算機(jī)世界;2007年
10 章森 王偉;搜索引擎的工作機(jī)制[N];計(jì)算機(jī)世界;2006年
相關(guān)博士學(xué)位論文 前10條
1 陳潔;基于概念融合的網(wǎng)頁(yè)篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 焦斌星;用于搜索的網(wǎng)頁(yè)可視化摘要技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
3 孟憲軍;互聯(lián)網(wǎng)文本聚類(lèi)與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
4 張長(zhǎng)利;面向特定領(lǐng)域的互聯(lián)網(wǎng)輿情分析技術(shù)研究[D];吉林大學(xué);2011年
5 黃河;農(nóng)業(yè)復(fù)雜自適應(yīng)搜索模型研究及實(shí)現(xiàn)[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
6 王昤璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年
7 劉守群;海量網(wǎng)絡(luò)視頻快速檢索關(guān)鍵技術(shù)研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
8 段瑞雪;基于依存關(guān)系的用戶意圖的研究[D];北京郵電大學(xué);2011年
9 張勇實(shí);基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
10 曹魯慧;Web個(gè)人信息集成問(wèn)題研究[D];山東大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 于洪波;中文網(wǎng)頁(yè)自動(dòng)采集與分類(lèi)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2010年
2 鐘鴻鵬;基于時(shí)態(tài)信息的網(wǎng)頁(yè)排序系統(tǒng)的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2010年
3 張航;主題爬蟲(chóng)的實(shí)現(xiàn)及其關(guān)鍵技術(shù)研究[D];武漢理工大學(xué);2010年
4 馮明遠(yuǎn);深度網(wǎng)絡(luò)信息爬取關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];浙江大學(xué);2010年
5 鄧科;智能搜索中的中文網(wǎng)頁(yè)分類(lèi)研究[D];蘭州理工大學(xué);2011年
6 黨春輝;網(wǎng)頁(yè)消重和聚類(lèi)算法在高校搜索引擎中的研究與應(yīng)用[D];東華大學(xué);2010年
7 馬偉瑜;基于改進(jìn)的PageRank的網(wǎng)頁(yè)信息可信度評(píng)估方法研究[D];河北大學(xué);2011年
8 任斌;基于本體的主動(dòng)學(xué)習(xí)主題爬行的研究與實(shí)現(xiàn)[D];吉林大學(xué);2010年
9 任蘭鵬;基于代表樣本的中文網(wǎng)頁(yè)分類(lèi)研究[D];山東大學(xué);2010年
10 李霞;文本過(guò)濾防火墻技術(shù)研究[D];北方工業(yè)大學(xué);2011年
,本文編號(hào):2398399
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2398399.html