Web頁(yè)面細(xì)粒度數(shù)據(jù)抽取方法研究
本文關(guān)鍵詞:Web頁(yè)面細(xì)粒度數(shù)據(jù)抽取方法研究
更多相關(guān)文章: 信息抽取 Web挖掘 包裝器 自動(dòng)關(guān)聯(lián)
【摘要】:盡管有很多方法用于Web頁(yè)面信息抽取,對(duì)細(xì)粒度信息如數(shù)據(jù)項(xiàng)等的抽取需求仍然很迫切。提出了一個(gè)用于結(jié)構(gòu)化數(shù)據(jù)抽取的解決方案,將Web頁(yè)面上的信息以更細(xì)的粒度抽取出來(lái)。對(duì)包裝器(wrapper)生成時(shí)所依據(jù)的信息進(jìn)行了基于穩(wěn)定性的分類,實(shí)現(xiàn)了模板和種子之間多對(duì)多的自動(dòng)關(guān)聯(lián)(automatically correlating),并按照信息穩(wěn)定性的高低為每個(gè)字段生成多個(gè)抽取規(guī)則,在抽取信息時(shí)根據(jù)多個(gè)抽取規(guī)則進(jìn)行抽取,只有在所有規(guī)則失效時(shí)才會(huì)導(dǎo)致抽取失敗,提高了抽取系統(tǒng)的魯棒性。實(shí)驗(yàn)結(jié)果表明,該方法具有良好的抽取功率和準(zhǔn)確率。
【作者單位】: 首都師范大學(xué)信息工程學(xué)院;北京理工大學(xué)圖書(shū)館;西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院;
【關(guān)鍵詞】: 信息抽取 Web挖掘 包裝器 自動(dòng)關(guān)聯(lián)
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61272446) 北京市屬高等學(xué)校人才強(qiáng)教深化計(jì)劃基金項(xiàng)目(PHR201008083)
【分類號(hào)】:TP393.092
【正文快照】: 0引言Web數(shù)據(jù)挖掘[1]重要的基礎(chǔ)研究?jī)?nèi)容之一是Web頁(yè)面數(shù)據(jù)抽取,目前已經(jīng)有一些Web數(shù)據(jù)自動(dòng)抽取方法[2-4]和系統(tǒng)[4-7]如Omini,RoadRunner,IEPAD,MDR,DEPAT等[5]。文獻(xiàn)[6]提出了一種基于隱馬爾可夫模型的中文科研論文頭部信息和引文信息抽取算法,僅在局部進(jìn)行歸一化處理。文獻(xiàn)[
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前6條
1 田建偉;李石君;;基于層次樹(shù)模型的Deep Web數(shù)據(jù)提取方法[J];計(jì)算機(jī)研究與發(fā)展;2011年01期
2 張慧穎;曲著偉;;基于子樹(shù)匹配的交互式Web數(shù)據(jù)抽取方法[J];計(jì)算機(jī)工程;2006年09期
3 于江德;樊孝忠;尹繼豪;顧益軍;;基于隱馬爾可夫模型的中文科研論文信息抽取[J];計(jì)算機(jī)工程;2007年19期
4 劉偉;嚴(yán)華梁;;一種統(tǒng)一的Web新聞對(duì)象自動(dòng)抽取方法[J];計(jì)算機(jī)工程;2012年11期
5 劉偉;嚴(yán)華梁;肖建國(guó);曾建勛;;一種Web評(píng)論自動(dòng)抽取方法[J];軟件學(xué)報(bào);2010年12期
6 季春;姜琴;吳錚悅;;垂直搜索引擎關(guān)鍵技術(shù)研究綜述[J];情報(bào)探索;2012年10期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 尹忠剛;鐘彥儒;劉靜;朱權(quán)兵;;基于Markov鏈的變頻調(diào)速系統(tǒng)隨機(jī)PWM控制技術(shù)[J];電機(jī)與控制學(xué)報(bào);2010年02期
2 劉宇;錢(qián)躍;;基于字典匹配和支持向量機(jī)的中文科技論文元數(shù)據(jù)抽取[J];工程數(shù)學(xué)學(xué)報(bào);2012年04期
3 楊進(jìn);羅漫;張啟蕊;;文本挖掘在中醫(yī)藥文獻(xiàn)分析中的應(yīng)用[J];廣東藥學(xué)院學(xué)報(bào);2010年02期
4 珠杰;歐珠;格桑多吉;;基于DOM修剪的藏文Web信息提取[J];計(jì)算機(jī)工程;2008年24期
5 曲著偉;李敏強(qiáng);;基于數(shù)據(jù)區(qū)域發(fā)現(xiàn)的信息抽取規(guī)則生成方法[J];計(jì)算機(jī)工程;2009年22期
6 劉偉;嚴(yán)華梁;;一種統(tǒng)一的Web新聞對(duì)象自動(dòng)抽取方法[J];計(jì)算機(jī)工程;2012年11期
7 原福永;韓麗;趙英梅;;社交網(wǎng)絡(luò)中模塊關(guān)系樹(shù)的相似性算法的研究[J];計(jì)算機(jī)應(yīng)用研究;2012年02期
8 劉桂峰;李林;崔志明;;一種自動(dòng)抽取Web數(shù)據(jù)對(duì)象的方法[J];計(jì)算機(jī)應(yīng)用與軟件;2009年06期
9 王文煥;趙卓峰;;關(guān)系數(shù)據(jù)庫(kù)的關(guān)鍵詞查詢性能優(yōu)化[J];計(jì)算機(jī)與數(shù)字工程;2012年11期
10 趙海霞;李道申;劉勇;趙嘉誠(chéng);;一種Deep Web查詢結(jié)果的實(shí)體抽取方法[J];計(jì)算機(jī)工程與應(yīng)用;2012年36期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 劉娜;文本自動(dòng)摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
2 尹忠剛;用于變頻調(diào)速裝置的三相PWM整流器若干技術(shù)問(wèn)題研究[D];西安理工大學(xué);2009年
3 蔣敬田;基于用戶瀏覽行為的深度網(wǎng)絡(luò)挖掘[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 黃勇杰;基于統(tǒng)計(jì)NLP技術(shù)的甲骨卜辭的分析研究[D];華東師范大學(xué);2010年
2 李巍;企業(yè)信息搜索引擎的設(shè)計(jì)與關(guān)鍵技術(shù)的研究[D];內(nèi)蒙古農(nóng)業(yè)大學(xué);2011年
3 趙思佳;基于規(guī)則引擎的個(gè)性化網(wǎng)頁(yè)爬蟲(chóng)研究[D];中南大學(xué);2010年
4 鄭杰生;基于HMM的網(wǎng)絡(luò)短評(píng)情感信息抽取[D];華南理工大學(xué);2011年
5 徐德;關(guān)于互聯(lián)網(wǎng)文本數(shù)據(jù)挖掘的一些關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2011年
6 王燕;網(wǎng)站敏感信息監(jiān)視系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2008年
7 祝美蓮;半結(jié)構(gòu)化網(wǎng)頁(yè)的信息抽取技術(shù)研究[D];中國(guó)石油大學(xué);2011年
8 李毅;學(xué)術(shù)主頁(yè)信息抽取系統(tǒng)的研究[D];華中科技大學(xué);2011年
9 韓麗;社交網(wǎng)絡(luò)中的信任推薦和好友搜索過(guò)濾算法研究[D];燕山大學(xué);2012年
10 錢(qián)躍;基于文本挖掘的學(xué)者簡(jiǎn)歷自動(dòng)生成[D];大連理工大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 高波;;一種面向主題的搜索引擎的實(shí)現(xiàn)[J];常州工學(xué)院學(xué)報(bào);2008年02期
2 陳洪猛;;基于垂直搜索技術(shù)的搜索引擎解決方案[J];電腦應(yīng)用技術(shù);2008年01期
3 楊堅(jiān)爭(zhēng);李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期
4 林亞平,劉云中,周順先,陳治平,蔡立軍;基于最大熵的隱馬爾可夫模型文本信息抽取[J];電子學(xué)報(bào);2005年02期
5 潘明;陳藝;劉海峰;劉紅剛;;農(nóng)業(yè)機(jī)械垂直搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代農(nóng)業(yè)裝備;2007年04期
6 鄭凱明;李義杰;;垂直搜索引擎及其應(yīng)用價(jià)值[J];信息技術(shù);2008年04期
7 蔡恩澤;;垂直搜索的精細(xì)化功夫[J];互聯(lián)網(wǎng)天地;2008年08期
8 胡東東,孟小峰;一種基于樹(shù)結(jié)構(gòu)的Web數(shù)據(jù)自動(dòng)抽取方法[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
9 赫建營(yíng);晏海華;金茂忠;劉超;;結(jié)合本體篩選和文本挖掘的垂直搜索引擎研究[J];計(jì)算機(jī)科學(xué);2008年02期
10 張玲,黃鐵軍,高文;基于隱馬爾可夫模型的引文信息提取[J];計(jì)算機(jī)工程;2003年20期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 壽周翔;專業(yè)搜索引擎的研究與設(shè)計(jì)[D];浙江大學(xué);2005年
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 張春明;;Web挖掘技術(shù)研究[J];廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年05期
2 侯錕;羅海龍;;Web頁(yè)面表格信息的自主抽取[J];科技廣場(chǎng);2006年04期
3 邵輝;李芳;;基于樹(shù)模型算法的動(dòng)態(tài)網(wǎng)頁(yè)信息抽取研究和實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2007年10期
4 王小朋;李義杰;;基于解釋學(xué)習(xí)的包裝器生成[J];計(jì)算機(jī)與數(shù)字工程;2006年05期
5 崔繼馨,張鵬,楊文柱;基于DOM的Web信息抽取[J];河北農(nóng)業(yè)大學(xué)學(xué)報(bào);2005年03期
6 王磊;蔣建中;郭軍利;;基于擴(kuò)展DOM樹(shù)的Web頁(yè)面信息抽取[J];計(jì)算機(jī)應(yīng)用與軟件;2007年06期
7 任仲晟;薛永生;;基于頁(yè)面標(biāo)簽的Web結(jié)構(gòu)化數(shù)據(jù)抽取[J];計(jì)算機(jī)科學(xué);2007年10期
8 陳洪平;方巍;李林;崔志明;;復(fù)雜Web頁(yè)的Wrapper自動(dòng)化生成技術(shù)研究[J];微電子學(xué)與計(jì)算機(jī);2010年04期
9 奚偉鵬,李昕,蔣凱,武港山;面向網(wǎng)上論壇的信息抽取技術(shù)[J];計(jì)算機(jī)工程;2005年04期
10 馮艷卉;洪宇;顏振祥;姚建民;朱巧明;;基于搜索引擎的雙語(yǔ)混合網(wǎng)頁(yè)識(shí)別新方法[J];中文信息學(xué)報(bào);2011年01期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國(guó)高校社科信息資料研究會(huì)第六次會(huì)員代表大會(huì)暨第13次學(xué)術(shù)研討會(huì)論文集[C];2010年
2 崔欣辰;曲寧;陳青華;;隱馬爾可夫模型在Web信息抽取中的幾點(diǎn)改進(jìn)[A];全國(guó)第4屆信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
3 王海燕;谷明哲;王靜;孟小峰;;基于預(yù)定義模式的Web信息抽取[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
4 徐云風(fēng);蔣文蓉;;Web頁(yè)面信息抽取的分析與研究[A];IT服務(wù)促進(jìn)企業(yè)信息化——第十一屆中國(guó)Java技術(shù)及應(yīng)用交流大會(huì)文集[C];2008年
5 易虹;許德剛;;Web數(shù)據(jù)挖掘的研究與應(yīng)用[A];第一屆全國(guó)Web信息系統(tǒng)及其應(yīng)用會(huì)議(WISA2004)論文集[C];2004年
6 吳珊;楊樺;;基于日志挖掘的Web預(yù)取模型[A];2006年電氣工程教育專業(yè)委員會(huì)年會(huì)論文集[C];2006年
7 習(xí)慧丹;;Web日志挖掘探析[A];第三屆全國(guó)軟件測(cè)試會(huì)議與移動(dòng)計(jì)算、柵格、智能化高級(jí)論壇論文集[C];2009年
8 袁冠;夏士雄;張磊;李月娥;肖經(jīng)驗(yàn);;基于興趣度的Web用戶聚類方法[A];2008年全國(guó)開(kāi)放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2008年
9 王磊;王豐輝;鄭康鋒;楊義先;;基于Web挖掘技術(shù)的漏洞收集系統(tǒng)研究與設(shè)計(jì)[A];2006北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)——通信與信息技術(shù)會(huì)議論文集(下)[C];2006年
10 劉秉權(quán);王喻紅;葛冬梅;李佳;;基于結(jié)構(gòu)樹(shù)解析的網(wǎng)頁(yè)正文抽取方法[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2007年學(xué)術(shù)交流年會(huì)論文集[C];2007年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前2條
1 郵電數(shù)據(jù)網(wǎng)絡(luò)集成開(kāi)發(fā)中心 張穎輝 施海舟;TotalBilling數(shù)據(jù)業(yè)務(wù)計(jì)費(fèi)系統(tǒng)(Windows 2000版)[N];計(jì)算機(jī)世界;2001年
2 ;下一代網(wǎng)絡(luò)服務(wù)管理系統(tǒng)eSM[N];人民郵電;2001年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 宋鑫瑩;網(wǎng)絡(luò)信息自動(dòng)化高效抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年
2 丁艷輝;面向Web數(shù)據(jù)集成的數(shù)據(jù)抽取問(wèn)題研究[D];山東大學(xué);2010年
3 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
4 張敬偉;Web論壇數(shù)據(jù)抽取[D];華東師范大學(xué);2012年
5 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
6 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
7 何召衛(wèi);受限本體相似[D];北京郵電大學(xué);2008年
8 阮備軍;Web使用挖掘若干關(guān)鍵問(wèn)題研究[D];復(fù)旦大學(xué);2004年
9 何麗;基于Web挖掘的決策支持系統(tǒng)模型研究[D];天津大學(xué);2005年
10 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 鄧麗;面向主題的XML網(wǎng)頁(yè)的模式和數(shù)據(jù)抽取[D];華僑大學(xué);2004年
2 楊柱;基于DIV標(biāo)簽樹(shù)的網(wǎng)頁(yè)主題信息抽取方法[D];湖南大學(xué);2010年
3 王花;Web信息抽取技術(shù)研究[D];西北農(nóng)林科技大學(xué);2010年
4 全福亮;面向精確Web信息抽取的自動(dòng)數(shù)據(jù)記錄分析和識(shí)別技術(shù)研究[D];南京大學(xué);2011年
5 馬征;基于本體的Web頁(yè)面分類挖掘[D];中南大學(xué);2004年
6 田紅;表格信息抽取引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];西北師范大學(xué);2004年
7 楊文柱;基于領(lǐng)域知識(shí)和信息抽取的個(gè)性化Web查詢系統(tǒng)[D];河北大學(xué);2002年
8 張志強(qiáng);Web信息抽取技術(shù)研究與基于Web service的實(shí)現(xiàn)[D];河北大學(xué);2004年
9 楊秀麗;基于網(wǎng)頁(yè)內(nèi)容分析的Web信息抽取技術(shù)及其應(yīng)用[D];河北科技大學(xué);2010年
10 劉洋;Web教學(xué)資源抽取技術(shù)及其應(yīng)用研究[D];東北師范大學(xué);2007年
,本文編號(hào):779471
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/779471.html