一種基于SVM和AdaBoost的Web實體信息抽取方法
[Abstract]:A Web entity information extraction method based on SVM and AdaBoost is proposed. Firstly, a method of Web page main data area recognition based on SVM is proposed. Based on the display feature of Web entity instance in the page, the Web page is effectively divided into the data region, and the main data region of Web entity instance is identified. Then, based on the features of Web entity attribute label, an integrated learning method based on AdaBoost is proposed to extract Web entity information automatically from the main data area of the page. Experiments were carried out on two real data sets and compared with related research results. The experimental results show that the proposed method can achieve good results.
【作者單位】: 山東大學(xué)計算機科學(xué)與技術(shù)學(xué)院;中國人力資源和社會保障部信息中心;
【基金】:國家科技支撐計劃項目(2008BAH32B01)
【分類號】:TP393.09;TP18
【參考文獻】
相關(guān)期刊論文 前3條
1 胡東東,孟小峰;一種基于樹結(jié)構(gòu)的Web數(shù)據(jù)自動抽取方法[J];計算機研究與發(fā)展;2004年10期
2 丁艷輝;李慶忠;董永權(quán);彭朝暉;;基于集成學(xué)習(xí)和二維關(guān)聯(lián)邊條件隨機場的Web數(shù)據(jù)語義標(biāo)注方法[J];計算機學(xué)報;2010年02期
3 楊少華;林海略;韓燕波;;針對模板生成網(wǎng)頁的一種數(shù)據(jù)自動抽取方法(英文)[J];軟件學(xué)報;2008年02期
【共引文獻】
相關(guān)期刊論文 前10條
1 趙靖;王僑文;管馬周;單傳佳;;自動提取布局結(jié)構(gòu)相似網(wǎng)頁的結(jié)構(gòu)化信息[J];安徽科技學(xué)院學(xué)報;2010年06期
2 張彥超;劉云;李勇;沈波;;基于自動生成模板的Web信息抽取技術(shù)[J];北京交通大學(xué)學(xué)報;2009年05期
3 袁鴻雁;;基于本體的HTML表格識別技術(shù)的研究[J];長春工程學(xué)院學(xué)報(自然科學(xué)版);2010年01期
4 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計學(xué)特征和DOM樹的網(wǎng)頁去噪技術(shù)[J];重慶理工大學(xué)學(xué)報(自然科學(xué)版);2011年01期
5 李舒晨;劉云;李勇;;網(wǎng)絡(luò)輿情分析中網(wǎng)頁信息預(yù)處理方案的實現(xiàn)[J];電腦與電信;2008年10期
6 杜茂康;李韶華;劉苗;;基于MEDL模型的HTML向XML的轉(zhuǎn)換方法[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2012年06期
7 鄧緒斌;朱揚勇;;ReDE:一個基于正則表達式的生物數(shù)據(jù)抽取方法[J];計算機研究與發(fā)展;2005年12期
8 李石君;于俊清;歐偉杰;;基于HTML模式代數(shù)的Web信息提取方法[J];計算機研究與發(fā)展;2006年09期
9 寇月;李冬;申德榮;于戈;聶鐵錚;;D-EEM:一種基于DOM樹的Deep Web實體抽取機制[J];計算機研究與發(fā)展;2010年05期
10 王宇;譚松波;廖祥文;曾依靈;;基于擴展領(lǐng)域模型的有名屬性抽取[J];計算機研究與發(fā)展;2010年09期
相關(guān)會議論文 前2條
1 袁鴻雁;;Web表格信息抽取技術(shù)的研究[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(一)[C];2008年
2 閆中敏;李慶忠;彭朝暉;董永權(quán);丁艷輝;張永新;徐秀星;;DWDIS:面向分析的Deep Web數(shù)據(jù)集成系統(tǒng)[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年
相關(guān)博士學(xué)位論文 前10條
1 閆中敏;Deep Web數(shù)據(jù)獲取問題研究[D];山東大學(xué);2010年
2 吳承榮;骨干通道上的網(wǎng)絡(luò)論壇通信信息監(jiān)測和分析的關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2011年
3 高恒振;高光譜遙感圖像分類技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年
4 吳春明;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)及其在農(nóng)業(yè)領(lǐng)域的應(yīng)用[D];西南大學(xué);2011年
5 劉娜;文本自動摘要和信息抽取方法及其應(yīng)用研究[D];大連海事大學(xué);2012年
6 徐和祥;Deep Web集成中若干技術(shù)研究[D];復(fù)旦大學(xué);2008年
7 趙朋朋;Deep Web信息集成若干關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2008年
8 方巍;基于本體的Deep Web信息集成關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2009年
9 董永權(quán);Deep Web數(shù)據(jù)集成關(guān)鍵問題研究[D];山東大學(xué);2010年
10 丁艷輝;面向Web數(shù)據(jù)集成的數(shù)據(jù)抽取問題研究[D];山東大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 孫嶺;一種基于前綴表達式的Web信息抽取方法的關(guān)鍵問題的實現(xiàn)[D];山東科技大學(xué);2010年
2 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測系統(tǒng)研究[D];安徽大學(xué);2010年
3 高永勝;基于樹形結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)抽取模式研究及應(yīng)用[D];大連理工大學(xué);2011年
4 解濤;精確Web信息抽取集成模型與關(guān)鍵技術(shù)研究[D];南京大學(xué);2011年
5 馬燕;基于快速相似度的Web結(jié)構(gòu)挖掘的研究[D];南京信息工程大學(xué);2011年
6 羅偉;Web數(shù)據(jù)集成中包裝器自適應(yīng)方法研究[D];山東大學(xué);2011年
7 徐秀星;Web數(shù)據(jù)集成中全局模式構(gòu)建方法研究[D];山東大學(xué);2011年
8 鄧蓉;基于本體的深度搜索系統(tǒng)關(guān)鍵詞庫的構(gòu)造與研究[D];江西師范大學(xué);2011年
9 周p,
本文編號:2320116
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2320116.html