基于分塊重要度和二維條件隨機(jī)場(chǎng)的Web信息抽取
本文關(guān)鍵詞:基于分塊重要度和二維條件隨機(jī)場(chǎng)的Web信息抽取 出處:《南京大學(xué)學(xué)報(bào)(自然科學(xué))》2014年01期 論文類型:期刊論文
更多相關(guān)文章: Web對(duì)象 信息抽取 網(wǎng)頁分塊 分塊重要度模型 二維條件隨機(jī)場(chǎng)
【摘要】:網(wǎng)頁分塊方法使得Web信息抽取的單位由原來的頁面縮小為分塊.結(jié)合分塊重要度模型與二維條件隨機(jī)場(chǎng)的優(yōu)點(diǎn),提出一種Web對(duì)象信息抽取方法.該方法利用分塊重要度模型對(duì)網(wǎng)頁分塊進(jìn)行重要度標(biāo)注,過濾掉大量與主題無關(guān)信息,更加準(zhǔn)確的定位待抽取信息的位置.二維條件隨機(jī)場(chǎng)模型相比傳統(tǒng)的線性條件隨機(jī)場(chǎng)模型更好的適應(yīng)了網(wǎng)頁分塊的二維結(jié)構(gòu),有效的提高信息抽取準(zhǔn)確率.實(shí)驗(yàn)結(jié)果表明,該方法對(duì)Web對(duì)象信息抽取具有良好的效果.
[Abstract]:The Web information extraction unit from the original page down to block block method ". Combining the advantages of the block importance model and 2D CRFs, proposes a Web information extraction method. This method uses the block importance model of" block of marking, and filter out a lot of irrelevant information, more accurate positioning information to be extracted. The position of 2D conditional random field model compared to the traditional linear conditional random field model is better adapted to the two-dimensional structure of page segmentation, improve the accuracy of information extraction effectively. The experimental results show that this method has a good effect on Web information extraction.
【作者單位】: 江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金(61202312,61170121)
【分類號(hào)】:TP393.09
【正文快照】: 隨著科技的高速發(fā)展,網(wǎng)絡(luò)上的信息呈爆炸式增長(zhǎng),這其中很大一部分是描述現(xiàn)實(shí)世界對(duì)象的信息,例如書、電腦、衣服等等,這樣一類由多個(gè)數(shù)據(jù)元素及屬性標(biāo)簽按照特點(diǎn)模式組織在一起的半結(jié)構(gòu)化數(shù)據(jù)對(duì)象稱之為Web對(duì)象[1,2].如果將這些大量的Web對(duì)象信息從網(wǎng)頁中抽取出來并存儲(chǔ)于數(shù)
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 顧韻華;田偉;;基于DOM模型擴(kuò)展的Web信息提取[J];計(jì)算機(jī)科學(xué);2009年11期
2 韓先培;劉康;趙軍;;基于布局特征與語言特征的網(wǎng)頁主要內(nèi)容塊發(fā)現(xiàn)[J];中文信息學(xué)報(bào);2008年01期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 許高程;張文君;王衛(wèi)紅;;支持向量機(jī)技術(shù)在遙感影像滑坡體提取中的應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2009年06期
2 管翠萍;;藥物靶標(biāo)G蛋白偶聯(lián)受體的識(shí)別預(yù)測(cè)[J];安徽農(nóng)業(yè)科學(xué);2010年24期
3 劉婷婷;;基于支持向量機(jī)的水稻紋枯病識(shí)別研究[J];安徽農(nóng)業(yè)科學(xué);2011年28期
4 高闖;王立東;周世宇;;基于支持矢量機(jī)的宮頸細(xì)胞分類[J];遼寧科技大學(xué)學(xué)報(bào);2009年03期
5 汪廷華;田盛豐;黃厚寬;廖年冬;;樣本屬性重要度的支持向量機(jī)方法[J];北京交通大學(xué)學(xué)報(bào);2007年05期
6 尚磊;劉風(fēng)進(jìn);;基于支持向量機(jī)的手寫體數(shù)字識(shí)別[J];兵工自動(dòng)化;2007年03期
7 胡淑燕;鄭鋼鐵;;應(yīng)用支持向量機(jī)的眼瞼參數(shù)疲勞預(yù)測(cè)[J];北京航空航天大學(xué)學(xué)報(bào);2009年08期
8 王自強(qiáng);段愛玲;張德賢;;基于自適應(yīng)核函數(shù)的支持向量數(shù)據(jù)描述算法[J];北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年02期
9 陳增照;楊揚(yáng);董才林;何秀玲;;支持向量機(jī)動(dòng)態(tài)學(xué)習(xí)方法及其在票據(jù)識(shí)別中的應(yīng)用[J];北京科技大學(xué)學(xué)報(bào);2006年02期
10 郭輝;劉賀平;王玲;;基于最小二乘支持向量機(jī)對(duì)偶優(yōu)化問題的核偏最小二乘[J];北京科技大學(xué)學(xué)報(bào);2006年08期
相關(guān)博士學(xué)位論文 前10條
1 趙瑩;半監(jiān)督支持向量機(jī)學(xué)習(xí)算法研究[D];哈爾濱工程大學(xué);2010年
2 殷志偉;基于統(tǒng)計(jì)學(xué)習(xí)理論的分類方法研究[D];哈爾濱工程大學(xué);2009年
3 柏堅(jiān);非線性數(shù)學(xué)地質(zhì)模型研究及在滇東南金礦成礦預(yù)測(cè)中的應(yīng)用[D];中國(guó)地質(zhì)大學(xué)(北京);2010年
4 姚志明;基于步態(tài)觸覺信息的身份識(shí)別研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2010年
5 陳志國(guó);基于群體智能的機(jī)器視覺的關(guān)鍵技術(shù)研究[D];江南大學(xué);2010年
6 張目;高技術(shù)企業(yè)信用風(fēng)險(xiǎn)影響因素及評(píng)價(jià)方法研究[D];電子科技大學(xué);2010年
7 宋國(guó)明;基于提升小波及SVM優(yōu)化的模擬電路智能故障診斷方法研究[D];電子科技大學(xué);2010年
8 劉建明;古代壁畫圖像保護(hù)與智能修復(fù)技術(shù)研究[D];浙江大學(xué);2010年
9 渠瑜;基于SVM的高不平衡分類技術(shù)研究及其在電信業(yè)的應(yīng)用[D];浙江大學(xué);2010年
10 李卓;圖像信息隱藏與隱寫分析算法的研究[D];浙江大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 朱杰;一種基于聚類的支持向量機(jī)反問題求解算法[D];河北大學(xué);2007年
2 李金華;基于SVM的多類文本分類研究[D];山東科技大學(xué);2010年
3 江達(dá)秀;基于HMAX模型的人臉表情識(shí)別研究[D];浙江理工大學(xué);2010年
4 李朋勇;基于全矢高階譜的故障診斷方法及其應(yīng)用研究[D];鄭州大學(xué);2010年
5 劉松;基于OCSVM和主動(dòng)學(xué)習(xí)的DDOS攻擊分布式檢測(cè)系統(tǒng)[D];鄭州大學(xué);2010年
6 王樂超;Web環(huán)境下文獻(xiàn)信息的提取與匹配研究[D];大連理工大學(xué);2010年
7 方宇;小波支持向量機(jī)在交通流預(yù)測(cè)中的應(yīng)用研究[D];大連理工大學(xué);2010年
8 梁懷志;基于嵌入式的車型分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2010年
9 李林;基于可靠性的TBM刀盤輕量化設(shè)計(jì)[D];大連理工大學(xué);2010年
10 李艷萍;基于自主學(xué)習(xí)的移動(dòng)機(jī)器人質(zhì)心偏移控制策略[D];大連理工大學(xué);2010年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 馮艷為;王成良;;基于Web部件的個(gè)性化網(wǎng)站創(chuàng)建技術(shù)[J];重慶工學(xué)院學(xué)報(bào)(自然科學(xué)版);2008年02期
2 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[J];計(jì)算機(jī)研究與發(fā)展;2004年10期
3 高強(qiáng);張敬之;耿樺;潘金貴;;基于重復(fù)模式的Web信息抽取[J];計(jì)算機(jī)科學(xué);2007年04期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 于薇;;包裝器的自動(dòng)生成方法介紹[J];才智;2009年28期
2 祝偉華;盧熠;劉斌斌;;基于HMM的Web信息抽取算法的研究與應(yīng)用[J];計(jì)算機(jī)科學(xué);2010年02期
3 王立建;尹四清;;基于Web頁面有效信息抽取的分類方法[J];電腦開發(fā)與應(yīng)用;2010年06期
4 仲華;崔志明;;基于XML的信息抽取和多層向量空間技術(shù)研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2007年07期
5 耿煥同;宋慶席;何宏強(qiáng);;一種基于視覺分塊的Web信息抽取方法研究[J];情報(bào)理論與實(shí)踐;2009年03期
6 鐘艷花,余偉紅,余永權(quán);Web文本挖掘系統(tǒng)及其關(guān)鍵技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年34期
7 王勝,朱明;基于最大熵馬爾可夫模型的地址信息抽取[J];計(jì)算機(jī)工程與應(yīng)用;2005年21期
8 苗穎;;Web頁面信息自主抽取技術(shù)的研究[J];中國(guó)科技信息;2007年23期
9 彭文滔;葉飛躍;李霞;員紅娟;;信息抽取中基于DOM樹的過濾器方法的研究[J];微計(jì)算機(jī)信息;2008年30期
10 韓普;王澤;;基于重復(fù)模式的論壇信息抽取研究[J];南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版);2010年03期
相關(guān)會(huì)議論文 前10條
1 崔欣辰;曲寧;陳青華;;隱馬爾可夫模型在Web信息抽取中的幾點(diǎn)改進(jìn)[A];全國(guó)第4屆信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年
2 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國(guó)高校社科信息資料研究會(huì)第六次會(huì)員代表大會(huì)暨第13次學(xué)術(shù)研討會(huì)論文集[C];2010年
3 徐云風(fēng);蔣文蓉;;Web頁面信息抽取的分析與研究[A];IT服務(wù)促進(jìn)企業(yè)信息化——第十一屆中國(guó)Java技術(shù)及應(yīng)用交流大會(huì)文集[C];2008年
4 張文東;袁春風(fēng);武港山;;基于視覺的網(wǎng)頁數(shù)據(jù)抽取[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年
5 王海燕;谷明哲;王靜;孟小峰;;基于預(yù)定義模式的Web信息抽取[A];第十八屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
6 楊高峰;楊岳湘;;基于RSS的個(gè)性化科技信息聚合門戶的設(shè)計(jì)與實(shí)現(xiàn)[A];2008通信理論與技術(shù)新進(jìn)展——第十三屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集(上)[C];2008年
7 陳少飛;郝亞南;李天柱;張志強(qiáng);張波;;Web信息抽取規(guī)則的優(yōu)化[A];第二十屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2003年
8 陳瀅;張宜紅;王能斌;;Web視圖技術(shù)研究[A];第十六屆全國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集[C];1999年
9 陳佳;王騰蛟;;基于相關(guān)實(shí)例的異構(gòu)網(wǎng)頁提取模式的自動(dòng)發(fā)現(xiàn)[A];第二十二屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
10 周春姐;孟小峰;文潔;;Flickr中的復(fù)合事件檢測(cè)[A];NDBC2010第27屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)[C];2010年
相關(guān)重要報(bào)紙文章 前9條
1 沈生;網(wǎng)關(guān)防毒需要“代理”加速[N];中國(guó)計(jì)算機(jī)報(bào);2004年
2 英特爾(中國(guó))有限公司系統(tǒng)工程師 尤晉;高速緩存在寬帶網(wǎng)中的應(yīng)用[N];網(wǎng)絡(luò)世界;2001年
3 李剛;不能犧牲性能[N];中國(guó)計(jì)算機(jī)報(bào);2004年
4 馬志彥;Lotus平臺(tái),便宜還是貴?[N];中國(guó)計(jì)算機(jī)報(bào);2002年
5 ;服務(wù)器端緩存提速電子商務(wù)[N];網(wǎng)絡(luò)世界;2000年
6 ;放心地實(shí)施業(yè)務(wù)應(yīng)用[N];中國(guó)計(jì)算機(jī)報(bào);2000年
7 安徽 朱軍;用FrontPage 2000組建中文論壇[N];中國(guó)電腦教育報(bào);2000年
8 ;Internet存儲(chǔ)技術(shù)[N];網(wǎng)絡(luò)世界;2001年
9 方圓;省錢提速大法[N];中國(guó)計(jì)算機(jī)報(bào);2000年
相關(guān)博士學(xué)位論文 前10條
1 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
2 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年
3 何召衛(wèi);受限本體相似[D];北京郵電大學(xué);2008年
4 胡燕;基于Web信息抽取的專業(yè)知識(shí)獲取方法研究[D];武漢理工大學(xué);2007年
5 方巍;基于本體的Deep Web信息集成關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2009年
6 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
7 宋鑫瑩;網(wǎng)絡(luò)信息自動(dòng)化高效抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年
8 傅魁;基于Web的本體學(xué)習(xí)研究[D];武漢理工大學(xué);2007年
9 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年
10 曹魯慧;Web個(gè)人信息集成問題研究[D];山東大學(xué);2012年
相關(guān)碩士學(xué)位論文 前10條
1 楊柱;基于DIV標(biāo)簽樹的網(wǎng)頁主題信息抽取方法[D];湖南大學(xué);2010年
2 田紅;表格信息抽取引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];西北師范大學(xué);2004年
3 楊文柱;基于領(lǐng)域知識(shí)和信息抽取的個(gè)性化Web查詢系統(tǒng)[D];河北大學(xué);2002年
4 張志強(qiáng);Web信息抽取技術(shù)研究與基于Web service的實(shí)現(xiàn)[D];河北大學(xué);2004年
5 王花;Web信息抽取技術(shù)研究[D];西北農(nóng)林科技大學(xué);2010年
6 楊秀麗;基于網(wǎng)頁內(nèi)容分析的Web信息抽取技術(shù)及其應(yīng)用[D];河北科技大學(xué);2010年
7 蔣偉華;搜索引擎中的信息抽取技術(shù)研究[D];湖南大學(xué);2001年
8 張紹華;基于實(shí)例的Web信息抽取[D];河北大學(xué);2001年
9 朱道輝;基于條件隨機(jī)域的Web信息抽取研究[D];南華大學(xué);2010年
10 全福亮;面向精確Web信息抽取的自動(dòng)數(shù)據(jù)記錄分析和識(shí)別技術(shù)研究[D];南京大學(xué);2011年
,本文編號(hào):1368623
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1368623.html