天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于分塊重要度和二維條件隨機場的Web信息抽取

發(fā)布時間:2018-01-02 09:29

  本文關(guān)鍵詞:基于分塊重要度和二維條件隨機場的Web信息抽取 出處:《南京大學(xué)學(xué)報(自然科學(xué))》2014年01期  論文類型:期刊論文


  更多相關(guān)文章: Web對象 信息抽取 網(wǎng)頁分塊 分塊重要度模型 二維條件隨機場


【摘要】:網(wǎng)頁分塊方法使得Web信息抽取的單位由原來的頁面縮小為分塊.結(jié)合分塊重要度模型與二維條件隨機場的優(yōu)點,提出一種Web對象信息抽取方法.該方法利用分塊重要度模型對網(wǎng)頁分塊進行重要度標(biāo)注,過濾掉大量與主題無關(guān)信息,更加準(zhǔn)確的定位待抽取信息的位置.二維條件隨機場模型相比傳統(tǒng)的線性條件隨機場模型更好的適應(yīng)了網(wǎng)頁分塊的二維結(jié)構(gòu),有效的提高信息抽取準(zhǔn)確率.實驗結(jié)果表明,該方法對Web對象信息抽取具有良好的效果.
[Abstract]:The Web information extraction unit from the original page down to block block method ". Combining the advantages of the block importance model and 2D CRFs, proposes a Web information extraction method. This method uses the block importance model of" block of marking, and filter out a lot of irrelevant information, more accurate positioning information to be extracted. The position of 2D conditional random field model compared to the traditional linear conditional random field model is better adapted to the two-dimensional structure of page segmentation, improve the accuracy of information extraction effectively. The experimental results show that this method has a good effect on Web information extraction.

【作者單位】: 江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院;
【基金】:國家自然科學(xué)基金(61202312,61170121)
【分類號】:TP393.09
【正文快照】: 隨著科技的高速發(fā)展,網(wǎng)絡(luò)上的信息呈爆炸式增長,這其中很大一部分是描述現(xiàn)實世界對象的信息,例如書、電腦、衣服等等,這樣一類由多個數(shù)據(jù)元素及屬性標(biāo)簽按照特點模式組織在一起的半結(jié)構(gòu)化數(shù)據(jù)對象稱之為Web對象[1,2].如果將這些大量的Web對象信息從網(wǎng)頁中抽取出來并存儲于數(shù)

【參考文獻】

相關(guān)期刊論文 前2條

1 顧韻華;田偉;;基于DOM模型擴展的Web信息提取[J];計算機科學(xué);2009年11期

2 韓先培;劉康;趙軍;;基于布局特征與語言特征的網(wǎng)頁主要內(nèi)容塊發(fā)現(xiàn)[J];中文信息學(xué)報;2008年01期

【共引文獻】

相關(guān)期刊論文 前10條

1 許高程;張文君;王衛(wèi)紅;;支持向量機技術(shù)在遙感影像滑坡體提取中的應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2009年06期

2 管翠萍;;藥物靶標(biāo)G蛋白偶聯(lián)受體的識別預(yù)測[J];安徽農(nóng)業(yè)科學(xué);2010年24期

3 劉婷婷;;基于支持向量機的水稻紋枯病識別研究[J];安徽農(nóng)業(yè)科學(xué);2011年28期

4 高闖;王立東;周世宇;;基于支持矢量機的宮頸細胞分類[J];遼寧科技大學(xué)學(xué)報;2009年03期

5 汪廷華;田盛豐;黃厚寬;廖年冬;;樣本屬性重要度的支持向量機方法[J];北京交通大學(xué)學(xué)報;2007年05期

6 尚磊;劉風(fēng)進;;基于支持向量機的手寫體數(shù)字識別[J];兵工自動化;2007年03期

7 胡淑燕;鄭鋼鐵;;應(yīng)用支持向量機的眼瞼參數(shù)疲勞預(yù)測[J];北京航空航天大學(xué)學(xué)報;2009年08期

8 王自強;段愛玲;張德賢;;基于自適應(yīng)核函數(shù)的支持向量數(shù)據(jù)描述算法[J];北京化工大學(xué)學(xué)報(自然科學(xué)版);2008年02期

9 陳增照;楊揚;董才林;何秀玲;;支持向量機動態(tài)學(xué)習(xí)方法及其在票據(jù)識別中的應(yīng)用[J];北京科技大學(xué)學(xué)報;2006年02期

10 郭輝;劉賀平;王玲;;基于最小二乘支持向量機對偶優(yōu)化問題的核偏最小二乘[J];北京科技大學(xué)學(xué)報;2006年08期

相關(guān)博士學(xué)位論文 前10條

1 趙瑩;半監(jiān)督支持向量機學(xué)習(xí)算法研究[D];哈爾濱工程大學(xué);2010年

2 殷志偉;基于統(tǒng)計學(xué)習(xí)理論的分類方法研究[D];哈爾濱工程大學(xué);2009年

3 柏堅;非線性數(shù)學(xué)地質(zhì)模型研究及在滇東南金礦成礦預(yù)測中的應(yīng)用[D];中國地質(zhì)大學(xué)(北京);2010年

4 姚志明;基于步態(tài)觸覺信息的身份識別研究[D];中國科學(xué)技術(shù)大學(xué);2010年

5 陳志國;基于群體智能的機器視覺的關(guān)鍵技術(shù)研究[D];江南大學(xué);2010年

6 張目;高技術(shù)企業(yè)信用風(fēng)險影響因素及評價方法研究[D];電子科技大學(xué);2010年

7 宋國明;基于提升小波及SVM優(yōu)化的模擬電路智能故障診斷方法研究[D];電子科技大學(xué);2010年

8 劉建明;古代壁畫圖像保護與智能修復(fù)技術(shù)研究[D];浙江大學(xué);2010年

9 渠瑜;基于SVM的高不平衡分類技術(shù)研究及其在電信業(yè)的應(yīng)用[D];浙江大學(xué);2010年

10 李卓;圖像信息隱藏與隱寫分析算法的研究[D];浙江大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 朱杰;一種基于聚類的支持向量機反問題求解算法[D];河北大學(xué);2007年

2 李金華;基于SVM的多類文本分類研究[D];山東科技大學(xué);2010年

3 江達秀;基于HMAX模型的人臉表情識別研究[D];浙江理工大學(xué);2010年

4 李朋勇;基于全矢高階譜的故障診斷方法及其應(yīng)用研究[D];鄭州大學(xué);2010年

5 劉松;基于OCSVM和主動學(xué)習(xí)的DDOS攻擊分布式檢測系統(tǒng)[D];鄭州大學(xué);2010年

6 王樂超;Web環(huán)境下文獻信息的提取與匹配研究[D];大連理工大學(xué);2010年

7 方宇;小波支持向量機在交通流預(yù)測中的應(yīng)用研究[D];大連理工大學(xué);2010年

8 梁懷志;基于嵌入式的車型分類系統(tǒng)的設(shè)計與實現(xiàn)[D];大連理工大學(xué);2010年

9 李林;基于可靠性的TBM刀盤輕量化設(shè)計[D];大連理工大學(xué);2010年

10 李艷萍;基于自主學(xué)習(xí)的移動機器人質(zhì)心偏移控制策略[D];大連理工大學(xué);2010年

【二級參考文獻】

相關(guān)期刊論文 前3條

1 馮艷為;王成良;;基于Web部件的個性化網(wǎng)站創(chuàng)建技術(shù)[J];重慶工學(xué)院學(xué)報(自然科學(xué)版);2008年02期

2 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期

3 高強;張敬之;耿樺;潘金貴;;基于重復(fù)模式的Web信息抽取[J];計算機科學(xué);2007年04期

【相似文獻】

相關(guān)期刊論文 前10條

1 于薇;;包裝器的自動生成方法介紹[J];才智;2009年28期

2 祝偉華;盧熠;劉斌斌;;基于HMM的Web信息抽取算法的研究與應(yīng)用[J];計算機科學(xué);2010年02期

3 王立建;尹四清;;基于Web頁面有效信息抽取的分類方法[J];電腦開發(fā)與應(yīng)用;2010年06期

4 仲華;崔志明;;基于XML的信息抽取和多層向量空間技術(shù)研究[J];計算機技術(shù)與發(fā)展;2007年07期

5 耿煥同;宋慶席;何宏強;;一種基于視覺分塊的Web信息抽取方法研究[J];情報理論與實踐;2009年03期

6 鐘艷花,余偉紅,余永權(quán);Web文本挖掘系統(tǒng)及其關(guān)鍵技術(shù)研究[J];計算機工程與應(yīng)用;2003年34期

7 王勝,朱明;基于最大熵馬爾可夫模型的地址信息抽取[J];計算機工程與應(yīng)用;2005年21期

8 苗穎;;Web頁面信息自主抽取技術(shù)的研究[J];中國科技信息;2007年23期

9 彭文滔;葉飛躍;李霞;員紅娟;;信息抽取中基于DOM樹的過濾器方法的研究[J];微計算機信息;2008年30期

10 韓普;王澤;;基于重復(fù)模式的論壇信息抽取研究[J];南京師范大學(xué)學(xué)報(工程技術(shù)版);2010年03期

相關(guān)會議論文 前10條

1 崔欣辰;曲寧;陳青華;;隱馬爾可夫模型在Web信息抽取中的幾點改進[A];全國第4屆信號和智能信息處理與應(yīng)用學(xué)術(shù)會議論文集[C];2010年

2 李紀(jì)華;夏薇;;基于XML的web信息提取方法研究[A];全國高校社科信息資料研究會第六次會員代表大會暨第13次學(xué)術(shù)研討會論文集[C];2010年

3 徐云風(fēng);蔣文蓉;;Web頁面信息抽取的分析與研究[A];IT服務(wù)促進企業(yè)信息化——第十一屆中國Java技術(shù)及應(yīng)用交流大會文集[C];2008年

4 張文東;袁春風(fēng);武港山;;基于視覺的網(wǎng)頁數(shù)據(jù)抽取[A];2009年研究生學(xué)術(shù)交流會通信與信息技術(shù)論文集[C];2009年

5 王海燕;谷明哲;王靜;孟小峰;;基于預(yù)定義模式的Web信息抽取[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2001年

6 楊高峰;楊岳湘;;基于RSS的個性化科技信息聚合門戶的設(shè)計與實現(xiàn)[A];2008通信理論與技術(shù)新進展——第十三屆全國青年通信學(xué)術(shù)會議論文集(上)[C];2008年

7 陳少飛;郝亞南;李天柱;張志強;張波;;Web信息抽取規(guī)則的優(yōu)化[A];第二十屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2003年

8 陳瀅;張宜紅;王能斌;;Web視圖技術(shù)研究[A];第十六屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集[C];1999年

9 陳佳;王騰蛟;;基于相關(guān)實例的異構(gòu)網(wǎng)頁提取模式的自動發(fā)現(xiàn)[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年

10 周春姐;孟小峰;文潔;;Flickr中的復(fù)合事件檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2010年

相關(guān)重要報紙文章 前9條

1 沈生;網(wǎng)關(guān)防毒需要“代理”加速[N];中國計算機報;2004年

2 英特爾(中國)有限公司系統(tǒng)工程師 尤晉;高速緩存在寬帶網(wǎng)中的應(yīng)用[N];網(wǎng)絡(luò)世界;2001年

3 李剛;不能犧牲性能[N];中國計算機報;2004年

4 馬志彥;Lotus平臺,便宜還是貴?[N];中國計算機報;2002年

5 ;服務(wù)器端緩存提速電子商務(wù)[N];網(wǎng)絡(luò)世界;2000年

6 ;放心地實施業(yè)務(wù)應(yīng)用[N];中國計算機報;2000年

7 安徽 朱軍;用FrontPage 2000組建中文論壇[N];中國電腦教育報;2000年

8 ;Internet存儲技術(shù)[N];網(wǎng)絡(luò)世界;2001年

9 方圓;省錢提速大法[N];中國計算機報;2000年

相關(guān)博士學(xué)位論文 前10條

1 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年

2 陳治平;智能搜索引擎理論與應(yīng)用研究[D];湖南大學(xué);2003年

3 何召衛(wèi);受限本體相似[D];北京郵電大學(xué);2008年

4 胡燕;基于Web信息抽取的專業(yè)知識獲取方法研究[D];武漢理工大學(xué);2007年

5 方巍;基于本體的Deep Web信息集成關(guān)鍵技術(shù)研究[D];蘇州大學(xué);2009年

6 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

7 宋鑫瑩;網(wǎng)絡(luò)信息自動化高效抽取技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2013年

8 傅魁;基于Web的本體學(xué)習(xí)研究[D];武漢理工大學(xué);2007年

9 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

10 曹魯慧;Web個人信息集成問題研究[D];山東大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 楊柱;基于DIV標(biāo)簽樹的網(wǎng)頁主題信息抽取方法[D];湖南大學(xué);2010年

2 田紅;表格信息抽取引擎的設(shè)計與實現(xiàn)[D];西北師范大學(xué);2004年

3 楊文柱;基于領(lǐng)域知識和信息抽取的個性化Web查詢系統(tǒng)[D];河北大學(xué);2002年

4 張志強;Web信息抽取技術(shù)研究與基于Web service的實現(xiàn)[D];河北大學(xué);2004年

5 王花;Web信息抽取技術(shù)研究[D];西北農(nóng)林科技大學(xué);2010年

6 楊秀麗;基于網(wǎng)頁內(nèi)容分析的Web信息抽取技術(shù)及其應(yīng)用[D];河北科技大學(xué);2010年

7 蔣偉華;搜索引擎中的信息抽取技術(shù)研究[D];湖南大學(xué);2001年

8 張紹華;基于實例的Web信息抽取[D];河北大學(xué);2001年

9 朱道輝;基于條件隨機域的Web信息抽取研究[D];南華大學(xué);2010年

10 全福亮;面向精確Web信息抽取的自動數(shù)據(jù)記錄分析和識別技術(shù)研究[D];南京大學(xué);2011年

,

本文編號:1368623

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/1368623.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶501db***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com