自適應(yīng)Web數(shù)據(jù)抽取技術(shù)研究

發(fā)布時(shí)間：2017-11-24 15:27

本文關(guān)鍵詞：自適應(yīng)Web數(shù)據(jù)抽取技術(shù)研究

更多相關(guān)文章： VIPS算法 視覺特征 正文抽取 數(shù)據(jù)抽取

【摘要】：自20世紀(jì)90年代以來Internet技術(shù)得到了高速和深入發(fā)展,互聯(lián)網(wǎng)上的信息資源呈現(xiàn)爆炸式增長,當(dāng)今的互聯(lián)網(wǎng)已成為一個(gè)巨大而開放的知識(shí)庫。但是Web頁面中的信息格式復(fù)雜多樣,除了正文之外還包含導(dǎo)航欄、廣告鏈接、相關(guān)閱讀等噪音信息,這些噪音信息的存在極大地影響了搜索引擎的效率和準(zhǔn)確率。因此,研究如何自適應(yīng)抽取Web網(wǎng)頁信息成為了一個(gè)重要的研究課題。Web頁面一般為半結(jié)構(gòu)化頁面,其構(gòu)成語言缺乏嚴(yán)格規(guī)范的語法,而且HTML標(biāo)簽并不表達(dá)有意義的語義信息,所以傳統(tǒng)的自然語言處理技術(shù)無法很好的勝任Web頁面的信息抽取工作。從用戶角度看,Web頁面經(jīng)過瀏覽器的渲染,其中包含了大量的視覺特征和統(tǒng)計(jì)特征等等,利用這些頁面特征可以實(shí)現(xiàn)Web頁面數(shù)據(jù)的抽取。本文的研究內(nèi)容主要針對(duì)輿情分析需求,研究Web上輿情數(shù)據(jù)抽取技術(shù)。具體研究包括：1.針對(duì)Web正文信息抽取問題提出了一種基于Web頁面視覺特征的正文抽取方法。根據(jù)HTML5和網(wǎng)頁布局的特點(diǎn)對(duì)VIPS算法的規(guī)則做了調(diào)整,并應(yīng)用VIPS算法將Web頁面分割成獨(dú)立語義塊。根據(jù)視覺和統(tǒng)計(jì)特征提出了輿情數(shù)據(jù)的抽取規(guī)則,利用規(guī)則刪除非正文視覺塊,抽取出頁面的正文信息塊,最后將正文信息塊中的數(shù)據(jù)組成正文。2.設(shè)計(jì)了一種自適應(yīng)Web頁面數(shù)據(jù)抽取方法。方法應(yīng)用XPath表達(dá)式抽取頁面實(shí)體數(shù)據(jù),并使用模板記錄頁面數(shù)據(jù)特征。若頁面結(jié)構(gòu)發(fā)生變化導(dǎo)致原XPath表達(dá)式無法正確抽取數(shù)據(jù),則根據(jù)模板記錄搜索數(shù)據(jù)。為增加搜索效率,采用由葉子節(jié)點(diǎn)向根節(jié)點(diǎn)逆序搜索的策略。搜索成功后得到目標(biāo)數(shù)據(jù),并更新原XPath表達(dá)式,從而達(dá)到了自適應(yīng)頁面結(jié)構(gòu)的變化,減少人工干預(yù)的目的。3.研究了DOM樹和XPath等技術(shù),分別設(shè)計(jì)和實(shí)現(xiàn)了Web正文信息抽取和頁面數(shù)據(jù)抽取實(shí)驗(yàn)。本文通過對(duì)10個(gè)主流的新聞?lì)惡驼搲惥W(wǎng)站的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析。實(shí)驗(yàn)結(jié)果表明,本文提出的正文抽取方法在準(zhǔn)確率上高于傳統(tǒng)算法,數(shù)據(jù)抽取方法在頁面變化后同樣達(dá)到了較高的準(zhǔn)確率。
【學(xué)位授予單位】：遼寧大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2016
【分類號(hào)】：TP393.092;TP391.1

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 成衛(wèi)青;于靜;楊晶;楊龍;;基于頁面分類的Web信息抽取方法研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年01期

2 胡少榮;孟嗣儀;劉云;張彥超;丁飛;;網(wǎng)頁信息自動(dòng)抽取技術(shù)的研究[J];鐵路計(jì)算機(jī)應(yīng)用;2010年09期

3 安增文;徐杰鋒;;基于視覺特征的網(wǎng)頁正文提取方法研究[J];微型機(jī)與應(yīng)用;2010年03期

4 周佳穎;朱珍民;高曉芳;;基于統(tǒng)計(jì)與正文特征的中文網(wǎng)頁正文抽取研究[J];中文信息學(xué)報(bào);2009年05期

5 李宏偉;史培中;張素智;;一種高效Web數(shù)據(jù)抽取包裝器的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年02期

6 黃玲;陳龍;;基于網(wǎng)頁分塊的正文信息提取方法[J];計(jì)算機(jī)應(yīng)用;2008年S2期

7 杜小勇;李曼;王珊;;本體學(xué)習(xí)研究綜述[J];軟件學(xué)報(bào);2006年09期

8 鄧尚民;孫玉偉;;信息抽取系統(tǒng)的研究現(xiàn)狀[J];現(xiàn)代圖書情報(bào)技術(shù);2006年03期

9 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計(jì)[J];計(jì)算機(jī)應(yīng)用;2005年04期

10 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期

，

本文編號(hào)：1222733

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1222733.html

上一篇：天門糖塑數(shù)字化保護(hù)與傳承
下一篇：細(xì)數(shù)SEO 優(yōu)化你必須注意的七大要素

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

自適應(yīng)Web數(shù)據(jù)抽取技術(shù)研究