天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

自適應(yīng)Web數(shù)據(jù)抽取技術(shù)研究

發(fā)布時間:2017-11-24 15:27

  本文關(guān)鍵詞:自適應(yīng)Web數(shù)據(jù)抽取技術(shù)研究


  更多相關(guān)文章: VIPS算法 視覺特征 正文抽取 數(shù)據(jù)抽取


【摘要】:自20世紀(jì)90年代以來Internet技術(shù)得到了高速和深入發(fā)展,互聯(lián)網(wǎng)上的信息資源呈現(xiàn)爆炸式增長,當(dāng)今的互聯(lián)網(wǎng)已成為一個巨大而開放的知識庫。但是Web頁面中的信息格式復(fù)雜多樣,除了正文之外還包含導(dǎo)航欄、廣告鏈接、相關(guān)閱讀等噪音信息,這些噪音信息的存在極大地影響了搜索引擎的效率和準(zhǔn)確率。因此,研究如何自適應(yīng)抽取Web網(wǎng)頁信息成為了一個重要的研究課題。Web頁面一般為半結(jié)構(gòu)化頁面,其構(gòu)成語言缺乏嚴(yán)格規(guī)范的語法,而且HTML標(biāo)簽并不表達(dá)有意義的語義信息,所以傳統(tǒng)的自然語言處理技術(shù)無法很好的勝任Web頁面的信息抽取工作。從用戶角度看,Web頁面經(jīng)過瀏覽器的渲染,其中包含了大量的視覺特征和統(tǒng)計特征等等,利用這些頁面特征可以實現(xiàn)Web頁面數(shù)據(jù)的抽取。本文的研究內(nèi)容主要針對輿情分析需求,研究Web上輿情數(shù)據(jù)抽取技術(shù)。具體研究包括:1.針對Web正文信息抽取問題提出了一種基于Web頁面視覺特征的正文抽取方法。根據(jù)HTML5和網(wǎng)頁布局的特點(diǎn)對VIPS算法的規(guī)則做了調(diào)整,并應(yīng)用VIPS算法將Web頁面分割成獨(dú)立語義塊。根據(jù)視覺和統(tǒng)計特征提出了輿情數(shù)據(jù)的抽取規(guī)則,利用規(guī)則刪除非正文視覺塊,抽取出頁面的正文信息塊,最后將正文信息塊中的數(shù)據(jù)組成正文。2.設(shè)計了一種自適應(yīng)Web頁面數(shù)據(jù)抽取方法。方法應(yīng)用XPath表達(dá)式抽取頁面實體數(shù)據(jù),并使用模板記錄頁面數(shù)據(jù)特征。若頁面結(jié)構(gòu)發(fā)生變化導(dǎo)致原XPath表達(dá)式無法正確抽取數(shù)據(jù),則根據(jù)模板記錄搜索數(shù)據(jù)。為增加搜索效率,采用由葉子節(jié)點(diǎn)向根節(jié)點(diǎn)逆序搜索的策略。搜索成功后得到目標(biāo)數(shù)據(jù),并更新原XPath表達(dá)式,從而達(dá)到了自適應(yīng)頁面結(jié)構(gòu)的變化,減少人工干預(yù)的目的。3.研究了DOM樹和XPath等技術(shù),分別設(shè)計和實現(xiàn)了Web正文信息抽取和頁面數(shù)據(jù)抽取實驗。本文通過對10個主流的新聞類和論壇類網(wǎng)站的數(shù)據(jù)集進(jìn)行實驗分析。實驗結(jié)果表明,本文提出的正文抽取方法在準(zhǔn)確率上高于傳統(tǒng)算法,數(shù)據(jù)抽取方法在頁面變化后同樣達(dá)到了較高的準(zhǔn)確率。
【學(xué)位授予單位】:遼寧大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.1

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 成衛(wèi)青;于靜;楊晶;楊龍;;基于頁面分類的Web信息抽取方法研究[J];計算機(jī)技術(shù)與發(fā)展;2013年01期

2 胡少榮;孟嗣儀;劉云;張彥超;丁飛;;網(wǎng)頁信息自動抽取技術(shù)的研究[J];鐵路計算機(jī)應(yīng)用;2010年09期

3 安增文;徐杰鋒;;基于視覺特征的網(wǎng)頁正文提取方法研究[J];微型機(jī)與應(yīng)用;2010年03期

4 周佳穎;朱珍民;高曉芳;;基于統(tǒng)計與正文特征的中文網(wǎng)頁正文抽取研究[J];中文信息學(xué)報;2009年05期

5 李宏偉;史培中;張素智;;一種高效Web數(shù)據(jù)抽取包裝器的設(shè)計與實現(xiàn)[J];計算機(jī)技術(shù)與發(fā)展;2009年02期

6 黃玲;陳龍;;基于網(wǎng)頁分塊的正文信息提取方法[J];計算機(jī)應(yīng)用;2008年S2期

7 杜小勇;李曼;王珊;;本體學(xué)習(xí)研究綜述[J];軟件學(xué)報;2006年09期

8 鄧尚民;孫玉偉;;信息抽取系統(tǒng)的研究現(xiàn)狀[J];現(xiàn)代圖書情報技術(shù);2006年03期

9 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機(jī)應(yīng)用;2005年04期

10 孫承杰,關(guān)毅;基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報;2004年05期

,

本文編號:1222733

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1222733.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶880bd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美丰满大屁股一区二区三区| 护士又紧又深又湿又爽的视频| 日韩综合国产欧美一区| 日韩免费av一区二区三区| 国产精品午夜一区二区三区| 日韩欧美一区二区不卡看片| 丰满少妇被粗大猛烈进出视频| 国产一区二区三区成人精品| 亚洲av日韩一区二区三区四区| 免费性欧美重口味黄色| 久久福利视频视频一区二区| 精品欧美国产一二三区| 老司机精品国产在线视频| 内射精品欧美一区二区三区久久久 | 少妇人妻精品一区二区三区| 日韩av欧美中文字幕| 亚洲精品一区二区三区日韩| 欧美日韩综合综合久久久| 久久精品国产在热亚洲| 国产欧美日韩综合精品二区| 国产欧美日韩视频91| 中文文精品字幕一区二区 | 精品推荐国产麻豆剧传媒| 日本三区不卡高清更新二区| 亚洲精品国产精品日韩| 亚洲品质一区二区三区| 日韩av欧美中文字幕| 99精品国产自在现线观看| 91在线爽的少妇嗷嗷叫| 懂色一区二区三区四区| 国产午夜精品福利免费不| 欧美午夜一区二区福利视频| 久久本道综合色狠狠五月| 亚洲欧洲日韩综合二区| 成人国产一区二区三区精品麻豆 | 日韩不卡一区二区视频| 日本人妻免费一区二区三区| 国产麻豆一区二区三区在| 欧美精品日韩精品一区| 国产午夜福利在线免费观看| 美女黄片大全在线观看|