自適應(yīng)Web數(shù)據(jù)抽取技術(shù)研究
本文關(guān)鍵詞:自適應(yīng)Web數(shù)據(jù)抽取技術(shù)研究
更多相關(guān)文章: VIPS算法 視覺特征 正文抽取 數(shù)據(jù)抽取
【摘要】:自20世紀(jì)90年代以來Internet技術(shù)得到了高速和深入發(fā)展,互聯(lián)網(wǎng)上的信息資源呈現(xiàn)爆炸式增長,當(dāng)今的互聯(lián)網(wǎng)已成為一個巨大而開放的知識庫。但是Web頁面中的信息格式復(fù)雜多樣,除了正文之外還包含導(dǎo)航欄、廣告鏈接、相關(guān)閱讀等噪音信息,這些噪音信息的存在極大地影響了搜索引擎的效率和準(zhǔn)確率。因此,研究如何自適應(yīng)抽取Web網(wǎng)頁信息成為了一個重要的研究課題。Web頁面一般為半結(jié)構(gòu)化頁面,其構(gòu)成語言缺乏嚴(yán)格規(guī)范的語法,而且HTML標(biāo)簽并不表達(dá)有意義的語義信息,所以傳統(tǒng)的自然語言處理技術(shù)無法很好的勝任Web頁面的信息抽取工作。從用戶角度看,Web頁面經(jīng)過瀏覽器的渲染,其中包含了大量的視覺特征和統(tǒng)計特征等等,利用這些頁面特征可以實現(xiàn)Web頁面數(shù)據(jù)的抽取。本文的研究內(nèi)容主要針對輿情分析需求,研究Web上輿情數(shù)據(jù)抽取技術(shù)。具體研究包括:1.針對Web正文信息抽取問題提出了一種基于Web頁面視覺特征的正文抽取方法。根據(jù)HTML5和網(wǎng)頁布局的特點(diǎn)對VIPS算法的規(guī)則做了調(diào)整,并應(yīng)用VIPS算法將Web頁面分割成獨(dú)立語義塊。根據(jù)視覺和統(tǒng)計特征提出了輿情數(shù)據(jù)的抽取規(guī)則,利用規(guī)則刪除非正文視覺塊,抽取出頁面的正文信息塊,最后將正文信息塊中的數(shù)據(jù)組成正文。2.設(shè)計了一種自適應(yīng)Web頁面數(shù)據(jù)抽取方法。方法應(yīng)用XPath表達(dá)式抽取頁面實體數(shù)據(jù),并使用模板記錄頁面數(shù)據(jù)特征。若頁面結(jié)構(gòu)發(fā)生變化導(dǎo)致原XPath表達(dá)式無法正確抽取數(shù)據(jù),則根據(jù)模板記錄搜索數(shù)據(jù)。為增加搜索效率,采用由葉子節(jié)點(diǎn)向根節(jié)點(diǎn)逆序搜索的策略。搜索成功后得到目標(biāo)數(shù)據(jù),并更新原XPath表達(dá)式,從而達(dá)到了自適應(yīng)頁面結(jié)構(gòu)的變化,減少人工干預(yù)的目的。3.研究了DOM樹和XPath等技術(shù),分別設(shè)計和實現(xiàn)了Web正文信息抽取和頁面數(shù)據(jù)抽取實驗。本文通過對10個主流的新聞類和論壇類網(wǎng)站的數(shù)據(jù)集進(jìn)行實驗分析。實驗結(jié)果表明,本文提出的正文抽取方法在準(zhǔn)確率上高于傳統(tǒng)算法,數(shù)據(jù)抽取方法在頁面變化后同樣達(dá)到了較高的準(zhǔn)確率。
【學(xué)位授予單位】:遼寧大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.1
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 成衛(wèi)青;于靜;楊晶;楊龍;;基于頁面分類的Web信息抽取方法研究[J];計算機(jī)技術(shù)與發(fā)展;2013年01期
2 胡少榮;孟嗣儀;劉云;張彥超;丁飛;;網(wǎng)頁信息自動抽取技術(shù)的研究[J];鐵路計算機(jī)應(yīng)用;2010年09期
3 安增文;徐杰鋒;;基于視覺特征的網(wǎng)頁正文提取方法研究[J];微型機(jī)與應(yīng)用;2010年03期
4 周佳穎;朱珍民;高曉芳;;基于統(tǒng)計與正文特征的中文網(wǎng)頁正文抽取研究[J];中文信息學(xué)報;2009年05期
5 李宏偉;史培中;張素智;;一種高效Web數(shù)據(jù)抽取包裝器的設(shè)計與實現(xiàn)[J];計算機(jī)技術(shù)與發(fā)展;2009年02期
6 黃玲;陳龍;;基于網(wǎng)頁分塊的正文信息提取方法[J];計算機(jī)應(yīng)用;2008年S2期
7 杜小勇;李曼;王珊;;本體學(xué)習(xí)研究綜述[J];軟件學(xué)報;2006年09期
8 鄧尚民;孫玉偉;;信息抽取系統(tǒng)的研究現(xiàn)狀[J];現(xiàn)代圖書情報技術(shù);2006年03期
9 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設(shè)計[J];計算機(jī)應(yīng)用;2005年04期
10 孫承杰,關(guān)毅;基于統(tǒng)計的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報;2004年05期
,本文編號:1222733
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1222733.html