天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向聚焦的Web網(wǎng)頁獲取和信息抽取方法研究

發(fā)布時間:2017-06-17 10:13

  本文關(guān)鍵詞:面向聚焦的Web網(wǎng)頁獲取和信息抽取方法研究,由筆耕文化傳播整理發(fā)布。


【摘要】:互聯(lián)網(wǎng)成為目前規(guī)模最大的信息載體,儲藏著大量有價值的信息,利用諸如Google、Baidu等信息檢索工具從互聯(lián)網(wǎng)上獲得目標(biāo)信息,已經(jīng)成為現(xiàn)代生活必不可少的組成部分。但隨著互聯(lián)網(wǎng)信息的不斷增加,簡單的信息檢索已經(jīng)難以滿足實際需要,用戶常常被淹沒在過量的信息中。面對上述情況,以某個主題或結(jié)構(gòu)為目標(biāo)的、面向聚焦的信息抽取方法逐漸成為互聯(lián)網(wǎng)應(yīng)用研究的一個熱點(diǎn)。信息抽取是信息檢索技術(shù)的一個延伸,它可以將結(jié)構(gòu)化信息從半結(jié)構(gòu)或非結(jié)構(gòu)信息中提取出來,Web信息抽取的應(yīng)用可以提高用戶對互聯(lián)網(wǎng)信息的利用率。由于Web網(wǎng)頁的海量性、動態(tài)性、異構(gòu)性等特征,Web信息抽取技術(shù)面臨著可移植性的挑戰(zhàn)——針對某個網(wǎng)站或主題的信息抽取方法難以應(yīng)用到其他網(wǎng)站或主題上。本文圍繞Web信息抽取的可移植性,對面向聚焦的Web信息獲取和信息抽取方法進(jìn)行了研究。主要內(nèi)容如下:(1)本文提出了基于URL結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲(Unsupervised focused crawler based on URL structure filtering,UURLSF)。此方法基于URL結(jié)構(gòu)分析,通過引入非監(jiān)督的權(quán)重調(diào)節(jié)機(jī)制判斷URL結(jié)構(gòu)模式,可以僅用極少的樣本實現(xiàn)大規(guī)模網(wǎng)頁的跨網(wǎng)站獲取,較基于內(nèi)容的聚焦爬蟲提高了執(zhí)行效率。通過實驗對比了UURLSF與傳統(tǒng)方法在準(zhǔn)確率、收獲率和效率方面的效果。(2)本文提出了基于視覺單位的Web信息抽取方法。此方法基于Web網(wǎng)頁感知原理,將信息抽取分為視覺單位的識別和目標(biāo)信息的抽取兩部分。視覺單位的劃分過程獨(dú)立于HTML標(biāo)簽,提高了視覺單位識別的可擴(kuò)展性。本文將該方法應(yīng)用在新聞?wù)某槿≈?實驗結(jié)果表明此方法具有較好的效果。(3)本文提出了基于增量聚類的非模型的Web信息抽取方法。該方法面向以數(shù)據(jù)為驅(qū)動的非模型推理機(jī)制,分別提出了基于全局和局部穩(wěn)定度的聚類有效評價方法、面向Web信息抽取應(yīng)用的增量聚類算法,并將其方法應(yīng)用在新聞?wù)某槿‘?dāng)中。跟傳統(tǒng)的基于建模的信息抽取方法相比,此方法能隨著樣本數(shù)量的增加不斷提高信息抽取效果。在互聯(lián)網(wǎng)數(shù)據(jù)極為豐富的背景下,這一方法有著更好的適應(yīng)性。
【關(guān)鍵詞】:Web信息抽取 聚焦爬蟲 視覺單位 增量聚類
【學(xué)位授予單位】:上海大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.092;TP391.1
【目錄】:
  • 摘要6-8
  • ABSTRACT8-11
  • 第一章 緒論11-19
  • 1.1 研究背景11-13
  • 1.2 國內(nèi)外研究現(xiàn)狀概況13-16
  • 1.3 論文的主要研究內(nèi)容16-18
  • 1.3.1 基于URL結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲17
  • 1.3.2 基于視覺單位的Web網(wǎng)頁信息抽取技術(shù)17
  • 1.3.3 基于增量聚類的非模型Web網(wǎng)頁信息抽取方法17-18
  • 1.4 本文組織18-19
  • 第二章Web信息抽取與相關(guān)技術(shù)19-27
  • 2.1 Web信息抽取技術(shù)綜述19-25
  • 2.1.1 基于包裝器的技術(shù)20-21
  • 2.1.2 基于視覺的技術(shù)21
  • 2.1.3 基于統(tǒng)計的技術(shù)21-22
  • 2.1.4 基于本體的技術(shù)22-23
  • 2.1.5 Web網(wǎng)頁處理相關(guān)技術(shù)23-25
  • 2.2 小結(jié)25-27
  • 第三章 基于URL結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲27-45
  • 3.1 概述27-29
  • 3.2 相關(guān)工作29-30
  • 3.3 基于URL結(jié)構(gòu)過濾的非監(jiān)督的聚焦爬蟲30-36
  • 3.3.1 URL結(jié)構(gòu)介紹30-32
  • 3.3.2 URL過濾策略32-34
  • 3.3.3 非監(jiān)督的權(quán)重調(diào)節(jié)機(jī)制34-36
  • 3.4 實驗與分析36-44
  • 3.4.1 數(shù)據(jù)集36-37
  • 3.4.2 實驗結(jié)果與分析37-44
  • 3.5 小結(jié)44-45
  • 第四章 基于視覺單位的Web信息抽取技術(shù)及其在新聞?wù)某槿≈械膽?yīng)用45-52
  • 4.1 概述45
  • 4.2 相關(guān)工作45-46
  • 4.3 基于視覺單位的Web信息抽取方法及應(yīng)用46-50
  • 4.3.1 視覺單位識別47-48
  • 4.3.2 新聞?wù)某槿〉膽?yīng)用48-50
  • 4.4 實驗與分析50-51
  • 4.5 小結(jié)51-52
  • 第五章 基于增量聚類的非模型Web信息抽取方法52-69
  • 5.1 概述52-53
  • 5.2 相關(guān)工作53-54
  • 5.3 有限增量聚類方法54-61
  • 5.3.1 假設(shè)和前提54-55
  • 5.3.2 Kmeans的基本原理55-56
  • 5.3.3 基于全局和局部穩(wěn)定度的聚類有效評價方法56-58
  • 5.3.4 面向信息抽取應(yīng)用的增量聚類方法58-59
  • 5.3.5 實驗59-61
  • 5.4 基于增量聚類的非模型信息抽取方法在新聞?wù)某槿≈械膽?yīng)用61-68
  • 5.4.1 新聞?wù)某槿∠嚓P(guān)文獻(xiàn)61-62
  • 5.4.2 新聞?wù)某槿?/span>62-65
  • 5.4.3 實驗65-68
  • 5.5 小結(jié)68-69
  • 第六章 結(jié)論與展望69-71
  • 6.1 研究工作的創(chuàng)新性69-70
  • 6.2 研究工作的延展性70-71
  • 參考文獻(xiàn)71-77
  • 作者在攻讀碩士學(xué)位期間公開發(fā)表的論文77-78
  • 作者在攻讀碩士學(xué)位期間所作的項目78-79
  • 致謝79

【參考文獻(xiàn)】

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國科學(xué)技術(shù)大學(xué);2012年


  本文關(guān)鍵詞:面向聚焦的Web網(wǎng)頁獲取和信息抽取方法研究,由筆耕文化傳播整理發(fā)布。

,

本文編號:458085

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/guanlilunwen/ydhl/458085.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶85b65***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com