面向聚焦的Web網(wǎng)頁(yè)獲取和信息抽取方法研究
發(fā)布時(shí)間:2017-06-17 10:13
本文關(guān)鍵詞:面向聚焦的Web網(wǎng)頁(yè)獲取和信息抽取方法研究,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)成為目前規(guī)模最大的信息載體,儲(chǔ)藏著大量有價(jià)值的信息,利用諸如Google、Baidu等信息檢索工具從互聯(lián)網(wǎng)上獲得目標(biāo)信息,已經(jīng)成為現(xiàn)代生活必不可少的組成部分。但隨著互聯(lián)網(wǎng)信息的不斷增加,簡(jiǎn)單的信息檢索已經(jīng)難以滿(mǎn)足實(shí)際需要,用戶(hù)常常被淹沒(méi)在過(guò)量的信息中。面對(duì)上述情況,以某個(gè)主題或結(jié)構(gòu)為目標(biāo)的、面向聚焦的信息抽取方法逐漸成為互聯(lián)網(wǎng)應(yīng)用研究的一個(gè)熱點(diǎn)。信息抽取是信息檢索技術(shù)的一個(gè)延伸,它可以將結(jié)構(gòu)化信息從半結(jié)構(gòu)或非結(jié)構(gòu)信息中提取出來(lái),Web信息抽取的應(yīng)用可以提高用戶(hù)對(duì)互聯(lián)網(wǎng)信息的利用率。由于Web網(wǎng)頁(yè)的海量性、動(dòng)態(tài)性、異構(gòu)性等特征,Web信息抽取技術(shù)面臨著可移植性的挑戰(zhàn)——針對(duì)某個(gè)網(wǎng)站或主題的信息抽取方法難以應(yīng)用到其他網(wǎng)站或主題上。本文圍繞Web信息抽取的可移植性,對(duì)面向聚焦的Web信息獲取和信息抽取方法進(jìn)行了研究。主要內(nèi)容如下:(1)本文提出了基于URL結(jié)構(gòu)過(guò)濾的非監(jiān)督的聚焦爬蟲(chóng)(Unsupervised focused crawler based on URL structure filtering,UURLSF)。此方法基于URL結(jié)構(gòu)分析,通過(guò)引入非監(jiān)督的權(quán)重調(diào)節(jié)機(jī)制判斷URL結(jié)構(gòu)模式,可以?xún)H用極少的樣本實(shí)現(xiàn)大規(guī)模網(wǎng)頁(yè)的跨網(wǎng)站獲取,較基于內(nèi)容的聚焦爬蟲(chóng)提高了執(zhí)行效率。通過(guò)實(shí)驗(yàn)對(duì)比了UURLSF與傳統(tǒng)方法在準(zhǔn)確率、收獲率和效率方面的效果。(2)本文提出了基于視覺(jué)單位的Web信息抽取方法。此方法基于Web網(wǎng)頁(yè)感知原理,將信息抽取分為視覺(jué)單位的識(shí)別和目標(biāo)信息的抽取兩部分。視覺(jué)單位的劃分過(guò)程獨(dú)立于HTML標(biāo)簽,提高了視覺(jué)單位識(shí)別的可擴(kuò)展性。本文將該方法應(yīng)用在新聞?wù)某槿≈?實(shí)驗(yàn)結(jié)果表明此方法具有較好的效果。(3)本文提出了基于增量聚類(lèi)的非模型的Web信息抽取方法。該方法面向以數(shù)據(jù)為驅(qū)動(dòng)的非模型推理機(jī)制,分別提出了基于全局和局部穩(wěn)定度的聚類(lèi)有效評(píng)價(jià)方法、面向Web信息抽取應(yīng)用的增量聚類(lèi)算法,并將其方法應(yīng)用在新聞?wù)某槿‘?dāng)中。跟傳統(tǒng)的基于建模的信息抽取方法相比,此方法能隨著樣本數(shù)量的增加不斷提高信息抽取效果。在互聯(lián)網(wǎng)數(shù)據(jù)極為豐富的背景下,這一方法有著更好的適應(yīng)性。
【關(guān)鍵詞】:Web信息抽取 聚焦爬蟲(chóng) 視覺(jué)單位 增量聚類(lèi)
【學(xué)位授予單位】:上海大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092;TP391.1
【目錄】:
- 摘要6-8
- ABSTRACT8-11
- 第一章 緒論11-19
- 1.1 研究背景11-13
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀概況13-16
- 1.3 論文的主要研究?jī)?nèi)容16-18
- 1.3.1 基于URL結(jié)構(gòu)過(guò)濾的非監(jiān)督的聚焦爬蟲(chóng)17
- 1.3.2 基于視覺(jué)單位的Web網(wǎng)頁(yè)信息抽取技術(shù)17
- 1.3.3 基于增量聚類(lèi)的非模型Web網(wǎng)頁(yè)信息抽取方法17-18
- 1.4 本文組織18-19
- 第二章Web信息抽取與相關(guān)技術(shù)19-27
- 2.1 Web信息抽取技術(shù)綜述19-25
- 2.1.1 基于包裝器的技術(shù)20-21
- 2.1.2 基于視覺(jué)的技術(shù)21
- 2.1.3 基于統(tǒng)計(jì)的技術(shù)21-22
- 2.1.4 基于本體的技術(shù)22-23
- 2.1.5 Web網(wǎng)頁(yè)處理相關(guān)技術(shù)23-25
- 2.2 小結(jié)25-27
- 第三章 基于URL結(jié)構(gòu)過(guò)濾的非監(jiān)督的聚焦爬蟲(chóng)27-45
- 3.1 概述27-29
- 3.2 相關(guān)工作29-30
- 3.3 基于URL結(jié)構(gòu)過(guò)濾的非監(jiān)督的聚焦爬蟲(chóng)30-36
- 3.3.1 URL結(jié)構(gòu)介紹30-32
- 3.3.2 URL過(guò)濾策略32-34
- 3.3.3 非監(jiān)督的權(quán)重調(diào)節(jié)機(jī)制34-36
- 3.4 實(shí)驗(yàn)與分析36-44
- 3.4.1 數(shù)據(jù)集36-37
- 3.4.2 實(shí)驗(yàn)結(jié)果與分析37-44
- 3.5 小結(jié)44-45
- 第四章 基于視覺(jué)單位的Web信息抽取技術(shù)及其在新聞?wù)某槿≈械膽?yīng)用45-52
- 4.1 概述45
- 4.2 相關(guān)工作45-46
- 4.3 基于視覺(jué)單位的Web信息抽取方法及應(yīng)用46-50
- 4.3.1 視覺(jué)單位識(shí)別47-48
- 4.3.2 新聞?wù)某槿〉膽?yīng)用48-50
- 4.4 實(shí)驗(yàn)與分析50-51
- 4.5 小結(jié)51-52
- 第五章 基于增量聚類(lèi)的非模型Web信息抽取方法52-69
- 5.1 概述52-53
- 5.2 相關(guān)工作53-54
- 5.3 有限增量聚類(lèi)方法54-61
- 5.3.1 假設(shè)和前提54-55
- 5.3.2 Kmeans的基本原理55-56
- 5.3.3 基于全局和局部穩(wěn)定度的聚類(lèi)有效評(píng)價(jià)方法56-58
- 5.3.4 面向信息抽取應(yīng)用的增量聚類(lèi)方法58-59
- 5.3.5 實(shí)驗(yàn)59-61
- 5.4 基于增量聚類(lèi)的非模型信息抽取方法在新聞?wù)某槿≈械膽?yīng)用61-68
- 5.4.1 新聞?wù)某槿∠嚓P(guān)文獻(xiàn)61-62
- 5.4.2 新聞?wù)某槿?/span>62-65
- 5.4.3 實(shí)驗(yàn)65-68
- 5.5 小結(jié)68-69
- 第六章 結(jié)論與展望69-71
- 6.1 研究工作的創(chuàng)新性69-70
- 6.2 研究工作的延展性70-71
- 參考文獻(xiàn)71-77
- 作者在攻讀碩士學(xué)位期間公開(kāi)發(fā)表的論文77-78
- 作者在攻讀碩士學(xué)位期間所作的項(xiàng)目78-79
- 致謝79
【參考文獻(xiàn)】
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 李傳席;基于本體的自適應(yīng)Web信息抽取方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2012年
本文關(guān)鍵詞:面向聚焦的Web網(wǎng)頁(yè)獲取和信息抽取方法研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):458085
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/458085.html
最近更新
教材專(zhuān)著