基于Web的實(shí)體信息提取和搜索研究
發(fā)布時(shí)間:2017-09-27 11:46
本文關(guān)鍵詞:基于Web的實(shí)體信息提取和搜索研究
更多相關(guān)文章: 搜索引擎 垂直爬蟲 實(shí)體信息抽取 實(shí)體搜索
【摘要】:隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)呈爆炸式的增長(zhǎng),因此高效的信息檢索技術(shù)對(duì)于幫助用戶獲取有用的信息具有重要的意義。目前搜索引擎技術(shù)已經(jīng)取得了很大的進(jìn)步,能夠基本滿足用戶對(duì)信息檢索的需求。但是目前搜索引擎技術(shù)大部分是基于頁(yè)面層的搜索,該技術(shù)存在固有的缺陷,查詢結(jié)果是以網(wǎng)頁(yè)鏈接的形式返回給用戶,用戶需要自己尋找信息所在的網(wǎng)頁(yè)。但是在很多情況下,用戶搜索的目標(biāo)是實(shí)體信息,如論文、地名、商品信息等。本文針對(duì)實(shí)體層的搜索技術(shù)進(jìn)行了研究,在已有的研究成果的基礎(chǔ)上,提出了一些新的解決方法。本文的主要工作包括:1、提出了一種基于鏈接模版樹的垂直爬蟲技術(shù),通過(guò)對(duì)目標(biāo)網(wǎng)站鏈接進(jìn)行分析,使用鏈接模版來(lái)歸納需要下載的鏈接,構(gòu)建正則鏈接樹來(lái)導(dǎo)航爬蟲的下載路徑,解決了網(wǎng)頁(yè)中存在的隧道問(wèn)題。實(shí)驗(yàn)中,在開源爬蟲Nutch的基礎(chǔ)上,以插件的形式實(shí)現(xiàn)本文提出的爬蟲算法,經(jīng)過(guò)比較,本文提出的方法能夠取得較好的召回率和效率。2、提出了一種基于DOM樹和XSL的實(shí)體信息抽取方法。首先對(duì)下載的Web頁(yè)面進(jìn)行預(yù)處理,通過(guò)訓(xùn)練數(shù)據(jù)提取出網(wǎng)頁(yè)中實(shí)體信息所在的路徑規(guī)則,然后通過(guò)XSL將Web頁(yè)面中的實(shí)體信息轉(zhuǎn)換為XML文件。也對(duì)頁(yè)面中出現(xiàn)多實(shí)體提取的情況,提出了相應(yīng)的解決方案。在單實(shí)體提取方法的基礎(chǔ)上,先提取頁(yè)面中的最大數(shù)據(jù)子樹,然后在最大數(shù)據(jù)子樹中提取多實(shí)體規(guī)則,來(lái)實(shí)現(xiàn)多實(shí)體信息的提取。實(shí)驗(yàn)結(jié)果表明,本文提出的實(shí)體信息提取方法能夠有效地提取實(shí)體信息。3、提出了適用于實(shí)體的索引結(jié)構(gòu),并對(duì)Lucene的評(píng)分算法進(jìn)行了改進(jìn)。通過(guò)對(duì)開源全文索引開發(fā)包Lucene架構(gòu)和代碼的分析,在文檔索引結(jié)構(gòu)的基礎(chǔ)上,提出了適用于實(shí)體信息的索引結(jié)構(gòu)。對(duì)于搜索結(jié)果的排序方面,本文對(duì)Lucene評(píng)分機(jī)制進(jìn)行了改進(jìn):計(jì)算出實(shí)體數(shù)據(jù)中詞語(yǔ)的IDF值,建立實(shí)體數(shù)據(jù)的IDF值數(shù)據(jù)庫(kù);查詢過(guò)程中,通過(guò)詞語(yǔ)的IDF值來(lái)設(shè)定查詢語(yǔ)句中不同詞語(yǔ)的重要程度,再計(jì)算每個(gè)實(shí)體獲得的評(píng)分,最后排序輸出。通過(guò)實(shí)驗(yàn)表明,該方法能夠獲得更好的返回結(jié)果。
【關(guān)鍵詞】:搜索引擎 垂直爬蟲 實(shí)體信息抽取 實(shí)體搜索
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-11
- 第一章 緒論11-20
- 1.1 研究工作的背景與意義11-12
- 1.2 搜索引擎的研究現(xiàn)狀12-17
- 1.2.1 傳統(tǒng)的搜索引擎技術(shù)12-14
- 1.2.2 基于Web的實(shí)體搜索研究現(xiàn)狀14-17
- 1.2.3 搜索引擎技術(shù)存在的問(wèn)題17
- 1.3 論文主要研究?jī)?nèi)容17-18
- 1.4 論文的結(jié)構(gòu)安排18-20
- 第二章 基于WEB的實(shí)體搜索相關(guān)技術(shù)20-35
- 2.1 Web實(shí)體搜索引擎的體系結(jié)構(gòu)20-21
- 2.2 垂直爬蟲技術(shù)21-22
- 2.3 Web實(shí)體信息抽取技術(shù)22-32
- 2.3.1 Web網(wǎng)頁(yè)結(jié)構(gòu)22-23
- 2.3.2 信息抽取技術(shù)23-26
- 2.3.3 Web信息抽取技術(shù)26-32
- 2.4 信息檢索模型32-34
- 2.5 本章小結(jié)34-35
- 第三章 基于鏈接模版樹的垂直爬蟲35-49
- 3.1 開源網(wǎng)絡(luò)爬蟲Nutch35-38
- 3.1.1 Nutch的運(yùn)行流程35-36
- 3.1.2 Nutch插件機(jī)制36-38
- 3.2 網(wǎng)頁(yè)隧道特征38-39
- 3.3 基于鏈接模版樹的垂直爬蟲39-44
- 3.3.1 目標(biāo)網(wǎng)頁(yè)鏈接樹40-41
- 3.3.2 抽取鏈接模版41-43
- 3.3.3 基于鏈接模版樹的爬蟲43-44
- 3.4 實(shí)驗(yàn)與分析44-48
- 3.4.1 召回率實(shí)驗(yàn)44-45
- 3.4.2 對(duì)比實(shí)驗(yàn)45-48
- 3.5 本章小結(jié)48-49
- 第四章 基于DOM樹和XSL的WEB實(shí)體信息抽取49-65
- 4.1 相關(guān)技術(shù)49-50
- 4.1.1 XSL49
- 4.1.2 XPath49-50
- 4.1.3 XML50
- 4.2 目前Web信息提取方法的缺點(diǎn)50-52
- 4.3 基于DOM樹和XSL的實(shí)體信息抽取52-57
- 4.3.1 Web頁(yè)面預(yù)處理52-53
- 4.3.2 XML文檔解析53
- 4.3.3 路徑規(guī)則提取53-55
- 4.3.4 XSL轉(zhuǎn)換55-56
- 4.3.5 整體抽取過(guò)程描述56-57
- 4.4 網(wǎng)頁(yè)中多實(shí)體信息提取57-61
- 4.4.1 提取最大數(shù)據(jù)子樹58-59
- 4.4.2 提取多實(shí)體規(guī)則59-61
- 4.5 實(shí)驗(yàn)與分析61-64
- 4.6 本章小結(jié)64-65
- 第五章 基于LUCENE的實(shí)體索引和搜索65-80
- 5.1 構(gòu)建實(shí)體索引65-70
- 5.1.1 Lucene分析和研究66-69
- 5.1.2 實(shí)體索引結(jié)構(gòu)69-70
- 5.2 實(shí)體檢索結(jié)果排序70-74
- 5.2.1 Lucene評(píng)分機(jī)制70-72
- 5.2.2 Lucene評(píng)分改進(jìn)72-74
- 5.3 實(shí)驗(yàn)與分析74-79
- 5.3.1 數(shù)據(jù)集74-75
- 5.3.2 評(píng)價(jià)指標(biāo)75
- 5.3.3 實(shí)驗(yàn)及結(jié)果75-77
- 5.3.4 實(shí)驗(yàn)演示77-79
- 5.4 本章小結(jié)79-80
- 第六章 總結(jié)與展望80-82
- 致謝82-83
- 參考文獻(xiàn)83-87
- 在學(xué)期間的研究成果87-88
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 王志華;魏斌;李占波;趙偉;;基于本體的Web信息抽取系統(tǒng)[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年07期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 王元龍;基于DOM和本體的Web信息抽取方法研究[D];遼寧大學(xué);2012年
,本文編號(hào):929518
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/929518.html
最近更新
教材專著