基于Web的實(shí)體信息提取和搜索研究

發(fā)布時(shí)間：2017-09-27 11:46

本文關(guān)鍵詞：基于Web的實(shí)體信息提取和搜索研究

【摘要】：隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)呈爆炸式的增長(zhǎng),因此高效的信息檢索技術(shù)對(duì)于幫助用戶獲取有用的信息具有重要的意義。目前搜索引擎技術(shù)已經(jīng)取得了很大的進(jìn)步,能夠基本滿足用戶對(duì)信息檢索的需求。但是目前搜索引擎技術(shù)大部分是基于頁(yè)面層的搜索,該技術(shù)存在固有的缺陷,查詢結(jié)果是以網(wǎng)頁(yè)鏈接的形式返回給用戶,用戶需要自己尋找信息所在的網(wǎng)頁(yè)。但是在很多情況下,用戶搜索的目標(biāo)是實(shí)體信息,如論文、地名、商品信息等。本文針對(duì)實(shí)體層的搜索技術(shù)進(jìn)行了研究,在已有的研究成果的基礎(chǔ)上,提出了一些新的解決方法。本文的主要工作包括:1、提出了一種基于鏈接模版樹的垂直爬蟲技術(shù),通過(guò)對(duì)目標(biāo)網(wǎng)站鏈接進(jìn)行分析,使用鏈接模版來(lái)歸納需要下載的鏈接,構(gòu)建正則鏈接樹來(lái)導(dǎo)航爬蟲的下載路徑,解決了網(wǎng)頁(yè)中存在的隧道問(wèn)題。實(shí)驗(yàn)中,在開源爬蟲Nutch的基礎(chǔ)上,以插件的形式實(shí)現(xiàn)本文提出的爬蟲算法,經(jīng)過(guò)比較,本文提出的方法能夠取得較好的召回率和效率。2、提出了一種基于DOM樹和XSL的實(shí)體信息抽取方法。首先對(duì)下載的Web頁(yè)面進(jìn)行預(yù)處理,通過(guò)訓(xùn)練數(shù)據(jù)提取出網(wǎng)頁(yè)中實(shí)體信息所在的路徑規(guī)則,然后通過(guò)XSL將Web頁(yè)面中的實(shí)體信息轉(zhuǎn)換為XML文件。也對(duì)頁(yè)面中出現(xiàn)多實(shí)體提取的情況,提出了相應(yīng)的解決方案。在單實(shí)體提取方法的基礎(chǔ)上,先提取頁(yè)面中的最大數(shù)據(jù)子樹,然后在最大數(shù)據(jù)子樹中提取多實(shí)體規(guī)則,來(lái)實(shí)現(xiàn)多實(shí)體信息的提取。實(shí)驗(yàn)結(jié)果表明,本文提出的實(shí)體信息提取方法能夠有效地提取實(shí)體信息。3、提出了適用于實(shí)體的索引結(jié)構(gòu),并對(duì)Lucene的評(píng)分算法進(jìn)行了改進(jìn)。通過(guò)對(duì)開源全文索引開發(fā)包Lucene架構(gòu)和代碼的分析,在文檔索引結(jié)構(gòu)的基礎(chǔ)上,提出了適用于實(shí)體信息的索引結(jié)構(gòu)。對(duì)于搜索結(jié)果的排序方面,本文對(duì)Lucene評(píng)分機(jī)制進(jìn)行了改進(jìn):計(jì)算出實(shí)體數(shù)據(jù)中詞語(yǔ)的IDF值,建立實(shí)體數(shù)據(jù)的IDF值數(shù)據(jù)庫(kù);查詢過(guò)程中,通過(guò)詞語(yǔ)的IDF值來(lái)設(shè)定查詢語(yǔ)句中不同詞語(yǔ)的重要程度,再計(jì)算每個(gè)實(shí)體獲得的評(píng)分,最后排序輸出。通過(guò)實(shí)驗(yàn)表明,該方法能夠獲得更好的返回結(jié)果。
【關(guān)鍵詞】：搜索引擎 垂直爬蟲 實(shí)體信息抽取 實(shí)體搜索
【學(xué)位授予單位】：電子科技大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類號(hào)】：TP391.3
【目錄】：

摘要5-6
Abstract6-11
第一章緒論11-20
1.1 研究工作的背景與意義11-12
1.2 搜索引擎的研究現(xiàn)狀12-17
1.2.1 傳統(tǒng)的搜索引擎技術(shù)12-14
1.2.2 基于Web的實(shí)體搜索研究現(xiàn)狀14-17
1.2.3 搜索引擎技術(shù)存在的問(wèn)題17
1.3 論文主要研究?jī)?nèi)容17-18
1.4 論文的結(jié)構(gòu)安排18-20
第二章基于WEB的實(shí)體搜索相關(guān)技術(shù)20-35
2.1 Web實(shí)體搜索引擎的體系結(jié)構(gòu)20-21
2.2 垂直爬蟲技術(shù)21-22
2.3 Web實(shí)體信息抽取技術(shù)22-32
2.3.1 Web網(wǎng)頁(yè)結(jié)構(gòu)22-23
2.3.2 信息抽取技術(shù)23-26
2.3.3 Web信息抽取技術(shù)26-32
2.4 信息檢索模型32-34
2.5 本章小結(jié)34-35
第三章基于鏈接模版樹的垂直爬蟲35-49
3.1 開源網(wǎng)絡(luò)爬蟲Nutch35-38
3.1.1 Nutch的運(yùn)行流程35-36
3.1.2 Nutch插件機(jī)制36-38
3.2 網(wǎng)頁(yè)隧道特征38-39
3.3 基于鏈接模版樹的垂直爬蟲39-44
3.3.1 目標(biāo)網(wǎng)頁(yè)鏈接樹40-41
3.3.2 抽取鏈接模版41-43
3.3.3 基于鏈接模版樹的爬蟲43-44
3.4 實(shí)驗(yàn)與分析44-48
3.4.1 召回率實(shí)驗(yàn)44-45
3.4.2 對(duì)比實(shí)驗(yàn)45-48
3.5 本章小結(jié)48-49
第四章基于DOM樹和XSL的WEB實(shí)體信息抽取49-65
4.1 相關(guān)技術(shù)49-50
4.1.1 XSL49
4.1.2 XPath49-50
4.1.3 XML50
4.2 目前Web信息提取方法的缺點(diǎn)50-52
4.3 基于DOM樹和XSL的實(shí)體信息抽取52-57
4.3.1 Web頁(yè)面預(yù)處理52-53
4.3.2 XML文檔解析53
4.3.3 路徑規(guī)則提取53-55
4.3.4 XSL轉(zhuǎn)換55-56
4.3.5 整體抽取過(guò)程描述56-57
4.4 網(wǎng)頁(yè)中多實(shí)體信息提取57-61
4.4.1 提取最大數(shù)據(jù)子樹58-59
4.4.2 提取多實(shí)體規(guī)則59-61
4.5 實(shí)驗(yàn)與分析61-64
4.6 本章小結(jié)64-65
第五章基于LUCENE的實(shí)體索引和搜索65-80
5.1 構(gòu)建實(shí)體索引65-70
5.1.1 Lucene分析和研究66-69
5.1.2 實(shí)體索引結(jié)構(gòu)69-70
5.2 實(shí)體檢索結(jié)果排序70-74
5.2.1 Lucene評(píng)分機(jī)制70-72
5.2.2 Lucene評(píng)分改進(jìn)72-74
5.3 實(shí)驗(yàn)與分析74-79
5.3.1 數(shù)據(jù)集74-75
5.3.2 評(píng)價(jià)指標(biāo)75
5.3.3 實(shí)驗(yàn)及結(jié)果75-77
5.3.4 實(shí)驗(yàn)演示77-79
5.4 本章小結(jié)79-80
第六章總結(jié)與展望80-82
致謝82-83
參考文獻(xiàn)83-87
在學(xué)期間的研究成果87-88

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

1 王志華;魏斌;李占波;趙偉;;基于本體的Web信息抽取系統(tǒng)[J];計(jì)算機(jī)工程與設(shè)計(jì);2012年07期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 王元龍;基于DOM和本體的Web信息抽取方法研究[D];遼寧大學(xué);2012年

，

本文編號(hào)：929518

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/929518.html

上一篇：面向稀疏數(shù)據(jù)的個(gè)性化推薦技術(shù)研究
下一篇：互聯(lián)網(wǎng)外文信息資源中文利用實(shí)現(xiàn)途徑研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Web的實(shí)體信息提取和搜索研究