基于Fish-search算法的垂直搜索引擎研究與設(shè)計
發(fā)布時間:2017-08-07 20:01
本文關(guān)鍵詞:基于Fish-search算法的垂直搜索引擎研究與設(shè)計
更多相關(guān)文章: 搜索引擎 相關(guān)度 主題爬蟲 Fish-search算法
【摘要】:互聯(lián)網(wǎng)的高速發(fā)展使得網(wǎng)絡(luò)信息資源急劇的增長,通用搜索引擎在信息的檢索方面已經(jīng)無法滿足用戶的需求,如今信息檢索追求的是準(zhǔn)確性,同時信息檢索應(yīng)具有一定的深度。通用搜索引擎返回給用戶的信息雖然多,但并不是用戶所需要的信息,所以通用搜索引擎檢索的結(jié)果雖然覆蓋全面,但是在檢索的結(jié)果準(zhǔn)確性方面還是差了一些。針對這種問題的出現(xiàn),專業(yè)化的垂直搜索引擎也被提了出來。垂直搜索引擎就是一種針對特定領(lǐng)域或者特定主題的搜索引擎,在搜索結(jié)果的準(zhǔn)確性方面有了很大的提高,一定程度上滿足了用戶檢索的需求。 論文中主要研究的就是垂直搜索引擎的設(shè)計,垂直搜索引擎的核心模塊就是主題爬蟲。主題爬蟲就是抓取與主題相關(guān)的網(wǎng)頁,并下載該網(wǎng)頁。所以重點就在于如何判斷主題與網(wǎng)頁的相關(guān)度,論文中采用了改進(jìn)的布爾模型進(jìn)行網(wǎng)頁與主題相關(guān)度的計算,相關(guān)度不但決定了當(dāng)前網(wǎng)頁是否需要存儲,同時也是待爬鏈接列表中鏈接優(yōu)先級的參考值,而且還是最后檢索結(jié)果排序的主要依據(jù);另外主題爬蟲的爬行策略采用的是改進(jìn)的Fish-search算法。網(wǎng)頁下載后還需要提取其中的重要內(nèi)容作為檢索的條件以及網(wǎng)頁的信息描述,網(wǎng)頁信息抽取方式采用的是正則表達(dá)式進(jìn)行相關(guān)信息的匹配并提取出正確匹配的信息。用戶檢索需要的信息時根據(jù)輸入的關(guān)鍵詞推薦一些與關(guān)鍵詞相關(guān)的搜索詞或者短句,為用戶提供更友好的檢索界面。 論文最終完成了垂直搜索引擎的設(shè)計,與通用搜索引擎相比較,在檢索特定的主題關(guān)鍵詞時,本文設(shè)計的垂直搜索引擎檢索的結(jié)果要比通用搜索引擎檢索的結(jié)果準(zhǔn)確得多,而且本文設(shè)計的搜索引擎檢索的結(jié)果頁面大多與主題具有很好的相關(guān)性。所以在特定領(lǐng)域,本文設(shè)計的垂直搜索引擎在檢索結(jié)果的準(zhǔn)確性方面有很大的提高,基本上達(dá)到了論文研究的目的。
【關(guān)鍵詞】:搜索引擎 相關(guān)度 主題爬蟲 Fish-search算法
【學(xué)位授予單位】:安徽理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要5-6
- Abstract6-12
- 插圖或附表清單12-13
- 引言13-14
- 1 緒論14-18
- 1.1 課題的背景及研究意義14-15
- 1.2 國內(nèi)外研究發(fā)展現(xiàn)狀15-16
- 1.3 論文的主要研究內(nèi)容16
- 1.4 論文的結(jié)構(gòu)16-18
- 2 垂直搜索引擎簡介18-25
- 2.1 通用搜索引擎簡介18-20
- 2.1.1 通用搜索引擎的發(fā)展歷史18-19
- 2.1.2 通用搜索引擎的分類19-20
- 2.2 垂直搜索引擎概述20-23
- 2.2.1 垂直搜索引擎基本概念20-21
- 2.2.2 垂直搜索引擎的主要模塊21-23
- 2.3 垂直搜索引擎與通用搜索引擎區(qū)別23-24
- 2.4 本章小結(jié)24-25
- 3 垂直搜索引擎關(guān)鍵技術(shù)25-36
- 3.1 主題相關(guān)性判定25-26
- 3.1.1 布爾模型25
- 3.1.2 向量空間模型25-26
- 3.2 網(wǎng)頁結(jié)構(gòu)化信息抽取技術(shù)26-29
- 3.2.1 結(jié)構(gòu)化信息抽取簡介26-27
- 3.2.2 結(jié)構(gòu)化信息抽取規(guī)則生成方式27-28
- 3.2.3 結(jié)構(gòu)化信息主要的抽取技術(shù)28-29
- 3.3 索引技術(shù)29-32
- 3.3.1 索引簡介及框架結(jié)構(gòu)29-30
- 3.3.2 倒排索引30-32
- 3.4 中文分詞技術(shù)32-35
- 3.4.1 中文分詞概述32-33
- 3.4.2 中文分詞的主要方法33-35
- 3.4.3 中文分詞的選擇35
- 3.5 本章小結(jié)35-36
- 4 主題爬蟲搜索策略的設(shè)計36-46
- 4.1 主題爬蟲簡介36-39
- 4.1.1 主題爬蟲的工作原理36-37
- 4.1.2 主題爬蟲的結(jié)構(gòu)37-39
- 4.2 主要的搜索策略39-41
- 4.3 主題爬蟲算法設(shè)計41-45
- 4.3.1 Fish-search算法改進(jìn)內(nèi)容41-42
- 4.3.2 相關(guān)度判定模型改進(jìn)42-44
- 4.3.3 網(wǎng)頁鏈接選擇方式改進(jìn)44-45
- 4.4 本章小結(jié)45-46
- 5 垂直搜索引擎的設(shè)計與實現(xiàn)46-55
- 5.1 主題種子初始化模塊46-47
- 5.1.1 主題種子選擇46
- 5.1.2 主題的描述46-47
- 5.2 網(wǎng)頁采集模塊47
- 5.3 網(wǎng)頁分析模塊47-50
- 5.3.1 編碼的處理47-48
- 5.3.2 網(wǎng)頁信息抽取48-49
- 5.3.3 網(wǎng)頁信息描述49-50
- 5.4 索引模塊50-51
- 5.5 用戶檢索模塊51-52
- 5.5.1 檢索結(jié)果排序51
- 5.5.2 相關(guān)搜索推薦51-52
- 5.6 系統(tǒng)分析52-54
- 5.7 本章小結(jié)54-55
- 結(jié)論55-57
- 參考文獻(xiàn)57-59
- 致謝59-60
- 作者簡介及主要科研成果60
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前6條
1 董妍汝;;中文分詞技術(shù)在搜索引擎中的應(yīng)用[J];辦公自動化;2010年04期
2 王改香;;搜索引擎的體系結(jié)構(gòu)與索引技術(shù)探析[J];長江大學(xué)學(xué)報(自然科學(xué)版);2011年03期
3 凌美秀;關(guān)于搜索引擎當(dāng)前存在的主要問題及其發(fā)展趨勢的探討[J];高校圖書館工作;2001年05期
4 劉運(yùn)強(qiáng);;垂直搜索引擎的研究與設(shè)計[J];計算機(jī)應(yīng)用與軟件;2010年07期
5 池勇敏;郝泳濤;;分布式主題爬蟲的設(shè)計與實現(xiàn)[J];計算機(jī)應(yīng)用與軟件;2010年12期
6 王文鈞;李巍;;垂直搜索引擎的現(xiàn)狀與發(fā)展探究[J];情報科學(xué);2010年03期
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年
,本文編號:636426
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/636426.html
最近更新
教材專著