面向絲綢領(lǐng)域的垂直搜索引擎關(guān)鍵算法研究畢業(yè)論文.doc 全文免費(fèi)在線閱讀
本文關(guān)鍵詞:面向絲綢領(lǐng)域的垂直搜索引擎關(guān)鍵算法研究,由筆耕文化傳播整理發(fā)布。
文檔介紹:
面向絲綢領(lǐng)域的垂直搜索引擎關(guān)鍵算法研究摘要―I―摘要垂直搜索引擎是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類(lèi)專(zhuān)門(mén)的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后以某種形式返回給用戶。垂直搜索引擎與傳統(tǒng)的網(wǎng)頁(yè)搜索引擎最大的區(qū)別就是將網(wǎng)頁(yè)中的信息進(jìn)行結(jié)構(gòu)化的抽取。使得信息在抽取的時(shí)候就建立了分類(lèi),更好的適應(yīng)查詢需求。近幾年來(lái),垂直搜索引擎已經(jīng)被應(yīng)用到某些專(zhuān)業(yè)的領(lǐng)域(如化學(xué)、科技文獻(xiàn))。本文從研究和設(shè)計(jì)的角度對(duì)垂直搜索引擎的相關(guān)技術(shù)作了詳細(xì)的分析和討論,論述了目前搜索引擎的國(guó)內(nèi)外發(fā)展現(xiàn)狀和趨勢(shì)。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何評(píng)價(jià)頁(yè)面的主題相關(guān)性和設(shè)計(jì)高效的爬行策略這兩個(gè)關(guān)鍵問(wèn)題,提出一個(gè)基于絲綢信息的定題搜索器,它是垂直搜索引擎的核心。在文章的主體部分,以搜索引擎的設(shè)計(jì)流程為主線,重點(diǎn)論述垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)時(shí)一些獨(dú)特的信息識(shí)別方法,包括pagerank和HITS算法。從HTML頁(yè)面解析的一般概念入手,結(jié)合網(wǎng)頁(yè)之間的超鏈接分析,按照搜索引擎系統(tǒng)的要求,采用深度優(yōu)先的搜索策略設(shè)計(jì)具有垂直搜索引擎功能的絲綢信息網(wǎng)站。并按照軟件工程的方法,研究了絲綢信息搜索引擎的總體設(shè)計(jì)過(guò)程和實(shí)現(xiàn)過(guò)程,設(shè)計(jì)過(guò)程重點(diǎn)論述...
內(nèi)容來(lái)自轉(zhuǎn)載請(qǐng)標(biāo)明出處.
本文關(guān)鍵詞:面向絲綢領(lǐng)域的垂直搜索引擎關(guān)鍵算法研究,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):162246
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/162246.html