面向絲綢領(lǐng)域的垂直搜索引擎關(guān)鍵算法研究.doc 全文免費在線閱讀
本文關(guān)鍵詞:面向絲綢領(lǐng)域的垂直搜索引擎關(guān)鍵算法研究,由筆耕文化傳播整理發(fā)布。
文檔介紹:
面向絲綢領(lǐng)域的垂直搜索引擎關(guān)鍵算法研究摘要―I―摘要垂直搜索引擎是搜索引擎的細(xì)分和延伸,是對網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后以某種形式返回給用戶。垂直搜索引擎與傳統(tǒng)的網(wǎng)頁搜索引擎最大的區(qū)別就是將網(wǎng)頁中的信息進(jìn)行結(jié)構(gòu)化的抽取。使得信息在抽取的時候就建立了分類,更好的適應(yīng)查詢需求。近幾年來,垂直搜索引擎已經(jīng)被應(yīng)用到某些專業(yè)的領(lǐng)域(如化學(xué)、科技文獻(xiàn))。本文從研究和設(shè)計的角度對垂直搜索引擎的相關(guān)技術(shù)作了詳細(xì)的分析和討論,論述了目前搜索引擎的國內(nèi)外發(fā)展現(xiàn)狀和趨勢。分析了搜索引擎的工作原理及其各部分主要功能,抓住如何評價頁面的主題相關(guān)性和設(shè)計高效的爬行策略這兩個關(guān)鍵問題,提出一個基于絲綢信息的定題搜索器,它是垂直搜索引擎的核心。在文章的主體部分,以搜索引擎的設(shè)計流程為主線,重點論述垂直搜索引擎設(shè)計與實現(xiàn)時一些獨特的信息識別方法,包括pagerank和HITS算法。從HTML頁面解析的一般概念入手,結(jié)合網(wǎng)頁之間的超鏈接分析,按照搜索引擎系統(tǒng)的要求,采用深度優(yōu)先的搜索策略設(shè)計具有垂直搜索引擎功能的絲綢信息網(wǎng)站。并按照軟件工程的方法,研究了絲綢信息搜索引擎的總體設(shè)計過程和實現(xiàn)過程,設(shè)計過程重點論述...
內(nèi)容來自轉(zhuǎn)載請標(biāo)明出處.
本文關(guān)鍵詞:面向絲綢領(lǐng)域的垂直搜索引擎關(guān)鍵算法研究,,由筆耕文化傳播整理發(fā)布。
本文編號:162248
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/162248.html