面向博客領(lǐng)域垂直搜索引擎與研究實現(xiàn).pdf
本文關(guān)鍵詞:面向博客領(lǐng)域的垂直搜索引擎的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
北京郵電大學(xué) 碩士學(xué)位論文
面向博客領(lǐng)域的垂直搜索引擎的研究與實現(xiàn) 姓名:王嘉杰 申請學(xué)位級別:碩士 專業(yè):軟件工程 指導(dǎo)教師:金躍輝;趙方 座機電話號碼 面向博客領(lǐng)域的垂直搜索引擎的研究與實現(xiàn) 摘要 隨著網(wǎng)絡(luò)信息資源呈幾何級數(shù)增長,使用傳統(tǒng)搜索引擎技術(shù)準(zhǔn) 確、快速地查找所需信息也變得越來越困難。面對每天海量遞增的數(shù) 據(jù)量,通用搜索引擎 又稱為水平搜索引擎 很難及時地更新索引數(shù) 據(jù)庫;面對數(shù)以億計的網(wǎng)頁通用搜索引擎很難深入抓取信息。針對通 用搜索引擎存在搜索不夠快速、不夠深入的缺點,新一代搜索技術(shù)一 垂直搜索引擎應(yīng)運而生。 垂直搜索是針對某~個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細分
和延伸,是相對通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等 問題提出來的新一代搜索引擎服務(wù)模式。通過針對某一特定領(lǐng)域、某
一特定人群或某一特定需求提供有一定價值的信息和相關(guān)服務(wù)。 與通用搜索引擎的信息采集技術(shù)不同,垂直搜索引擎的網(wǎng)絡(luò)蜘蛛 又稱為網(wǎng)絡(luò)爬蟲 僅采集與主題相關(guān)的信息。通過對網(wǎng)頁的主題相
關(guān)度進行預(yù)測和判斷,專業(yè)網(wǎng)絡(luò)蜘蛛在爬行時避開了大量主題無關(guān)的 區(qū)域。由于只采集主題相關(guān)的網(wǎng)頁,垂直搜索引擎在查詢的準(zhǔn)確率和
效率上都有顯著地提高。 本文首先介紹了垂直搜索引擎技術(shù)的研究現(xiàn)狀和發(fā)展方向,然后
重點研究了垂直搜索引擎的主題搜索策略和主題相關(guān)度判別算法;在
分析了、闡述了通用搜索引擎與垂直搜索引擎在系統(tǒng)架構(gòu)、工作原理、
關(guān)鍵技術(shù)等方面的不同特點基礎(chǔ)上,對博客垂直搜索引擎核心模塊一
索引及檢索模塊進行設(shè)計;并對博客垂直搜索引擎系統(tǒng)的具體實現(xiàn)和
實施做了詳細地描
本文關(guān)鍵詞:面向博客領(lǐng)域的垂直搜索引擎的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號:150945
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/150945.html