LUCENE實現(xiàn)的基于RSS的博客搜索引擎
本文關鍵詞:LUCENE實現(xiàn)的基于RSS的博客搜索引擎,由筆耕文化傳播整理發(fā)布。
哈爾濱下程火學碩十學位論文
摘要
XML是一種可擴展的標記語言,為跨平臺、跨領域的應用提供了一種通信手段。隨著XML在WEB應用上的R益廣泛,,RSS已經成為目前最廣泛的XML應用,被廣泛的應用于信息服務站點,如新聞網站、博客站點等。
隨著互聯(lián)網的迅速發(fā)展,搜索引擎成為了人們獲取信息的一個重要途徑。人們在希望搜索引擎能夠提供全面的信息資源的同時,也對搜索引擎的服務提出了更高的要求。與傳統(tǒng)的搜索引擎相比,博客搜索引擎在檢索內容、工作原理、檢索方式等方面有著很大的區(qū)別,因此,若用傳統(tǒng)的搜索引擎檢索一些以RSS格式發(fā)布的博客內容,就會存在著檢索效率低、更新速度慢等缺點,而RSS博客搜索引擎克服了這些缺點。
本文研究了博客搜索引擎的工作原理,主要研究了博客搜索引擎中的博客網絡爬蟲與用戶興趣模型。網絡爬蟲是搜索引擎中的一個重要部分,其爬取質量直接影響到搜索引擎的搜索結果。由于RSS網頁與普通網頁的不同,RSS博客網絡爬蟲爬取各個博客文章的RSS鏈接,本文對RSS種子的收集、解析、建立索引進行了研究,設計并實現(xiàn)了集RSS種子獲取、解析并建立索引為一體的RSS博客網絡爬蟲。傳統(tǒng)的搜索引擎面向的是廣大的用戶,不能根據用戶的喜好返回最相關的結果,而用戶往往希望搜索引擎能夠根據自己的實際情況來返回最相關的結果,基于此,本文介紹了用戶興趣模型的概念與應用,設計并實現(xiàn)了基于博客文章標簽與分類的用戶興趣模型,包括用戶興趣模型的初始化、更新及與搜索結果的匹配等。
在介紹網絡爬蟲與用戶興趣模型的基礎上,本文設計并實現(xiàn)了基于RSS的博客搜索引擎,并用Ajax等技術改善了用戶的搜索體驗。關鍵詞:RSS;搜索引擎;網絡爬蟲;Ajax:用戶興趣模7型
Word文檔免費下載:LUCENE實現(xiàn)的基于RSS的博客搜索引擎 (下載1-69頁,共69頁)
本文關鍵詞:LUCENE實現(xiàn)的基于RSS的博客搜索引擎,由筆耕文化傳播整理發(fā)布。
本文編號:82522
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/82522.html