面向汽車主題的垂直搜索引擎研究與實現(xiàn).pdf 88頁
本文關(guān)鍵詞:面向汽車主題的垂直搜索引擎研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
西南交通大學 碩士學位論文
面向汽車主題的垂直搜索引擎研究與實現(xiàn) 姓名:張楠 申請學位級別:碩士 專業(yè):計算機應用技術(shù) 指導教師:樓新遠 座機電話號碼 西南交通大學碩士研究生學位論文 第l頁 摘 要 互聯(lián)網(wǎng)已經(jīng)成為一個巨大的海量信息空間,,人們在互聯(lián)網(wǎng)上搜索信息主要利用百度
等通用搜索引擎,這類搜索引擎功能已經(jīng)十分強大,基本可以滿足用戶的需求,但是當
用戶搜索一些面向主題的信息時,這類搜索引擎往往顯得力不從心。垂直搜索引擎的出
現(xiàn),正是為了解決此類問題。 本文首先介紹了垂直搜索引擎的特點及工作原理,然后詳細分析了開源網(wǎng)絡(luò)爬蟲
Heritrix的系統(tǒng)結(jié)構(gòu)。在此基礎(chǔ)上,提出了設(shè)計特定的解析器,解析特定網(wǎng)站,以及擴展
對個別處理器的影響,以及引入哈希算法,實現(xiàn)了高效、多線程抓取的目的。
其只考慮網(wǎng)頁內(nèi)容本身,不能反映出網(wǎng)頁的重要性的不足,通過引入基于鏈接分析的 本文在上述研究的基礎(chǔ)上,根據(jù)汽車愛好者查詢汽車信息的一般要求,建立了一個
面向汽車主題的垂直搜索引擎,設(shè)計了各個子系統(tǒng),并實現(xiàn)了改進的爬蟲和排序算法。 最后,本文在建立的垂直搜索引擎系統(tǒng)上,首先通過查詢實驗,驗證了垂直搜索引
擎相對通用搜索引擎的直觀優(yōu)勢,然后通過對改進前后的爬蟲抓取網(wǎng)頁速度對比,以及
對改進后爬蟲在不同線程數(shù)、不同運行時間的條件下抓取網(wǎng)頁速度的分析,驗證了改進
后的爬蟲性能有了較明顯的提高,最后通過對比排序算法改進前后的排序結(jié)果,驗證了
改進后的排序算法在符合用戶預期查詢結(jié)果方面,得到了較好的改善。
關(guān)鍵詞:垂直搜索引擎、網(wǎng)絡(luò)爬蟲、Lucene、 西南交通大學碩士研究生學位論文
本文關(guān)鍵詞:面向汽車主題的垂直搜索引擎研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:122004
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/122004.html