面向汽車主題的垂直搜索引擎研究實(shí)現(xiàn).pdf文檔全文免費(fèi)閱讀、在線看
本文關(guān)鍵詞:面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
西南交通大學(xué) 碩士學(xué)位論文
面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn) 姓名:張楠 申請(qǐng)學(xué)位級(jí)別:碩士 專業(yè):計(jì)算機(jī)應(yīng)用技術(shù) 指導(dǎo)教師:樓新遠(yuǎn) 座機(jī)電話號(hào)碼 西南交通大學(xué)碩士研究生學(xué)位論文 第l頁(yè) 摘 要 互聯(lián)網(wǎng)已經(jīng)成為一個(gè)巨大的海量信息空間,人們?cè)诨ヂ?lián)網(wǎng)上搜索信息主要利用百度
等通用搜索引擎,這類搜索引擎功能已經(jīng)十分強(qiáng)大,基本可以滿足用戶的需求,但是當(dāng)
用戶搜索一些面向主題的信息時(shí),這類搜索引擎往往顯得力不從心。垂直搜索引擎的出
現(xiàn),正是為了解決此類問題。 本文首先介紹了垂直搜索引擎的特點(diǎn)及工作原理,然后詳細(xì)分析了開源網(wǎng)絡(luò)爬蟲
Heritrix的系統(tǒng)結(jié)構(gòu)。在此基礎(chǔ)上,提出了設(shè)計(jì)特定的解析器,解析特定網(wǎng)站,以及擴(kuò)展
對(duì)個(gè)別處理器的影響,以及引入哈希算法,實(shí)現(xiàn)了高效、多線程抓取的目的。
其只考慮網(wǎng)頁(yè)內(nèi)容本身,不能反映出網(wǎng)頁(yè)的重要性的不足,通過引入基于鏈接分析的 本文在上述研究的基礎(chǔ)上,根據(jù)汽車愛好者查詢汽車信息的一般要求,建立了一個(gè)
面向汽車主題的垂直搜索引擎,設(shè)計(jì)了各個(gè)子系統(tǒng),,并實(shí)現(xiàn)了改進(jìn)的爬蟲和排序算法。 最后,本文在建立的垂直搜索引擎系統(tǒng)上,首先通過查詢實(shí)驗(yàn),驗(yàn)證了垂直搜索引
擎相對(duì)通用搜索引擎的直觀優(yōu)勢(shì),然后通過對(duì)改進(jìn)前后的爬蟲抓取網(wǎng)頁(yè)速度對(duì)比,以及
對(duì)改進(jìn)后爬蟲在不同線程數(shù)、不同運(yùn)行時(shí)間的條件下抓取網(wǎng)頁(yè)速度的分析,驗(yàn)證了改進(jìn)
后的爬蟲性能有了較明顯的提高,最后通過對(duì)比排序算法改進(jìn)前后的排序結(jié)果,驗(yàn)證了
改進(jìn)后的排序算法在符合用戶預(yù)期查詢結(jié)果方面,得到了較好的改善。
關(guān)鍵詞:垂直搜索引擎、網(wǎng)絡(luò)爬蟲、Lucene、 西南交通大學(xué)碩士研究生學(xué)位論文
本文關(guān)鍵詞:面向汽車主題的垂直搜索引擎研究與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):122003
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/122003.html