基于本體的主題爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)分析.pdf
本文關(guān)鍵詞:基于本體的主題爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
合肥工業(yè)大學(xué) 碩士學(xué)位論文
基于本體的主題爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn) 姓名:楊貞 申請(qǐng)學(xué)位級(jí)別:碩士 專(zhuān)業(yè):管理科學(xué)與工程 指導(dǎo)教師:杜習(xí)英 座機(jī)電話(huà)號(hào)碼 基于本體的主題爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn) 摘要 計(jì)算機(jī)網(wǎng)絡(luò)極大地提高了人們獲取信息的能力。隨著計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)
展,網(wǎng)絡(luò)信息增長(zhǎng)的速度和人們獲取信息的能力之間的矛盾越來(lái)越突出。傳統(tǒng)
搜索引擎己經(jīng)不能滿(mǎn)足人們對(duì)個(gè)性化信息檢索服務(wù)日益增長(zhǎng)的需要。近年來(lái),,
面向主題的搜索引擎應(yīng)運(yùn)而生,它能夠提供分類(lèi)更細(xì)致精確、數(shù)據(jù)更全面深入
的因特網(wǎng)搜索服務(wù),并且對(duì)硬件要求低、結(jié)果更新也很及時(shí)。面向主題搜索引
擎的核心組成部分是主題爬蟲(chóng)。主題爬蟲(chóng)是一種可以自動(dòng)采集網(wǎng)頁(yè)的程序,其 目標(biāo)是搜索網(wǎng)絡(luò)中屬于預(yù)定主題的那一部分網(wǎng)頁(yè)子集。主題爬蟲(chóng)的爬行算法作
為主題搜索引擎技術(shù)的關(guān)鍵,對(duì)其進(jìn)行研究不但可以擴(kuò)大所搜索主題的資源覆
蓋范圍,而且還能有效地提高爬行性能和網(wǎng)絡(luò)帶寬的利用率。本文對(duì)主題爬蟲(chóng)
采用的爬行算法進(jìn)行了研究及討論。 論文首先介紹了主題搜索引擎的基本功能,接著分析了主題爬蟲(chóng)的基本結(jié)構(gòu)
及其工作原理,然后詳細(xì)討論了主題爬蟲(chóng)的搜索策略,并重點(diǎn)分析了主題爬蟲(chóng)
在爬行過(guò)程中常用的最好優(yōu)先算法及其存在的隧道問(wèn)題;谏鲜龇治黾坝懻摚
論文給出了一種基于本體的主題爬蟲(chóng)最好優(yōu)先爬行算法:在網(wǎng)頁(yè)搜索過(guò)程中遇
到一個(gè)與主題無(wú)關(guān)的網(wǎng)頁(yè)時(shí),并不馬上拋棄該網(wǎng)頁(yè),而是利用基于本體方法建
立的領(lǐng)域知識(shí)模型對(duì)該網(wǎng)頁(yè)進(jìn)行概念相關(guān)性判斷,并指導(dǎo)主題爬蟲(chóng)更好地探索
爬行方向并穿過(guò)隧道。最后我們利用該改進(jìn)算法設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)主題爬蟲(chóng)原
型系統(tǒng)
本文關(guān)鍵詞:基于本體的主題爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號(hào):145552
本文鏈接:http://sikaile.net/kejilunwen/xinxigongchenglunwen/145552.html