天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于改進遺傳算法的主題爬蟲設(shè)計與實現(xiàn)

發(fā)布時間:2020-06-16 10:45
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,使得如何從海量的網(wǎng)絡(luò)資源中快速準(zhǔn)確地獲取用戶所需的信息成為一個關(guān)鍵問題。通用搜索引擎通過網(wǎng)頁采集和索引為用戶提供檢索服務(wù),但這種基于關(guān)鍵詞匹配的檢索方式,往往忽略用戶真實查詢意圖的識別和匹配。垂直搜索引擎則通過縮小采集范圍為特定領(lǐng)域和背景的用戶提供專業(yè)化、定制化信息檢索服務(wù),是當(dāng)前搜索領(lǐng)域研究的熱點。主題爬蟲是垂直搜索引擎的網(wǎng)頁采集模塊,在搜索路徑上只保留與主題相關(guān)的網(wǎng)頁,本文主要圍繞主題爬蟲的網(wǎng)頁分析方法和搜索策略,探討如何提高爬蟲的指標(biāo)性能。針對常用的基于最佳優(yōu)先策略的主題爬蟲易陷入局部尋優(yōu)的缺陷,本文提出了一種基于改進遺傳算法的主題爬蟲,適應(yīng)度函數(shù)用于衡量網(wǎng)頁的綜合價值,綜合考慮網(wǎng)頁主題相關(guān)度和主題重要性,采用向量空間模型計算網(wǎng)頁文本內(nèi)容與主題向量之間的相關(guān)性,利用改進PageRank算法衡量網(wǎng)頁在互聯(lián)網(wǎng)鏈接結(jié)構(gòu)中的主題重要性,選擇操作篩選出適應(yīng)度較高的網(wǎng)頁,交叉操作根據(jù)子鏈接主題重要性進行降序,變異操作則利用搜索引擎檢索組合關(guān)鍵詞。最后實現(xiàn)了一個基于改進遺傳算法的主題爬蟲,并通過實驗驗證,相比于已有遺傳算法,基于改進遺傳算法的搜索策略能在一定程度上提高主題爬蟲的查準(zhǔn)和查全率,擴大爬蟲的搜索范圍,更符合用戶的主題檢索需求。
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.3;TP18
【圖文】:

搜索引擎,網(wǎng)頁,始祖,應(yīng)用需求


量網(wǎng)頁中尋找到目標(biāo)信息無異于大海撈針,因此特別需要一種工具對互聯(lián)網(wǎng)網(wǎng)頁進行整理便于用戶查詢,正是有這種應(yīng)用需求,1990 年搜索引擎的始祖 Archie 應(yīng)運而生,它是第一個自動對 FTP 文件進行索引的系統(tǒng),能夠自動采集文件名、建立索引、提供檢索。雖然 Archie 不是真正的搜索引擎,但之后的 Yahoo、Goog都是在其基礎(chǔ)上進行優(yōu)化。搜索引擎原理如圖 1-1 所示。時至今日,搜索引擎得

目錄索引,上海交通大學(xué)


用戶接口;用戶輸入:供用戶查詢輸入,并將返回結(jié)果通過瀏覽器技術(shù)呈現(xiàn)給用戶。搜索引擎按照其應(yīng)用環(huán)境,可大致分為目錄索引、通用搜索引擎、垂直搜索引擎、元搜索引擎等。1.3.1 目錄索引目錄索引是一種早期的搜索引擎,通過采集互聯(lián)網(wǎng)網(wǎng)頁資源,分析網(wǎng)頁內(nèi)容,確定該網(wǎng)頁所屬分類,將網(wǎng)頁分配到主頁目錄所屬不同層次的不同分類。目錄索引一般沒有輸入欄,用戶需依據(jù)目錄標(biāo)簽,一層一層點擊,直到最后一層,查找目標(biāo)網(wǎng)頁。目錄索引類似于數(shù)據(jù)結(jié)構(gòu)里的多路查找樹,所有的網(wǎng)頁都存儲在葉子節(jié)點里,而其他節(jié)點類似于關(guān)鍵詞或標(biāo)簽,指引用戶查找目標(biāo)節(jié)點。目錄索引由于需要對所有的網(wǎng)頁進行分類,且用戶查找需要手動點擊標(biāo)簽,效率比較低下,適用于網(wǎng)頁數(shù)目比較少的情況下,一般用于企業(yè)或?qū)W校的內(nèi)部網(wǎng),這些網(wǎng)站的特點是包含的網(wǎng)頁大多與本單位相關(guān),供內(nèi)部人士使用,且分類標(biāo)簽比較清晰,便于查詢和管理。比較典型的目錄索引有 Yahoo、上海交通大學(xué)等,如圖 1-2 所示。

【參考文獻】

相關(guān)期刊論文 前6條

1 丁發(fā)梅;;一種改進Best-First算法的主題爬蟲搜索算法[J];信息通信;2015年04期

2 熊忠陽;史艷;張玉芳;;基于維基百科和網(wǎng)頁分塊的主題爬行策略[J];計算機應(yīng)用;2011年12期

3 賀晟;程家興;蔡欣寶;;基于模擬退火算法的主題爬蟲[J];計算機技術(shù)與發(fā)展;2009年12期

4 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計算機科學(xué);2009年08期

5 劉國靖;康麗;羅長壽;;基于遺傳算法的主題爬蟲策略[J];計算機應(yīng)用;2007年S2期

6 印鑒,陳憶群,張鋼;搜索引擎技術(shù)研究與發(fā)展[J];計算機工程;2005年14期

相關(guān)博士學(xué)位論文 前1條

1 宋巍;基于主題的查詢意圖識別研究[D];哈爾濱工業(yè)大學(xué);2013年



本文編號:2715946

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2715946.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶77f17***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com