基于改進遺傳算法的主題爬蟲設計與實現(xiàn)
發(fā)布時間:2020-06-16 10:45
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,使得如何從海量的網(wǎng)絡資源中快速準確地獲取用戶所需的信息成為一個關鍵問題。通用搜索引擎通過網(wǎng)頁采集和索引為用戶提供檢索服務,但這種基于關鍵詞匹配的檢索方式,往往忽略用戶真實查詢意圖的識別和匹配。垂直搜索引擎則通過縮小采集范圍為特定領域和背景的用戶提供專業(yè)化、定制化信息檢索服務,是當前搜索領域研究的熱點。主題爬蟲是垂直搜索引擎的網(wǎng)頁采集模塊,在搜索路徑上只保留與主題相關的網(wǎng)頁,本文主要圍繞主題爬蟲的網(wǎng)頁分析方法和搜索策略,探討如何提高爬蟲的指標性能。針對常用的基于最佳優(yōu)先策略的主題爬蟲易陷入局部尋優(yōu)的缺陷,本文提出了一種基于改進遺傳算法的主題爬蟲,適應度函數(shù)用于衡量網(wǎng)頁的綜合價值,綜合考慮網(wǎng)頁主題相關度和主題重要性,采用向量空間模型計算網(wǎng)頁文本內(nèi)容與主題向量之間的相關性,利用改進PageRank算法衡量網(wǎng)頁在互聯(lián)網(wǎng)鏈接結構中的主題重要性,選擇操作篩選出適應度較高的網(wǎng)頁,交叉操作根據(jù)子鏈接主題重要性進行降序,變異操作則利用搜索引擎檢索組合關鍵詞。最后實現(xiàn)了一個基于改進遺傳算法的主題爬蟲,并通過實驗驗證,相比于已有遺傳算法,基于改進遺傳算法的搜索策略能在一定程度上提高主題爬蟲的查準和查全率,擴大爬蟲的搜索范圍,更符合用戶的主題檢索需求。
【學位授予單位】:上海交通大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.3;TP18
【圖文】:
量網(wǎng)頁中尋找到目標信息無異于大海撈針,因此特別需要一種工具對互聯(lián)網(wǎng)網(wǎng)頁進行整理便于用戶查詢,正是有這種應用需求,1990 年搜索引擎的始祖 Archie 應運而生,它是第一個自動對 FTP 文件進行索引的系統(tǒng),能夠自動采集文件名、建立索引、提供檢索。雖然 Archie 不是真正的搜索引擎,但之后的 Yahoo、Goog都是在其基礎上進行優(yōu)化。搜索引擎原理如圖 1-1 所示。時至今日,搜索引擎得
用戶接口;用戶輸入:供用戶查詢輸入,并將返回結果通過瀏覽器技術呈現(xiàn)給用戶。搜索引擎按照其應用環(huán)境,可大致分為目錄索引、通用搜索引擎、垂直搜索引擎、元搜索引擎等。1.3.1 目錄索引目錄索引是一種早期的搜索引擎,通過采集互聯(lián)網(wǎng)網(wǎng)頁資源,分析網(wǎng)頁內(nèi)容,確定該網(wǎng)頁所屬分類,將網(wǎng)頁分配到主頁目錄所屬不同層次的不同分類。目錄索引一般沒有輸入欄,用戶需依據(jù)目錄標簽,一層一層點擊,直到最后一層,查找目標網(wǎng)頁。目錄索引類似于數(shù)據(jù)結構里的多路查找樹,所有的網(wǎng)頁都存儲在葉子節(jié)點里,而其他節(jié)點類似于關鍵詞或標簽,指引用戶查找目標節(jié)點。目錄索引由于需要對所有的網(wǎng)頁進行分類,且用戶查找需要手動點擊標簽,效率比較低下,適用于網(wǎng)頁數(shù)目比較少的情況下,一般用于企業(yè)或學校的內(nèi)部網(wǎng),這些網(wǎng)站的特點是包含的網(wǎng)頁大多與本單位相關,供內(nèi)部人士使用,且分類標簽比較清晰,便于查詢和管理。比較典型的目錄索引有 Yahoo、上海交通大學等,如圖 1-2 所示。
本文編號:2715946
【學位授予單位】:上海交通大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.3;TP18
【圖文】:
量網(wǎng)頁中尋找到目標信息無異于大海撈針,因此特別需要一種工具對互聯(lián)網(wǎng)網(wǎng)頁進行整理便于用戶查詢,正是有這種應用需求,1990 年搜索引擎的始祖 Archie 應運而生,它是第一個自動對 FTP 文件進行索引的系統(tǒng),能夠自動采集文件名、建立索引、提供檢索。雖然 Archie 不是真正的搜索引擎,但之后的 Yahoo、Goog都是在其基礎上進行優(yōu)化。搜索引擎原理如圖 1-1 所示。時至今日,搜索引擎得
用戶接口;用戶輸入:供用戶查詢輸入,并將返回結果通過瀏覽器技術呈現(xiàn)給用戶。搜索引擎按照其應用環(huán)境,可大致分為目錄索引、通用搜索引擎、垂直搜索引擎、元搜索引擎等。1.3.1 目錄索引目錄索引是一種早期的搜索引擎,通過采集互聯(lián)網(wǎng)網(wǎng)頁資源,分析網(wǎng)頁內(nèi)容,確定該網(wǎng)頁所屬分類,將網(wǎng)頁分配到主頁目錄所屬不同層次的不同分類。目錄索引一般沒有輸入欄,用戶需依據(jù)目錄標簽,一層一層點擊,直到最后一層,查找目標網(wǎng)頁。目錄索引類似于數(shù)據(jù)結構里的多路查找樹,所有的網(wǎng)頁都存儲在葉子節(jié)點里,而其他節(jié)點類似于關鍵詞或標簽,指引用戶查找目標節(jié)點。目錄索引由于需要對所有的網(wǎng)頁進行分類,且用戶查找需要手動點擊標簽,效率比較低下,適用于網(wǎng)頁數(shù)目比較少的情況下,一般用于企業(yè)或學校的內(nèi)部網(wǎng),這些網(wǎng)站的特點是包含的網(wǎng)頁大多與本單位相關,供內(nèi)部人士使用,且分類標簽比較清晰,便于查詢和管理。比較典型的目錄索引有 Yahoo、上海交通大學等,如圖 1-2 所示。
【參考文獻】
相關期刊論文 前6條
1 丁發(fā)梅;;一種改進Best-First算法的主題爬蟲搜索算法[J];信息通信;2015年04期
2 熊忠陽;史艷;張玉芳;;基于維基百科和網(wǎng)頁分塊的主題爬行策略[J];計算機應用;2011年12期
3 賀晟;程家興;蔡欣寶;;基于模擬退火算法的主題爬蟲[J];計算機技術與發(fā)展;2009年12期
4 周德懋;李舟軍;;高性能網(wǎng)絡爬蟲:研究綜述[J];計算機科學;2009年08期
5 劉國靖;康麗;羅長壽;;基于遺傳算法的主題爬蟲策略[J];計算機應用;2007年S2期
6 印鑒,陳憶群,張鋼;搜索引擎技術研究與發(fā)展[J];計算機工程;2005年14期
相關博士學位論文 前1條
1 宋巍;基于主題的查詢意圖識別研究[D];哈爾濱工業(yè)大學;2013年
本文編號:2715946
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2715946.html
最近更新
教材專著