大規(guī)模垂直搜索方法的研究與實現(xiàn)
發(fā)布時間:2021-01-26 01:05
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,Web中每天都會產(chǎn)生大量的網(wǎng)頁,這些網(wǎng)頁內(nèi)容千差萬別。面對海量的Web網(wǎng)頁信息資源,搜索引擎作為信息獲取的重要工具,越來越難以提供精確地查詢服務(wù)。因此,提供與某特定領(lǐng)域主題相關(guān)、為用戶提供更加及時、準確的查詢服務(wù)的垂直搜索引擎應運而生。主題爬蟲是垂直搜索引擎的核心模塊,負責對Web網(wǎng)頁進行垂直搜索,將主題相關(guān)的網(wǎng)頁存儲到本地,供垂直搜索引擎建立索引和為用戶提供查詢服務(wù)。在大規(guī)模垂直搜索時,如何準確地判斷一個網(wǎng)頁是否主題相關(guān)、以什么樣的搜索策略搜索Web網(wǎng)頁,是垂直搜索的兩個關(guān)鍵問題;诰W(wǎng)頁內(nèi)容的搜索策略將整個網(wǎng)頁內(nèi)容作為主題判別的關(guān)鍵因素,容易受到網(wǎng)頁中包含的廣告、圖片和Flash動畫等“噪音”信息的干擾,導致判別的準確率很低。此外,如果主題爬蟲只從主題相關(guān)的頁面中提取鏈接,往往容易忽略一些有價值的導航型網(wǎng)頁中包含的目標主題鏈接。本文針對這些問題進行研究,重點集中在主題爬蟲的搜索策略和頁面鏈接的價值評估上,提出基于網(wǎng)頁特征加權(quán)的主題判別算法和基于塊提取的鏈接價值評估方法。論文的主要工作和創(chuàng)新點如下:(1)提出一種網(wǎng)頁特征加權(quán)的主題判別算法。通過對HTML網(wǎng)頁標簽...
【文章來源】:北京交通大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【部分圖文】:
圖2-2搜索引擎體系結(jié)構(gòu)框圖??Fig?2-2?The?architecture?diagram?of?Search?engine??6??
獲取網(wǎng)頁信息,實現(xiàn)信息覆蓋的最大化。一般情況下,為了提高爬蟲的搜索效率,??搜索引擎會采用多個爬蟲程序同時進行網(wǎng)頁抓取的工作。通用網(wǎng)絡(luò)爬蟲的工作流??程大致如圖2-3所示:??(開始)????初始種子URL??????I???URL?網(wǎng)頁下載??1?|???|解析網(wǎng)頁獲取新的鏈接URL并添??加到待爬去URL隊列中??I??網(wǎng)頁存儲??————??Yes??C結(jié);)??圖2-3通用網(wǎng)絡(luò)爬蟲工作流程圖??Fig?2-3?The?work?flow?chart?of?Web?crawler??通用網(wǎng)絡(luò)爬蟲在信息抓取的過程中,一般會維護一個待訪問URL隊列集合和??一個己訪問URL隊列集合。待訪問的URL隊列集合中開始存放的是初始訪問鏈??接URL。通用爬蟲的網(wǎng)頁搜索過程中,從待訪問URL隊列集合中獲取初始鏈接??URL,然后向?qū)⻊?wù)器發(fā)送HTTP請求,服務(wù)器將作出HTTP響應,返回其對??應的網(wǎng)頁。然后通用網(wǎng)絡(luò)爬蟲解析頁面獲取鏈接URL,將未訪問過的URL放入到??待訪問URL隊列集合中,將己訪問過的URL放入到己訪問URL隊列集合中,最??后將網(wǎng)頁按照指定的數(shù)據(jù)存儲結(jié)構(gòu)存儲到網(wǎng)頁數(shù)據(jù)庫中,循環(huán)上述操作直到待訪??問URL隊列集合為空或者達到指定的結(jié)束條件。通用網(wǎng)絡(luò)爬蟲的具體體系結(jié)構(gòu)如??圖2-4所示:??9??
獲取網(wǎng)頁信息,實現(xiàn)信息覆蓋的最大化。一般情況下,為了提高爬蟲的搜索效率,??搜索引擎會采用多個爬蟲程序同時進行網(wǎng)頁抓取的工作。通用網(wǎng)絡(luò)爬蟲的工作流??程大致如圖2-3所示:??(開始)????初始種子URL??????I???URL?網(wǎng)頁下載??1?|???|解析網(wǎng)頁獲取新的鏈接URL并添??加到待爬去URL隊列中??I??網(wǎng)頁存儲??————??Yes??C結(jié);)??圖2-3通用網(wǎng)絡(luò)爬蟲工作流程圖??Fig?2-3?The?work?flow?chart?of?Web?crawler??通用網(wǎng)絡(luò)爬蟲在信息抓取的過程中,一般會維護一個待訪問URL隊列集合和??一個己訪問URL隊列集合。待訪問的URL隊列集合中開始存放的是初始訪問鏈??接URL。通用爬蟲的網(wǎng)頁搜索過程中,從待訪問URL隊列集合中獲取初始鏈接??URL,然后向?qū)⻊?wù)器發(fā)送HTTP請求,服務(wù)器將作出HTTP響應,返回其對??應的網(wǎng)頁。然后通用網(wǎng)絡(luò)爬蟲解析頁面獲取鏈接URL,將未訪問過的URL放入到??待訪問URL隊列集合中,將己訪問過的URL放入到己訪問URL隊列集合中,最??后將網(wǎng)頁按照指定的數(shù)據(jù)存儲結(jié)構(gòu)存儲到網(wǎng)頁數(shù)據(jù)庫中,循環(huán)上述操作直到待訪??問URL隊列集合為空或者達到指定的結(jié)束條件。通用網(wǎng)絡(luò)爬蟲的具體體系結(jié)構(gòu)如??圖2-4所示:??9??
本文編號:3000208
【文章來源】:北京交通大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:81 頁
【學位級別】:碩士
【部分圖文】:
圖2-2搜索引擎體系結(jié)構(gòu)框圖??Fig?2-2?The?architecture?diagram?of?Search?engine??6??
獲取網(wǎng)頁信息,實現(xiàn)信息覆蓋的最大化。一般情況下,為了提高爬蟲的搜索效率,??搜索引擎會采用多個爬蟲程序同時進行網(wǎng)頁抓取的工作。通用網(wǎng)絡(luò)爬蟲的工作流??程大致如圖2-3所示:??(開始)????初始種子URL??????I???URL?網(wǎng)頁下載??1?|???|解析網(wǎng)頁獲取新的鏈接URL并添??加到待爬去URL隊列中??I??網(wǎng)頁存儲??————??Yes??C結(jié);)??圖2-3通用網(wǎng)絡(luò)爬蟲工作流程圖??Fig?2-3?The?work?flow?chart?of?Web?crawler??通用網(wǎng)絡(luò)爬蟲在信息抓取的過程中,一般會維護一個待訪問URL隊列集合和??一個己訪問URL隊列集合。待訪問的URL隊列集合中開始存放的是初始訪問鏈??接URL。通用爬蟲的網(wǎng)頁搜索過程中,從待訪問URL隊列集合中獲取初始鏈接??URL,然后向?qū)⻊?wù)器發(fā)送HTTP請求,服務(wù)器將作出HTTP響應,返回其對??應的網(wǎng)頁。然后通用網(wǎng)絡(luò)爬蟲解析頁面獲取鏈接URL,將未訪問過的URL放入到??待訪問URL隊列集合中,將己訪問過的URL放入到己訪問URL隊列集合中,最??后將網(wǎng)頁按照指定的數(shù)據(jù)存儲結(jié)構(gòu)存儲到網(wǎng)頁數(shù)據(jù)庫中,循環(huán)上述操作直到待訪??問URL隊列集合為空或者達到指定的結(jié)束條件。通用網(wǎng)絡(luò)爬蟲的具體體系結(jié)構(gòu)如??圖2-4所示:??9??
獲取網(wǎng)頁信息,實現(xiàn)信息覆蓋的最大化。一般情況下,為了提高爬蟲的搜索效率,??搜索引擎會采用多個爬蟲程序同時進行網(wǎng)頁抓取的工作。通用網(wǎng)絡(luò)爬蟲的工作流??程大致如圖2-3所示:??(開始)????初始種子URL??????I???URL?網(wǎng)頁下載??1?|???|解析網(wǎng)頁獲取新的鏈接URL并添??加到待爬去URL隊列中??I??網(wǎng)頁存儲??————??Yes??C結(jié);)??圖2-3通用網(wǎng)絡(luò)爬蟲工作流程圖??Fig?2-3?The?work?flow?chart?of?Web?crawler??通用網(wǎng)絡(luò)爬蟲在信息抓取的過程中,一般會維護一個待訪問URL隊列集合和??一個己訪問URL隊列集合。待訪問的URL隊列集合中開始存放的是初始訪問鏈??接URL。通用爬蟲的網(wǎng)頁搜索過程中,從待訪問URL隊列集合中獲取初始鏈接??URL,然后向?qū)⻊?wù)器發(fā)送HTTP請求,服務(wù)器將作出HTTP響應,返回其對??應的網(wǎng)頁。然后通用網(wǎng)絡(luò)爬蟲解析頁面獲取鏈接URL,將未訪問過的URL放入到??待訪問URL隊列集合中,將己訪問過的URL放入到己訪問URL隊列集合中,最??后將網(wǎng)頁按照指定的數(shù)據(jù)存儲結(jié)構(gòu)存儲到網(wǎng)頁數(shù)據(jù)庫中,循環(huán)上述操作直到待訪??問URL隊列集合為空或者達到指定的結(jié)束條件。通用網(wǎng)絡(luò)爬蟲的具體體系結(jié)構(gòu)如??圖2-4所示:??9??
本文編號:3000208
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3000208.html
最近更新
教材專著