天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Agent的分布式元搜索引擎架構研究與實現(xiàn)

發(fā)布時間:2024-04-16 21:56
  現(xiàn)有的搜索引擎在查全率和查準率方面很難滿足用戶的要求,為了查詢到一個相關的內容,用戶常常需要使用多個搜索引擎查詢相同的內容,然后綜合出最適合自己的結果。元搜索引擎通過調用多個成員搜索引擎來進行搜索,因此可以很好地解決上述問題。 Web數(shù)據(jù)提取技術是元搜索引擎的核心,如何準確、高效地從Web頁面中提取內容對于一個元搜索引擎來說至關重要。作者對開源的Web數(shù)據(jù)提取工具Web-Harvest進行了深入的研究,并在此基礎上進行了二次開發(fā),摒棄了以前的通過寫配置文件(頁面抽取規(guī)則)進行頁面抽取的方式,改用API的方式重新封裝了Web-Harvest的幾個關鍵部分。這種方式不但提高了程序提取頁面數(shù)據(jù)的效率,同時提高了程序開發(fā)人員的開發(fā)效率。 智能Agent是人工智能領域發(fā)展起來的一個概念,它所特有的自主性、社會性、反應性和能動性可以大大提高系統(tǒng)的靈活性和智能性。作者將Agent技術應用于所構建的信息采集系統(tǒng),通過實踐證明,可以將整個信息采集任務分散到各個Agent上并發(fā)運行,這樣可以極大提高信息采集的效率。 元搜索引擎可以幫助用戶整合來自不同搜索引擎的搜索結果,最關鍵的是重新給出相關度,按新的相關...

【文章頁數(shù)】:57 頁

【學位級別】:碩士

【部分圖文】:

圖2一1元搜索引擎體系結構

圖2一1元搜索引擎體系結構

進行控制[16]。2.2元搜索引擎的體系結構元搜索引擎的體系結構一般如圖2一1所示,由檢索請求處理模塊、檢索接口代理模塊、結果顯示模塊3部分組成。


圖3一1Web數(shù)據(jù)提取流程圖

圖3一1Web數(shù)據(jù)提取流程圖

3.1Web數(shù)據(jù)提取的流程與方法W亡b數(shù)據(jù)提取,就是指從網(wǎng)頁中提取到我們所需要的信息,然后將其存儲到本地。其流程如圖3一1所示:抓抓取網(wǎng)頁頁提取有用信息存儲到本地圖3一1Web數(shù)據(jù)提取流程圖3.1.1抓取網(wǎng)頁抓取網(wǎng)頁的過程和我們平時使用IE瀏覽器打開網(wǎng)頁的過程是一樣的。例如,當....


圖3一2使用IE瀏覽器打開網(wǎng)頁這個過程具體是這樣的:瀏覽器作為一個客戶端,向服務器端發(fā)送請求,把服務器端的文件抓取到本地,并按一定的規(guī)則進行解釋和展現(xiàn),就出現(xiàn)了我們平

圖3一2使用IE瀏覽器打開網(wǎng)頁這個過程具體是這樣的:瀏覽器作為一個客戶端,向服務器端發(fā)送請求,把服務器端的文件抓取到本地,并按一定的規(guī)則進行解釋和展現(xiàn),就出現(xiàn)了我們平

服務器端的文件抓取到本地,并按一定的規(guī)則進行解釋和展現(xiàn),就出現(xiàn)了我們平時所看到的網(wǎng)頁。如果我們在瀏覽器端選擇查看源文件命令,就會看到從服務器端抓取到的文件源代碼,如圖3一3所示。翼萬萬圖3一3網(wǎng)頁源代碼1)Java語盲‘中抓取網(wǎng)頁的方法Java語一言作為基于網(wǎng)絡的編程語言,它把....


圖33網(wǎng)頁源代碼

圖33網(wǎng)頁源代碼

繆新良首頁一W;ndowsInternotExpI0rer馨臺,{登抄一加~;na·二一廠一’吁{豁!鬢孫夕篇收藏夾神登新浪著頁毅建漢灘茲甲毅癱頁抉魏幸,L23日盆網(wǎng)兮,睽,澡嘛直播預告:稍巷~·頁面(P)甲安全(s),工具(O},雄您好,:hang-p二迭擇去向,修改密碼安全退....



本文編號:3956740

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3956740.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶48ffd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com