基于Agent的分布式元搜索引擎架構研究與實現(xiàn)
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【部分圖文】:
圖2一1元搜索引擎體系結構
進行控制[16]。2.2元搜索引擎的體系結構元搜索引擎的體系結構一般如圖2一1所示,由檢索請求處理模塊、檢索接口代理模塊、結果顯示模塊3部分組成。
圖3一1Web數(shù)據(jù)提取流程圖
3.1Web數(shù)據(jù)提取的流程與方法W亡b數(shù)據(jù)提取,就是指從網(wǎng)頁中提取到我們所需要的信息,然后將其存儲到本地。其流程如圖3一1所示:抓抓取網(wǎng)頁頁提取有用信息存儲到本地圖3一1Web數(shù)據(jù)提取流程圖3.1.1抓取網(wǎng)頁抓取網(wǎng)頁的過程和我們平時使用IE瀏覽器打開網(wǎng)頁的過程是一樣的。例如,當....
圖3一2使用IE瀏覽器打開網(wǎng)頁這個過程具體是這樣的:瀏覽器作為一個客戶端,向服務器端發(fā)送請求,把服務器端的文件抓取到本地,并按一定的規(guī)則進行解釋和展現(xiàn),就出現(xiàn)了我們平
服務器端的文件抓取到本地,并按一定的規(guī)則進行解釋和展現(xiàn),就出現(xiàn)了我們平時所看到的網(wǎng)頁。如果我們在瀏覽器端選擇查看源文件命令,就會看到從服務器端抓取到的文件源代碼,如圖3一3所示。翼萬萬圖3一3網(wǎng)頁源代碼1)Java語盲‘中抓取網(wǎng)頁的方法Java語一言作為基于網(wǎng)絡的編程語言,它把....
圖33網(wǎng)頁源代碼
繆新良首頁一W;ndowsInternotExpI0rer馨臺,{登抄一加~;na·二一廠一’吁{豁!鬢孫夕篇收藏夾神登新浪著頁毅建漢灘茲甲毅癱頁抉魏幸,L23日盆網(wǎng)兮,睽,澡嘛直播預告:稍巷~·頁面(P)甲安全(s),工具(O},雄您好,:hang-p二迭擇去向,修改密碼安全退....
本文編號:3956740
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3956740.html