天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于多Agent系統(tǒng)的主題爬行蟲協(xié)作與實現(xiàn)方法研究

發(fā)布時間:2020-03-02 02:10
【摘要】:互聯(lián)網(wǎng)信息以指數(shù)級增長,給通用搜索引擎帶來巨大壓力,使得通用搜索引擎搜索結(jié)果不全面,對于用戶輸入的查詢詞,返回大量的無關(guān)信息,這就使得主題爬行蟲誕生。主題爬行蟲只抓取與主題相關(guān)的網(wǎng)頁,忽略掉與主題無關(guān)的網(wǎng)頁,這樣減少了大量的時間在爬行無關(guān)網(wǎng)頁上。并且主題爬行蟲具有爬行時間少,存儲空間小,以及能夠更好的滿足用戶的個性化需求等優(yōu)勢,這也同時促進了主題爬行蟲的發(fā)展。 對于各種傳統(tǒng)的主題爬行蟲,它們在爬行過程中至始至終都是相互獨立工作的,多個爬行蟲之間沒有交流與協(xié)作,使得這些爬行蟲在爬行的過程中不能及時的進行交流來實現(xiàn)信息共享,出現(xiàn)爬行區(qū)域重合和爬行效率不高的狀態(tài)。將多Agent的理論用于主題爬行蟲之間的通信和協(xié)作,為提高主題爬行蟲爬行網(wǎng)頁的準確率和爬行效率提供了新的方向。本文將每一個主題爬行蟲看做一個Agent,使得主題爬行蟲具有自主、靈活、交互等特性,并且采用多Agent的知識來實現(xiàn)多個主題爬行蟲在網(wǎng)頁爬行過程中的協(xié)作,從而提高爬行蟲的爬行精度和爬行效率。 論文的主要研究內(nèi)容包括以下幾點: 1.本文提出了一種招標能力值的度量方法。該招標能力度量方法用于評價一個Agent是否具有招標能力,從而決定該Agent是否要發(fā)布招標信息。這個能力函數(shù)不僅考慮了爬行蟲的爬行歷史網(wǎng)頁的重要度,而且考慮了已爬行網(wǎng)頁的鏈接分值。實驗證明該能力函數(shù)能更準確地評價Agent的招標能力。 2.本文提出了一種新的多Agent的主題爬行蟲組織結(jié)構(gòu)。在這個組織結(jié)構(gòu)中,所有Agent被分成三類:F-Agent(Facilitator-Agent), As-Agent(Assistance-Agent),和C-Agent (Crawler-Agent),他們各盡其責(zé)并且相互協(xié)作共同完成網(wǎng)頁爬行任務(wù)。 3.本文提出了多Agent主題爬行蟲的協(xié)作模型。一種改進的合同網(wǎng)協(xié)議被用來實現(xiàn)多Agent主題爬行蟲之間的協(xié)作,并且詳細論述了改進的合同網(wǎng)協(xié)議中的招標、投標、合同簽訂、合同終止四個過程。針對該協(xié)作模型,本文提出了多Agent主題爬行蟲系統(tǒng)的系統(tǒng)框架和工作流程。 文章的最后,采用JADE平臺實現(xiàn)了本文提出的多Agent主題爬行蟲,并且在爬行精度和爬行效率上面與其它四種主題爬行蟲進行比較,最終實驗證明,本文提出的多Agent主題爬行蟲不僅可以減少爬行蟲的網(wǎng)絡(luò)爬行重合度,而且具有更高的爬行精度和爬行效率。
【圖文】:

重合度,主題,網(wǎng)頁


上面提到的主題爬行蟲不僅具有學(xué)習(xí)能力,而且能夠很好的滿足用戶個性化的需但是,這些主題爬行蟲在爬行過程中至始至終都是相互獨立工作的,爬行蟲之間沒流與協(xié)作,這些主題爬行蟲將會面臨下面兩種問題:(1) 不同的網(wǎng)頁具有相同的網(wǎng)頁鏈接,如果一個主題爬行蟲不能夠和其他的爬行蟲交流,它可能會爬行一個其他爬行蟲已經(jīng)爬過的區(qū)域,這樣就存在不同主題爬行蟲的網(wǎng)頁爬行的重合度的問題。(2)當(dāng)一個爬行蟲的爬行任務(wù)太重或者太輕時,它不能夠請求其他爬行蟲的幫助,就不能讓爬行蟲更早地發(fā)現(xiàn)高質(zhì)量的網(wǎng)頁,同時也導(dǎo)致了爬行精度和爬行效率的下

主題,網(wǎng)頁,重合度,至終


上面提到的主題爬行蟲不僅具有學(xué)習(xí)能力,而且能夠很好的滿足用戶個性化的需但是,,這些主題爬行蟲在爬行過程中至始至終都是相互獨立工作的,爬行蟲之間沒流與協(xié)作,這些主題爬行蟲將會面臨下面兩種問題:(1) 不同的網(wǎng)頁具有相同的網(wǎng)頁鏈接,如果一個主題爬行蟲不能夠和其他的爬行蟲交流,它可能會爬行一個其他爬行蟲已經(jīng)爬過的區(qū)域,這樣就存在不同主題爬行蟲的網(wǎng)頁爬行的重合度的問題。(2)當(dāng)一個爬行蟲的爬行任務(wù)太重或者太輕時,它不能夠請求其他爬行蟲的幫助,就不能讓爬行蟲更早地發(fā)現(xiàn)高質(zhì)量的網(wǎng)頁,同時也導(dǎo)致了爬行精度和爬行效率的下
【學(xué)位授予單位】:西華大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3;TP18

【參考文獻】

相關(guān)期刊論文 前10條

1 汪濤,樊孝忠,顧益軍,劉林;基于概念分析的主題爬蟲設(shè)計[J];北京理工大學(xué)學(xué)報;2004年10期

2 張少蘋;戴鋒;王成志;張覃;;多Agent系統(tǒng)研究綜述[J];復(fù)雜系統(tǒng)與復(fù)雜性科學(xué);2011年04期

3 羅柏發(fā);林航;董鳳嬌;;基于可信聯(lián)盟的多Agent協(xié)作模型研究及應(yīng)用[J];桂林電子科技大學(xué)學(xué)報;2011年01期

4 陳剛,陸汝鈐;關(guān)系網(wǎng)模型——基于社會合作機制的多Agent協(xié)作組織方法[J];計算機研究與發(fā)展;2003年01期

5 錢功偉;倪林;曹榮;;基于網(wǎng)頁鏈接和內(nèi)容分析的改進PageRank算法[J];計算機工程與應(yīng)用;2007年21期

6 劉東飛;鄧俊濤;鄧浩;;智能搜索引擎中的多Agent協(xié)作策略研究[J];軟件導(dǎo)刊;2007年01期

7 劉大有,楊鯤,陳建中;Agent研究現(xiàn)狀與發(fā)展趨勢[J];軟件學(xué)報;2000年03期

8 杜亞軍;;網(wǎng)絡(luò)爬行蟲智能化研究分析[J];西華大學(xué)學(xué)報(自然科學(xué)版);2010年02期

9 倪賢貴;蔡明;;基于鏈接結(jié)構(gòu)和內(nèi)容相似度的聚焦爬蟲系統(tǒng)[J];計算機工程與設(shè)計;2008年07期

10 劉文財,劉豹,王啟文,張維;基于Agent的金融市場模型研究進展綜述[J];系統(tǒng)工程學(xué)報;2003年02期

相關(guān)碩士學(xué)位論文 前6條

1 韓保川;基于用戶興趣本體的初始URLs選擇方法的研究[D];西華大學(xué);2011年

2 鄭俊輝;Multi-Agent技術(shù)研究[D];西南石油學(xué)院;2003年

3 向丹;專業(yè)搜索引擎中的多Agent協(xié)調(diào)研究[D];西華大學(xué);2008年

4 楊月奎;基于語義的主題爬行方向研究[D];西華大學(xué);2009年

5 彭強強;基于概念背景圖的主題爬行策略研究[D];西華大學(xué);2010年

6 王瑩煜;基于多Agent系統(tǒng)的主題爬蟲理解與協(xié)作研究[D];西華大學(xué);2010年



本文編號:2584215

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2584215.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶56317***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com