天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

主題爬蟲算法的研究與實現(xiàn)

發(fā)布時間:2020-03-13 07:25
【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,上網(wǎng)人數(shù)的不斷增長,網(wǎng)絡(luò)上的信息量也急速增加。所有這些都給搜索引擎提出了挑戰(zhàn),傳統(tǒng)的搜索引擎已經(jīng)不可能提供給用戶既全面又具有專業(yè)深度的服務(wù)了,垂直搜索引擎應(yīng)運而生。主題網(wǎng)絡(luò)爬蟲作為垂直搜索引擎的抓取模塊,負責(zé)搜集網(wǎng)上的網(wǎng)頁信息。主題爬蟲的好壞直接影響著搜索引擎的服務(wù)質(zhì)量,故作為搜索引擎的重要組成部分,尤其值得去研究和改進。 近年來,對主題爬蟲的研究主要集中于兩個方面——主題爬蟲搜索策略和主題相關(guān)性算法。本文即針對這兩方面展開了討論,所做的主要工作和研究成果包括: (1)文章對主題爬蟲相關(guān)技術(shù)進行了研究。簡要描述了互聯(lián)網(wǎng)上主題頁面的分布特征、URL、正則表達式的應(yīng)用、網(wǎng)頁獲取、網(wǎng)頁內(nèi)容分析等方面的理論,為建立主題爬蟲墊定了基礎(chǔ)。 (2)研究并改進了主題相關(guān)度判定算法。在傳統(tǒng)向量空間模型的基礎(chǔ)上,根據(jù)網(wǎng)頁的結(jié)構(gòu)特征,對特征項關(guān)鍵詞進行加權(quán)。根據(jù)主題詞的語義多樣性,引入語義相似矩陣對網(wǎng)頁特征項進行相似性轉(zhuǎn)換。提高了主題爬蟲對相關(guān)網(wǎng)頁的識別度和下載率,避免無關(guān)網(wǎng)頁的下載。 (3)將全局搜索突出的遺傳算法和局部搜索效果較好的模擬退火算法引入到主題爬蟲的搜索策略中,并結(jié)合了改進的VSM相關(guān)度算法及URL鏈接的重要度共同計算待抓取URL的優(yōu)先級別,,從而確定爬蟲的抓取方向。 (4)實現(xiàn)了一個行業(yè)定制的主題爬蟲——澳洲建筑商服務(wù)系統(tǒng)中的爬蟲模塊。詳細地從技術(shù)方面介紹了行業(yè)定制爬蟲的特點。 (5)在通用爬蟲框架Heritrix的幫助下,對改進的VSM算法與傳統(tǒng)的VSM算法進行了相關(guān)性判定的對比;分別用HITS,最佳優(yōu)先算法與基于模擬退火遺傳算法的主題搜索策略進行主題搜索,由實驗結(jié)果可得基于模擬退火遺傳算法的主題搜索策略比基于鏈接的HITS算法,基于內(nèi)容的最佳優(yōu)先算法在某種程度上具有一定的優(yōu)勢。
【圖文】:

建筑服務(wù),商系,網(wǎng)站,澳洲


圖 5 . 1 澳 洲建 筑 服 務(wù)商 系統(tǒng) 網(wǎng)站 截圖 5. 1 .3 澳 洲建 筑 商服 務(wù)系 統(tǒng) 中的 主 題爬 蟲 的實 現(xiàn) 圖 5 . 2 澳 洲建 筑服 務(wù) 商 系統(tǒng) 中爬 蟲的 結(jié)構(gòu) 圖網(wǎng) 頁抓 取爬 蟲 初 始 化 模 塊模 塊鏈 接分 析模 塊網(wǎng) 頁庫 內(nèi) 容提 取模 塊待 訪 問U RL 主 題 內(nèi)容重 復(fù) U R L檢 測互 聯(lián)網(wǎng)

過程圖,網(wǎng)頁,過程


算 法 5 -1 ge t_ li n k () 輸 入 :$ li n k, $ i輸 出 : p a ge s ’ in fo r m a ti o n s a n d s a ve p a ge // i p , p a ge r e q u es te d , c o n te nt r e c e ic e d , li n ks fo u n d , re s u lt B e gi n (1 ) fo r e a c h $ i // $ i 是 基于 u rl 規(guī) 則 的 抽象 值, 用來 分 辨 同 類 的 u rl (2 ) m a ke s u r e th e $ li n k ;(3 ) r e c e iv e P a ge ($ li n k) ; // 從 網(wǎng) 絡(luò) 上下 載對 應(yīng)的 網(wǎng)頁 (4 ) if (p a ge _ d a ta [" r e c e iv e d " ] == fa ls e ) p ri n t " \n re c e iv e p a ge fa il e d "; (5 ) e ls e p ri n t " p a ge _ d a ta [" u rl " ] ,p a ge _ d a ta [" b yt e s _ re c e iv e d "] , p a ge _ d a ta [ "l i n ks _ f o u n d "] "; (6 ) s a ve p a ge ;(7 ) e n d ;下圖 5 .3 為 抓取 頁 面的 過 程, 并 顯示 出 i p 地 址, p a g e re q u e s t ed 所抓 取網(wǎng) 頁 的 UR n t en t re c ei ce d 網(wǎng) 頁內(nèi) 容 大 小, 里 面 所包 含 的鏈 接 個 數(shù) t o t al l i nk s fo u nd 和 是否 下 載成 狀 態(tài) re s ul t 。
【學(xué)位授予單位】:蘭州交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP391.3

【參考文獻】

相關(guān)期刊論文 前10條

1 梁南元;書面漢語的自動分詞與一個自動分詞系統(tǒng)—CDWS[J];北京航空學(xué)院學(xué)報;1984年04期

2 楊堅爭;李朝平;;垂直搜索引擎及其應(yīng)用[J];電子商務(wù);2006年10期

3 柯品惠;鄭秋鴻;;Hash函數(shù)研究綜述[J];福建電腦;2008年12期

4 劉群,張華平,俞鴻魁,程學(xué)旗;基于層疊隱馬模型的漢語詞法分析[J];計算機研究與發(fā)展;2004年08期

5 王海鷹;魏穎;;基于蟻群算法的多目標(biāo)網(wǎng)頁綜合評價策略[J];計算機工程與應(yīng)用;2011年04期

6 張燕平;劉超;曲永花;;WCBVSM與SACA結(jié)合的文本分類模型[J];計算機工程與應(yīng)用;2012年11期

7 劉國靖;康麗;羅長壽;;基于遺傳算法的主題爬蟲策略[J];計算機應(yīng)用;2007年S2期

8 蘇喻;鄭誠;馬中杰;;基于語義的VSM模型改進[J];計算機應(yīng)用與軟件;2011年08期

9 郭進;統(tǒng)計語言模型及漢語音字轉(zhuǎn)換的一些新結(jié)果[J];中文信息學(xué)報;1993年01期

10 杜娟娟;鄭麗英;;基于模擬退火遺傳算法的主題爬蟲搜索策略研究[J];科技風(fēng);2012年16期



本文編號:2586720

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2586720.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶74654***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com