天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向應(yīng)用商店的主題爬蟲設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-11-27 19:58
  目前互聯(lián)網(wǎng)上的信息量呈現(xiàn)爆發(fā)式的增長(zhǎng),但是人們獲取想要的信息所需要的代價(jià)與時(shí)間也是越來越高。因此,對(duì)于一般的搜索引擎來說,在進(jìn)行提交處理之后,返回的信息量太大,需要經(jīng)過人工干預(yù)才能再次進(jìn)行確認(rèn)與排查,查詢返回的結(jié)果中有用的信息占據(jù)的比例太少,同時(shí),通用的搜索引擎在進(jìn)行搜索的時(shí)候深度方面往往不夠。為了能夠及時(shí)的了解到應(yīng)用商店的熱點(diǎn)信息,需要引入相應(yīng)的分析系統(tǒng)。本文設(shè)計(jì)與實(shí)現(xiàn)了面向應(yīng)用商店的主題爬蟲系統(tǒng)。針對(duì)傳統(tǒng)的網(wǎng)絡(luò)爬蟲僅僅采用的一種搜索引擎的服務(wù),無法滿足針對(duì)主題性方面的應(yīng)用需要。本文深入對(duì)于主題爬蟲的相關(guān)特性、架構(gòu)、工作流程進(jìn)行分析,提出了一種面向應(yīng)用商店的爬蟲系統(tǒng)總體架構(gòu)。本系統(tǒng)開發(fā)采用當(dāng)前較為流行的Python語言和PHP語言開發(fā),采用標(biāo)準(zhǔn)的B/S架構(gòu),充分利用這種架構(gòu)在系統(tǒng)運(yùn)行過程中的優(yōu)勢(shì),結(jié)合了先進(jìn)的技術(shù)方法,實(shí)現(xiàn)了多線程管理模塊、爬取策略模塊、HTTP下載模塊、手機(jī)端抓取模塊、正文抽取模塊、超鏈接抽取模塊、主題相關(guān)度判斷模塊的管理功能模塊,最后按照單元測(cè)試和壓力測(cè)試對(duì)系統(tǒng)進(jìn)行相應(yīng)的測(cè)試分析,并對(duì)最終的測(cè)試結(jié)果進(jìn)行分析與總結(jié)處理。通過對(duì)爬蟲系統(tǒng)的測(cè)試,測(cè)試結(jié)果表明,爬蟲系統(tǒng)運(yùn)... 

【文章來源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:68 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

面向應(yīng)用商店的主題爬蟲設(shè)計(jì)與實(shí)現(xiàn)


搜索引擎體系結(jié)構(gòu)原理

流程圖,搜索引擎,流程,頁面


并將排序之后的結(jié)果展示使用者。搜索引擎的工作流程如圖2-2 所示。圖 2-2 搜索引擎搜索流程2.1.4 垂直搜索引擎結(jié)構(gòu)相比較于傳統(tǒng)的廣泛應(yīng)用的通用搜索引擎,垂直搜索引擎能夠提供更加專業(yè)化的搜索服務(wù),能夠針對(duì)特定的行業(yè)和領(lǐng)域進(jìn)行搜索,比通用的搜索結(jié)構(gòu)相比較,搜索結(jié)構(gòu)更加的結(jié)構(gòu)化,能夠很好的展示所需要查詢數(shù)據(jù)的詳細(xì)信息。由于最終展示給用戶的結(jié)構(gòu)不同,因此在初始階段對(duì)數(shù)據(jù)采集的過程中也是有一些區(qū)別的,在垂直搜索引擎中,頁面上的信息爬取增加了對(duì)鏈接方面的控制。垂直搜索引擎結(jié)構(gòu)如圖 2-3 所示。從圖中可以看出,首先是文件信息通過頁面采集,在互聯(lián)網(wǎng)上經(jīng)過 URL 控制,獲取所爬取的頁面,然后對(duì)頁面信息進(jìn)行結(jié)構(gòu)化信息提取→提取關(guān)鍵字信息→頁面消重→鏈接分析,

通用搜索引擎,頁面,信息,鏈接信息


圖 2-3 垂直搜索引擎結(jié)構(gòu)通用爬蟲和主題爬蟲1 通用爬蟲的工作流程對(duì)于通用的爬蟲來說,是通用搜索引擎中非常關(guān)鍵的一個(gè)模塊,主要是負(fù)責(zé)從互聯(lián)頁中下載大量的數(shù)據(jù)作為進(jìn)行通用搜索引擎的索引數(shù)據(jù)。通用網(wǎng)絡(luò)爬蟲是從一個(gè)或的頁面的鏈接情況出發(fā),獲取頁面上的 URL 地址列表信息,對(duì)頁面信息進(jìn)行相應(yīng)過程中,按照實(shí)現(xiàn)預(yù)定好的策略進(jìn)行搜索,在沒有達(dá)到終止的條件的過程中需要不從當(dāng)前的頁面上提取新的鏈接信息將其存放到爬行的 URL 隊(duì)列信息中。通用爬蟲流程如圖 2-4 所示。

【參考文獻(xiàn)】:
期刊論文
[1]改進(jìn)向量空間模型的主題爬蟲系統(tǒng)[J]. 姚榮寶,劉乃文.  山東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015 (03)
[2]基于Hadoop的廣域網(wǎng)分布式主題爬蟲系統(tǒng)框架[J]. 王淑芬,高軍禮,鄒普,宋海濤.  計(jì)算機(jī)工程與科學(xué). 2015(04)
[3]基于Heritrix的主題爬蟲在互聯(lián)網(wǎng)輿情系統(tǒng)中應(yīng)用[J]. 肖江,季節(jié).  電子設(shè)計(jì)工程. 2015(06)
[4]一種主動(dòng)發(fā)現(xiàn)網(wǎng)絡(luò)地理信息服務(wù)的主題爬蟲[J]. 沈平,桂志鵬,游蘭,胡凱,吳華意.  地球信息科學(xué)學(xué)報(bào). 2015(02)
[5]網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中主題網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[J]. 方星星,魯磊紀(jì),徐洋.  艦船電子工程. 2014(09)
[6]基于主題爬蟲的漏洞庫(kù)維護(hù)系統(tǒng)[J]. 劉海燕,黃睿,黃軒.  計(jì)算機(jī)與現(xiàn)代化. 2014(08)
[7]基于鏈接回溯的地理信息更新主題爬蟲研究[J]. 吳家皋,余浩,張雪英.  計(jì)算機(jī)技術(shù)與發(fā)展. 2014(07)
[8]基于向量空間模型的中文網(wǎng)頁主題特征項(xiàng)抽取[J]. 代寬,趙輝,韓冬,宋天勇.  吉林大學(xué)學(xué)報(bào)(信息科學(xué)版). 2014(01)
[9]一種全自動(dòng)生成網(wǎng)頁信息抽取Wrapper的方法[J]. 梅雪,程學(xué)旗,郭巖,張剛,丁國(guó)棟.  中文信息學(xué)報(bào). 2008(01)
[10]HtmIParser提取網(wǎng)頁信息的設(shè)計(jì)與實(shí)現(xiàn)[J]. 黃穎,黃治平.  江西理工大學(xué)學(xué)報(bào). 2007(06)

碩士論文
[1]基于主題的多線程網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實(shí)現(xiàn)[D]. 陳露.北京郵電大學(xué) 2015
[2]基于教育信息資源本體的主題爬蟲的研究[D]. 陳浩.云南師范大學(xué) 2014



本文編號(hào):3522950

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3522950.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b80db***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com