一種分布式網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)
本文關(guān)鍵詞:一種分布式網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn) 出處:《江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》2013年04期 論文類型:期刊論文
更多相關(guān)文章: 分布式系統(tǒng) 網(wǎng)絡(luò)爬蟲 設(shè)計(jì)
【摘要】:利用用戶指定的關(guān)鍵字和搜索引擎生成URL種子,通過分布式網(wǎng)絡(luò)爬蟲抽取符合用戶需求的網(wǎng)頁作為研究所用的語料.實(shí)驗(yàn)結(jié)果表明:分布式網(wǎng)絡(luò)爬蟲可以較好地解決在短時(shí)間內(nèi)抽取大量語料的需求.
[Abstract]:......
【作者單位】: 上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系;
【基金】:國家自然科學(xué)基金(60773087)資助項(xiàng)目
【分類號(hào)】:TP391.3
【正文快照】: 0引言網(wǎng)絡(luò)爬蟲,英文名稱為Spider或Crawler,是一種功能強(qiáng)大的自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分.此外,它可以完全不依賴用戶干預(yù)實(shí)現(xiàn)網(wǎng)絡(luò)上的自動(dòng)“爬行”和“搜索".網(wǎng)絡(luò)爬蟲工作過程一般是從一個(gè)或若干個(gè)初始網(wǎng)頁的URL開始,獲得
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 查偉;;分布式計(jì)算機(jī)機(jī)房管理系統(tǒng)設(shè)計(jì)[J];咸寧學(xué)院學(xué)報(bào);2006年06期
2 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲設(shè)計(jì)[J];現(xiàn)代圖書情報(bào)技術(shù);2008年06期
3 張春蘭;李元;楊濤;;分布式電子實(shí)驗(yàn)管理信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];沈陽化工學(xué)院學(xué)報(bào);2006年04期
4 曾文;湛騰西;;網(wǎng)絡(luò)視頻爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];中國科技信息;2010年15期
5 帖軍;;分布式線程池模型的設(shè)計(jì)與實(shí)現(xiàn)[J];中南民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年02期
6 林郁;周傳生;;基于多Agent的分布式資源檢索系統(tǒng)的設(shè)計(jì)[J];網(wǎng)絡(luò)與信息;2008年04期
7 孫輝霞;;基于網(wǎng)絡(luò)的高校教務(wù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];甘肅科技縱橫;2008年03期
8 徐遠(yuǎn)超;劉江華;劉麗珍;關(guān)永;;基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2007年21期
9 薛建春;段紅梅;蔡松;;定題搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2007年21期
10 池勇敏;郝泳濤;;分布式主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2010年12期
相關(guān)會(huì)議論文 前10條
1 張午生;辛建卉;蔣愛兵;;鄭州市土地利用規(guī)劃管理信息系統(tǒng)的設(shè)計(jì)[A];2006年中國土地學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2006年
2 劉權(quán);曹艷秋;;松遼流域地理信息系統(tǒng)總體設(shè)計(jì)[A];2001年東北三省測繪學(xué)術(shù)與信息交流會(huì)論文集[C];2001年
3 吉s,
本文編號(hào):1348183
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1348183.html