林產(chǎn)品供求WEB信息增量獲取
發(fā)布時(shí)間:2017-12-14 09:36
本文關(guān)鍵詞:林產(chǎn)品供求WEB信息增量獲取
更多相關(guān)文章: 林產(chǎn)品貿(mào)易信息 增量爬蟲(chóng) LCS 泊松分布 模版
【摘要】:近年來(lái),互聯(lián)網(wǎng)的高速發(fā)展與快速普及使得信息無(wú)處不在、無(wú)孔不入。伴隨著互聯(lián)網(wǎng)的發(fā)展,我國(guó)的林產(chǎn)品貿(mào)易信息類(lèi)網(wǎng)站也日益成熟,林產(chǎn)品貿(mào)易信息的數(shù)量急劇增加,用戶面對(duì)海量的數(shù)據(jù)信息很容易產(chǎn)生信息迷航,針對(duì)這些問(wèn)題面向林產(chǎn)品貿(mào)易信息的信息聚合網(wǎng)站和垂直搜索引擎等網(wǎng)絡(luò)應(yīng)用系統(tǒng)應(yīng)運(yùn)而生。此類(lèi)應(yīng)用需要從不同的信息源中將Web網(wǎng)頁(yè)抓取下來(lái),經(jīng)信息提取、信息融合等環(huán)節(jié),將信息存儲(chǔ)至本地?cái)?shù)據(jù)庫(kù),在該過(guò)程中網(wǎng)絡(luò)爬蟲(chóng)負(fù)責(zé)將Web頁(yè)面抓取至本地,是整個(gè)過(guò)程的基礎(chǔ)。然而Web信息數(shù)據(jù)量巨大,分布廣泛,更新變化頻繁,在有限的時(shí)間和資源內(nèi)獲取足夠多的有效的數(shù)據(jù)成為傳統(tǒng)爬蟲(chóng)的一個(gè)巨大挑戰(zhàn)。為了解決此問(wèn)題,增量爬蟲(chóng)逐漸成為近年來(lái)學(xué)者們研究的熱點(diǎn)。 本文首先對(duì)林產(chǎn)品貿(mào)易Web網(wǎng)站的結(jié)構(gòu)以及貿(mào)易信息特點(diǎn)進(jìn)行了總結(jié)分析,針對(duì)林產(chǎn)品貿(mào)易Web網(wǎng)站結(jié)構(gòu)類(lèi)似且多采用目錄導(dǎo)航結(jié)構(gòu)的特點(diǎn),構(gòu)建了基于模版的林產(chǎn)品貿(mào)易主題Web網(wǎng)頁(yè)抓取程序。而后,根據(jù)林產(chǎn)品貿(mào)易Web信息特征,提出了基于LCS(Longest Common Subsequence,最長(zhǎng)公共子序列)的林產(chǎn)品貿(mào)易Web信息去噪方法。根據(jù)Web頁(yè)面更新變化特點(diǎn),構(gòu)建了基于URL和網(wǎng)頁(yè)內(nèi)容變化的增量抓取程序。文章最后選取了比較有代表性的林產(chǎn)品貿(mào)易網(wǎng)站為實(shí)驗(yàn)對(duì)象對(duì)本系統(tǒng)進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果表明該系統(tǒng)能準(zhǔn)確抓取到林產(chǎn)品貿(mào)易Web信息,并利用較少的時(shí)間和網(wǎng)絡(luò)資源完成網(wǎng)頁(yè)的更新。
【學(xué)位授予單位】:北京林業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:F326.2;F323.7
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 孟濤;王繼民;閆宏飛;;網(wǎng)頁(yè)變化與增量搜集技術(shù)[J];軟件學(xué)報(bào);2006年05期
,本文編號(hào):1287429
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1287429.html
最近更新
教材專(zhuān)著