林產品供求WEB信息增量獲取
發(fā)布時間:2017-12-14 09:36
本文關鍵詞:林產品供求WEB信息增量獲取
更多相關文章: 林產品貿易信息 增量爬蟲 LCS 泊松分布 模版
【摘要】:近年來,互聯(lián)網的高速發(fā)展與快速普及使得信息無處不在、無孔不入。伴隨著互聯(lián)網的發(fā)展,我國的林產品貿易信息類網站也日益成熟,林產品貿易信息的數(shù)量急劇增加,用戶面對海量的數(shù)據信息很容易產生信息迷航,針對這些問題面向林產品貿易信息的信息聚合網站和垂直搜索引擎等網絡應用系統(tǒng)應運而生。此類應用需要從不同的信息源中將Web網頁抓取下來,經信息提取、信息融合等環(huán)節(jié),將信息存儲至本地數(shù)據庫,在該過程中網絡爬蟲負責將Web頁面抓取至本地,是整個過程的基礎。然而Web信息數(shù)據量巨大,分布廣泛,更新變化頻繁,在有限的時間和資源內獲取足夠多的有效的數(shù)據成為傳統(tǒng)爬蟲的一個巨大挑戰(zhàn)。為了解決此問題,增量爬蟲逐漸成為近年來學者們研究的熱點。 本文首先對林產品貿易Web網站的結構以及貿易信息特點進行了總結分析,針對林產品貿易Web網站結構類似且多采用目錄導航結構的特點,構建了基于模版的林產品貿易主題Web網頁抓取程序。而后,根據林產品貿易Web信息特征,提出了基于LCS(Longest Common Subsequence,最長公共子序列)的林產品貿易Web信息去噪方法。根據Web頁面更新變化特點,構建了基于URL和網頁內容變化的增量抓取程序。文章最后選取了比較有代表性的林產品貿易網站為實驗對象對本系統(tǒng)進行了驗證。實驗結果表明該系統(tǒng)能準確抓取到林產品貿易Web信息,并利用較少的時間和網絡資源完成網頁的更新。
【學位授予單位】:北京林業(yè)大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:F326.2;F323.7
【參考文獻】
中國期刊全文數(shù)據庫 前1條
1 孟濤;王繼民;閆宏飛;;網頁變化與增量搜集技術[J];軟件學報;2006年05期
,本文編號:1287429
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1287429.html
教材專著