基于版權(quán)服務的網(wǎng)絡數(shù)據(jù)采集算法研究
[Abstract]:With the rapid development of network, the network transmission speed is fast and the cost is low, and the digital works are easy to spread and spread in the Internet, which brings the unprecedented challenge to the digital rights management work. Unauthorized reproduction or theft of digital works on the Internet seriously damages the rights and interests of the rights holders of digital works. How to effectively detect unauthorized digital works on the network is an important part of network monitoring in copyright protection. Because of the wide range of search, the large scale of data collection and the repeated retrieval results, the research on the network data acquisition algorithm based on copyright service is of practical significance. This paper first introduces the composition and working principle of general search engine, and expounds the key technologies of vertical search engine, such as web crawler, information extraction and so on. In order to solve the problem of repeated links in search, the URL address de-reduplication strategy and crawling search strategy of web crawler are discussed in detail, and the memory-based Hash algorithm for URL address reduplication is discussed respectively. The URL address de-duplication algorithm based on embedded database Berk eley DB and the search strategy based on content and URL link analysis are compared and analyzed. On this basis, the advantages and disadvantages of these algorithms are compared and analyzed. The paper combines the advantages of Bloom Filter algorithm, such as less memory consumption, faster speed and stable performance when the embedded database Berkeley DB is used to remove the heavy URL address, and combines the characteristics of the relatively stable presentation format of digital music works and the low level depth of the web page, and so on. A new URL address de-duplication algorithm is designed. According to different requirements, Bloom Filter is used to remove the URL address and the Berkeley DB method is used to remove the weight. At the same time, the URL address is compressed by MD5 and stored in the embedded database for reading, so that the storage space can be reduced better. In view of the "myopia problem" based on content evaluation algorithm and the "theme drift" phenomenon based on network link evaluation algorithm, the advantages of Shark Search algorithm and Hits algorithm are combined, and the relationship between content topic and link is considered. A new topic crawling strategy algorithm is proposed. Based on the open source Heritrix framework, a vertical search engine is designed, and the URL address de-duplication algorithm and search strategy proposed in this paper are analyzed experimentally. The innovation of this paper is that a new URL address reduplication algorithm and a search strategy based on content and link evaluation are proposed, and the efficiency of the algorithm is tested and analyzed.
【學位授予單位】:北方工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2013
【分類號】:TP391.3
【相似文獻】
相關(guān)期刊論文 前10條
1 段愛華;段q;;網(wǎng)絡搜索研究與應用[J];大眾科技;2007年04期
2 崔澤永,常曉燕;搜索引擎的Web Robot技術(shù)與優(yōu)化[J];微機發(fā)展;2004年04期
3 毛曉蛟;;搜索引擎中網(wǎng)絡蜘蛛的研究與實現(xiàn)[J];電腦編程技巧與維護;2010年18期
4 李勇;韓亮;;主題搜索引擎中網(wǎng)絡爬蟲的搜索策略研究[J];計算機工程與科學;2008年03期
5 丁婕;;管窺“網(wǎng)絡蜘蛛”之網(wǎng)上爬行[J];技術(shù)與市場;2008年08期
6 鄭志波;;搜索器的設計與實現(xiàn)[J];電腦知識與技術(shù)(學術(shù)交流);2007年01期
7 吳清江;吳政;劉琳瑯;;面向僑務信息主題的搜索引擎系統(tǒng)[J];華僑大學學報(自然科學版);2006年04期
8 李愛軍;王海濱;鄭曉波;;基于推理控制策略的智能型電力搜索引擎的研究[J];西華大學學報(自然科學版);2008年06期
9 劉蒼劍;;Internet中文搜索引擎檢索系統(tǒng)設計[J];適用技術(shù)市場;2001年04期
10 劉漢興;劉財興;;主題爬蟲的搜索策略研究[J];計算機工程與設計;2008年12期
相關(guān)會議論文 前10條
1 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術(shù)研討會論文集[C];2010年
2 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務搜索引擎設計與實現(xiàn)[A];CCF NCSC 2011——第二屆中國計算機學會服務計算學術(shù)會議論文集[C];2011年
3 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術(shù)年會論文集[C];2008年
4 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術(shù)交流會議論文匯編[C];2003年
5 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2001年
6 張博鋒;劉鳳;周傳飛;鄒國兵;;基于P2P的制造資源搜索引擎的研究與實現(xiàn)[A];2005年全國開放式分布與并行計算學術(shù)會議論文集[C];2005年
7 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年
8 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計算學術(shù)會議論文集[C];2005年
9 倪俊峰;;基于黃頁搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設計與實現(xiàn)[A];2005年中國索引學會年會暨學術(shù)研討會論文集[C];2005年
10 張怡;查貴庭;;SEO在信息服務中的應用研究[A];2010年中國索引學會年會暨學術(shù)研討會論文集[C];2010年
相關(guān)重要報紙文章 前10條
1 章森 王偉;搜索引擎的工作機制[N];計算機世界;2006年
2 李一鑫;搜索排名的紅與黑[N];財經(jīng)時報;2007年
3 周文林;搜狗3.0能否撼動搜索市場[N];經(jīng)濟參考報;2007年
4 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財經(jīng)日報;2005年
5 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務咨詢中心 常燕杰;搜索,,還是門戶[N];中國計算機報;2005年
6 陳珊;浙江移動推出手機搜索引擎服務[N];人民郵電;2005年
7 趙法忠;搜索引擎還需悠著點[N];中國經(jīng)營報;2005年
8 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報;2006年
9 本報記者 趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L港”[N];中國證券報;2006年
10 孫t;搜索引擎驚喜侵權(quán)官司止于“避風港”?[N];第一財經(jīng)日報;2006年
相關(guān)博士學位論文 前10條
1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
2 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年
3 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年
4 張帆;搜索引擎中索引表求交和提前停止技術(shù)優(yōu)化研究[D];南開大學;2012年
5 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學;2011年
6 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年
7 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年
8 費巍;搜索引擎檢索功能的性能評價研究[D];武漢大學;2010年
9 王昤璞;基于用戶體驗的互聯(lián)網(wǎng)搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
10 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2011年
相關(guān)碩士學位論文 前10條
1 陳瑜芳;主題爬蟲系統(tǒng)的研究[D];武漢理工大學;2010年
2 夏景隆;基于版權(quán)服務的網(wǎng)絡數(shù)據(jù)采集算法研究[D];北方工業(yè)大學;2013年
3 蘇國榮;校園網(wǎng)搜索引擎排序的去重方法研究[D];國防科學技術(shù)大學;2010年
4 王征;基于布隆過濾器算法的網(wǎng)頁消重技術(shù)的實現(xiàn)與應用[D];北京交通大學;2010年
5 屠輝;中文重復網(wǎng)頁的檢測算法研究[D];北京郵電大學;2010年
6 任妤;基于Nutch的科技主題搜索引擎Crawler的研究與實現(xiàn)[D];內(nèi)蒙古科技大學;2011年
7 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學;2010年
8 陳杰;主題搜索引擎中網(wǎng)絡蜘蛛搜索策略研究[D];浙江大學;2006年
9 郭謝;基于Web Community識別的專業(yè)搜索引擎研究[D];浙江大學;2006年
10 張朝斌;企業(yè)級搜索引擎的優(yōu)化設計與實現(xiàn)[D];華南理工大學;2010年
本文編號:2464291
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2464291.html