天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于版權(quán)服務(wù)的網(wǎng)絡(luò)數(shù)據(jù)采集算法研究

發(fā)布時(shí)間:2019-04-24 08:19
【摘要】:伴隨著網(wǎng)絡(luò)的飛速發(fā)展,網(wǎng)絡(luò)傳播速度快和成本低,數(shù)字作品容易在互聯(lián)網(wǎng)中傳播和擴(kuò)散,給數(shù)字版權(quán)管理工作帶來(lái)了前所未有的挑戰(zhàn)。未經(jīng)授權(quán)的數(shù)字作品在互聯(lián)網(wǎng)上的轉(zhuǎn)載或盜鏈,嚴(yán)重地?fù)p害了數(shù)字作品權(quán)利人的權(quán)利和利益。如何有效地在網(wǎng)絡(luò)上檢測(cè)出那些未經(jīng)授權(quán)的數(shù)字作品,是版權(quán)保護(hù)中網(wǎng)絡(luò)監(jiān)測(cè)的重要環(huán)節(jié)。而通用搜索引擎由于搜索的范圍廣、數(shù)據(jù)采集的規(guī)模龐大、檢索結(jié)果往往重復(fù)等問(wèn)題,所以,對(duì)基于版權(quán)服務(wù)的網(wǎng)絡(luò)數(shù)據(jù)采集算法進(jìn)行研究具有實(shí)際意義。 論文首先介紹了通用搜索引擎的組成及工作原理,闡述了垂直搜索引擎的關(guān)鍵技術(shù)如網(wǎng)絡(luò)爬蟲、信息抽取等。針對(duì)搜索中重復(fù)鏈接問(wèn)題,詳細(xì)討論了網(wǎng)絡(luò)爬蟲的URL地址去重策略和爬行搜索策略,分別論述了基于內(nèi)存的Hash算法進(jìn)行URL地址去重、基于嵌入式數(shù)據(jù)庫(kù)Berk eley DB方式的URL地址去重算法以及基于內(nèi)容和URL鏈接分析的搜索策略,并對(duì)這些算法的優(yōu)缺點(diǎn)進(jìn)行了比較和分析,在此基礎(chǔ)上,論文綜合了Bloom Filter算法消耗內(nèi)存少、速度快和嵌入式數(shù)據(jù)庫(kù)Berkeley DB進(jìn)行URL地址去重時(shí)性能穩(wěn)定等優(yōu)點(diǎn),結(jié)合數(shù)字音樂(lè)作品相對(duì)穩(wěn)定的展現(xiàn)格式和所在網(wǎng)頁(yè)層次深度較小等特點(diǎn),設(shè)計(jì)了一種新的URL地址去重算法。根據(jù)不同要求分別采用Bloom Filter進(jìn)行URL地址去重和Berkeley DB方法進(jìn)行去重,同時(shí)對(duì)URL地址采用MD5壓縮后存入嵌入式數(shù)據(jù)庫(kù)中進(jìn)行讀取,這樣能更好地減少存儲(chǔ)空間。針對(duì)基于內(nèi)容評(píng)價(jià)算法的“近視問(wèn)題”和基于網(wǎng)絡(luò)鏈接評(píng)價(jià)算法的“主題漂移”現(xiàn)象,將Shark Search算法和Hits算法的優(yōu)點(diǎn)結(jié)合起來(lái),同時(shí)考慮內(nèi)容主題和鏈接互相加強(qiáng)的關(guān)系,提出一種新的主題爬取策略算法。論文以開(kāi)源Heritrix框架為基礎(chǔ),設(shè)計(jì)了一個(gè)垂直搜索引擎,對(duì)本文提出的URL地址去重算法和搜索策略進(jìn)行實(shí)驗(yàn)分析。 論文的創(chuàng)新點(diǎn)是提出了一種新的URL地址去重算法和基于內(nèi)容與鏈接評(píng)價(jià)相結(jié)合的搜索策略,并對(duì)算法的效率進(jìn)行了測(cè)試分析。
[Abstract]:With the rapid development of network, the network transmission speed is fast and the cost is low, and the digital works are easy to spread and spread in the Internet, which brings the unprecedented challenge to the digital rights management work. Unauthorized reproduction or theft of digital works on the Internet seriously damages the rights and interests of the rights holders of digital works. How to effectively detect unauthorized digital works on the network is an important part of network monitoring in copyright protection. Because of the wide range of search, the large scale of data collection and the repeated retrieval results, the research on the network data acquisition algorithm based on copyright service is of practical significance. This paper first introduces the composition and working principle of general search engine, and expounds the key technologies of vertical search engine, such as web crawler, information extraction and so on. In order to solve the problem of repeated links in search, the URL address de-reduplication strategy and crawling search strategy of web crawler are discussed in detail, and the memory-based Hash algorithm for URL address reduplication is discussed respectively. The URL address de-duplication algorithm based on embedded database Berk eley DB and the search strategy based on content and URL link analysis are compared and analyzed. On this basis, the advantages and disadvantages of these algorithms are compared and analyzed. The paper combines the advantages of Bloom Filter algorithm, such as less memory consumption, faster speed and stable performance when the embedded database Berkeley DB is used to remove the heavy URL address, and combines the characteristics of the relatively stable presentation format of digital music works and the low level depth of the web page, and so on. A new URL address de-duplication algorithm is designed. According to different requirements, Bloom Filter is used to remove the URL address and the Berkeley DB method is used to remove the weight. At the same time, the URL address is compressed by MD5 and stored in the embedded database for reading, so that the storage space can be reduced better. In view of the "myopia problem" based on content evaluation algorithm and the "theme drift" phenomenon based on network link evaluation algorithm, the advantages of Shark Search algorithm and Hits algorithm are combined, and the relationship between content topic and link is considered. A new topic crawling strategy algorithm is proposed. Based on the open source Heritrix framework, a vertical search engine is designed, and the URL address de-duplication algorithm and search strategy proposed in this paper are analyzed experimentally. The innovation of this paper is that a new URL address reduplication algorithm and a search strategy based on content and link evaluation are proposed, and the efficiency of the algorithm is tested and analyzed.
【學(xué)位授予單位】:北方工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 段愛(ài)華;段q;;網(wǎng)絡(luò)搜索研究與應(yīng)用[J];大眾科技;2007年04期

2 崔澤永,常曉燕;搜索引擎的Web Robot技術(shù)與優(yōu)化[J];微機(jī)發(fā)展;2004年04期

3 毛曉蛟;;搜索引擎中網(wǎng)絡(luò)蜘蛛的研究與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2010年18期

4 李勇;韓亮;;主題搜索引擎中網(wǎng)絡(luò)爬蟲的搜索策略研究[J];計(jì)算機(jī)工程與科學(xué);2008年03期

5 丁婕;;管窺“網(wǎng)絡(luò)蜘蛛”之網(wǎng)上爬行[J];技術(shù)與市場(chǎng);2008年08期

6 鄭志波;;搜索器的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年01期

7 吳清江;吳政;劉琳瑯;;面向僑務(wù)信息主題的搜索引擎系統(tǒng)[J];華僑大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年04期

8 李愛(ài)軍;王海濱;鄭曉波;;基于推理控制策略的智能型電力搜索引擎的研究[J];西華大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年06期

9 劉蒼劍;;Internet中文搜索引擎檢索系統(tǒng)設(shè)計(jì)[J];適用技術(shù)市場(chǎng);2001年04期

10 劉漢興;劉財(cái)興;;主題爬蟲的搜索策略研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年12期

相關(guān)會(huì)議論文 前10條

1 維尼拉·木沙江;吐?tīng)柡椤の崴韭?;維、哈、柯文搜索引擎中網(wǎng)頁(yè)爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語(yǔ)言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語(yǔ)言信息處理、第二屆全國(guó)多語(yǔ)言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

2 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國(guó)計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年

3 彭軻;廖聞劍;;淺析搜索引擎[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

4 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國(guó)中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年

5 鄧長(zhǎng)壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

6 張博鋒;劉鳳;周傳飛;鄒國(guó)兵;;基于P2P的制造資源搜索引擎的研究與實(shí)現(xiàn)[A];2005年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年

7 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年

8 姚樹(shù)宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國(guó)開(kāi)放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年

9 倪俊峰;;基于黃頁(yè)搜索引擎的關(guān)鍵字排名廣告系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];2005年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2005年

10 張怡;查貴庭;;SEO在信息服務(wù)中的應(yīng)用研究[A];2010年中國(guó)索引學(xué)會(huì)年會(huì)暨學(xué)術(shù)研討會(huì)論文集[C];2010年

相關(guān)重要報(bào)紙文章 前10條

1 章森 王偉;搜索引擎的工作機(jī)制[N];計(jì)算機(jī)世界;2006年

2 李一鑫;搜索排名的紅與黑[N];財(cái)經(jīng)時(shí)報(bào);2007年

3 周文林;搜狗3.0能否撼動(dòng)搜索市場(chǎng)[N];經(jīng)濟(jì)參考報(bào);2007年

4 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年

5 賽迪顧問(wèn)股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,,還是門戶[N];中國(guó)計(jì)算機(jī)報(bào);2005年

6 陳珊;浙江移動(dòng)推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年

7 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國(guó)經(jīng)營(yíng)報(bào);2005年

8 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報(bào);2006年

9 本報(bào)記者  趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國(guó)證券報(bào);2006年

10 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財(cái)經(jīng)日?qǐng)?bào);2006年

相關(guān)博士學(xué)位論文 前10條

1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

2 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

3 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年

4 張帆;搜索引擎中索引表求交和提前停止技術(shù)優(yōu)化研究[D];南開(kāi)大學(xué);2012年

5 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

6 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

7 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

8 費(fèi)巍;搜索引擎檢索功能的性能評(píng)價(jià)研究[D];武漢大學(xué);2010年

9 王昤璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年

10 李莎莎;面向搜索引擎的自然語(yǔ)言處理關(guān)鍵技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 陳瑜芳;主題爬蟲系統(tǒng)的研究[D];武漢理工大學(xué);2010年

2 夏景隆;基于版權(quán)服務(wù)的網(wǎng)絡(luò)數(shù)據(jù)采集算法研究[D];北方工業(yè)大學(xué);2013年

3 蘇國(guó)榮;校園網(wǎng)搜索引擎排序的去重方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年

4 王征;基于布隆過(guò)濾器算法的網(wǎng)頁(yè)消重技術(shù)的實(shí)現(xiàn)與應(yīng)用[D];北京交通大學(xué);2010年

5 屠輝;中文重復(fù)網(wǎng)頁(yè)的檢測(cè)算法研究[D];北京郵電大學(xué);2010年

6 任妤;基于Nutch的科技主題搜索引擎Crawler的研究與實(shí)現(xiàn)[D];內(nèi)蒙古科技大學(xué);2011年

7 封俊;基于Hadoop的分布式搜索引擎研究與實(shí)現(xiàn)[D];太原理工大學(xué);2010年

8 陳杰;主題搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略研究[D];浙江大學(xué);2006年

9 郭謝;基于Web Community識(shí)別的專業(yè)搜索引擎研究[D];浙江大學(xué);2006年

10 張朝斌;企業(yè)級(jí)搜索引擎的優(yōu)化設(shè)計(jì)與實(shí)現(xiàn)[D];華南理工大學(xué);2010年



本文編號(hào):2464291

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2464291.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fdf60***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
深夜日本福利在线观看| 中文字幕亚洲在线一区| 欧美整片精品日韩综合| 日韩精品人妻少妇一区二区| 日韩黄片大全免费在线看| 精品国产日韩一区三区| 日韩国产传媒在线精品| 免费观看一级欧美大片| 精品日韩中文字幕视频在线| 成人午夜免费观看视频| 国内欲色一区二区三区| 国产精品免费福利在线| 老熟妇2久久国内精品| 黄片三级免费在线观看| 亚洲国产91精品视频| 亚洲欧美中文字幕精品| 高清不卡视频在线观看| 欧美区一区二在线播放| 日本久久精品在线观看| 亚洲一级二级三级精品| 亚洲日本韩国一区二区三区| 国产成人精品在线播放| 亚洲性生活一区二区三区| 尤物久久91欧美人禽亚洲| 日韩一区欧美二区国产| 日本欧美视频在线观看免费| 国产成人国产精品国产三级 | 日本不卡一本二本三区| 美国女大兵激情豪放视频播放| 亚洲性生活一区二区三区| 欧美午夜一区二区福利视频| 日本高清一区免费不卡| 亚洲国产欧美精品久久| 精品一区二区三区免费看| 日韩在线视频精品中文字幕| 欧美成人黄色一级视频| 好吊色免费在线观看视频| 中文字幕一区二区免费| 老司机精品视频在线免费| 色播五月激情五月婷婷| 亚洲午夜福利视频在线|