基于網(wǎng)絡爬蟲的排行榜系統(tǒng)設計與實現(xiàn)
發(fā)布時間:2021-06-16 15:11
隨著信息技術的飛速發(fā)展,互聯(lián)網(wǎng)上的信息數(shù)量出現(xiàn)了爆炸式的增長。如何從海量數(shù)據(jù)中提取并利用有用信息成為一大挑戰(zhàn)。網(wǎng)絡爬蟲的出現(xiàn)有效地解決了這一問題,它可以按照人們設計的規(guī)則,憑借計算機的強大處理能力,快速地獲取并提煉出有價值的數(shù)據(jù)。相對于人工獲取信息的方式,網(wǎng)絡爬蟲獲取信息的方式具有更高的效率。本項目通過爬蟲獲取網(wǎng)絡資源,使用分布式數(shù)據(jù)庫系統(tǒng)存儲爬蟲獲取的海量數(shù)據(jù),完成對數(shù)據(jù)的分析和處理,進而生成排行榜,并通過榜單頁面進行展示;谝陨弦(guī)劃,本文設計和實現(xiàn)了基于分布式爬蟲的排行榜展示系統(tǒng)。該系統(tǒng)已上線運行,取得了預期效果。本文主要工作有以下四個方面:首先,基于分布式結構,設計網(wǎng)絡爬蟲,可以實現(xiàn)即時爬取、基于模板的爬取、基于配置的爬取、增量爬取、隨時增減機器數(shù)量、隨時啟停,并且去重率可以達到100%。其次,使用分布式數(shù)據(jù)庫中間件,實現(xiàn)了具有易維護、高可用、易擴展、高速讀寫等優(yōu)點的分布式數(shù)據(jù)庫系統(tǒng),滿足了爬蟲結果存儲和排行榜數(shù)據(jù)存儲兩個主要需求。再次,通過對數(shù)據(jù)的分析和處理,提出排行榜打分算法。根據(jù)打分算法產(chǎn)生的排行榜榜單能夠獲得一個客觀的結果。最后,采用MVC設計模式和Spring開發(fā)框架...
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
圖2-2數(shù)據(jù)庫與網(wǎng)絡爬蟲和排行榜web服務的關系??然而數(shù)據(jù)庫技術目前尚+成熟
庫是管理數(shù)據(jù)的系統(tǒng),不同的數(shù)據(jù)庫使用不同的存儲模型,能夠滿足不M的需求。??本文實現(xiàn)的排行榜系統(tǒng)和網(wǎng)絡爬蟲,底層的數(shù)據(jù)存取都需要用到數(shù)據(jù)庫,它們的??關系如圖2-2所示。??y?嘯??網(wǎng)絡爬蟲?排行榜wqb服務??個?A??數(shù)據(jù)庫??圖2-2數(shù)據(jù)庫與網(wǎng)絡爬蟲和排行榜web服務的關系??然而數(shù)據(jù)庫技術目前尚+成熟。對于大多數(shù)應用場景,笮臺數(shù)據(jù)庫會有單點??故障、容量有限、不易擴展等問題存在。隨著數(shù)據(jù)量增大,以及業(yè)務要求的提高,??無法滿足實際需求。在當今互聯(lián)網(wǎng)環(huán)境下,應用往往會出現(xiàn)爆炸式的增長,開發(fā)??者無法對用戶數(shù)做出準確的預估,系統(tǒng)所需要支持的用戶很有可能在短短一個月??內增長幾千倍,數(shù)據(jù)也很有可能從原來的幾百GB飛速上漲到幾百個TB。即使??是淘寶這樣大網(wǎng)站,也要面臨雙十一購物高峰期的巨大壓力。如果系統(tǒng)+能隨著??用戶的變化而快速的擴人或縮小,都將對業(yè)務的發(fā)展帶來不利影響。在這樣的竹??景下
MySQL分布式集群的同步復制。Galera集群采用三階段提交協(xié)議,并發(fā)的控制??采用樂觀鎖。對于每一個DML操作,Galera都會賦予其一個全局唯一的標識,??事務的執(zhí)行按照標識的次序串行進行,如果發(fā)生沖突,會撤銷并重啟一個事務,??給予事務新的標識。基于這種分布式控制,Galera具有以下優(yōu)點[22]:??1、多主服務器的拓撲結構,真正的多主架構,在任何節(jié)點都可以進行讀寫;??2、同步復制,各節(jié)點之間數(shù)據(jù)無延遲,節(jié)點宕機不會導致數(shù)據(jù)丟失;??3、緊密耦合,所有節(jié)點均保持相同的狀態(tài),節(jié)點之間沒有不同的數(shù)據(jù),數(shù)據(jù)不一致問題,無需主從切換操作或使用vip;??4、發(fā)生宕機時無停機時間,得益于任意節(jié)點可以讀寫。宕機對系統(tǒng)的影響??微乎其微;??5、自動剔除故障節(jié)點,自動加入新節(jié)點,無需手工備份數(shù)據(jù)庫,加入新節(jié)??點時,Galera會自動備份數(shù)據(jù),并復制至新節(jié)點;??6、支持InnoDB存儲引擎;對應用透明,無需更改應用或進行極小的更改,??客戶端連接與操作單臺Mysql數(shù)據(jù)庫的體驗一致。??Galera的系統(tǒng)架構如圖2-5所示。??
【參考文獻】:
期刊論文
[1]Galera Cluster—新型的MySQL集群架構[J]. 電腦編程技巧與維護. 2017(12)
[2]主題網(wǎng)絡爬蟲研究綜述[J]. 于娟,劉強. 計算機工程與科學. 2015(02)
[3]基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J]. 陳吉榮,樂嘉錦. 計算機工程與科學. 2013(10)
[4]網(wǎng)絡爬蟲技術的研究[J]. 孫立偉,何國輝,吳禮發(fā). 電腦知識與技術. 2010(15)
[5]冪律分布研究簡史[J]. 胡海波,王林. 物理. 2005(12)
博士論文
[1]基于網(wǎng)絡用戶行為的搜索排行榜研究[D]. 楊悅.北京交通大學 2013
碩士論文
[1]Nginx負載均衡技術研究[D]. 馬原龍.重慶郵電大學 2016
[2]Web應用系統(tǒng)漏洞檢測技術研究與實現(xiàn)[D]. 洪俊斌.廣東工業(yè)大學 2016
本文編號:3233299
【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
圖2-2數(shù)據(jù)庫與網(wǎng)絡爬蟲和排行榜web服務的關系??然而數(shù)據(jù)庫技術目前尚+成熟
庫是管理數(shù)據(jù)的系統(tǒng),不同的數(shù)據(jù)庫使用不同的存儲模型,能夠滿足不M的需求。??本文實現(xiàn)的排行榜系統(tǒng)和網(wǎng)絡爬蟲,底層的數(shù)據(jù)存取都需要用到數(shù)據(jù)庫,它們的??關系如圖2-2所示。??y?嘯??網(wǎng)絡爬蟲?排行榜wqb服務??個?A??數(shù)據(jù)庫??圖2-2數(shù)據(jù)庫與網(wǎng)絡爬蟲和排行榜web服務的關系??然而數(shù)據(jù)庫技術目前尚+成熟。對于大多數(shù)應用場景,笮臺數(shù)據(jù)庫會有單點??故障、容量有限、不易擴展等問題存在。隨著數(shù)據(jù)量增大,以及業(yè)務要求的提高,??無法滿足實際需求。在當今互聯(lián)網(wǎng)環(huán)境下,應用往往會出現(xiàn)爆炸式的增長,開發(fā)??者無法對用戶數(shù)做出準確的預估,系統(tǒng)所需要支持的用戶很有可能在短短一個月??內增長幾千倍,數(shù)據(jù)也很有可能從原來的幾百GB飛速上漲到幾百個TB。即使??是淘寶這樣大網(wǎng)站,也要面臨雙十一購物高峰期的巨大壓力。如果系統(tǒng)+能隨著??用戶的變化而快速的擴人或縮小,都將對業(yè)務的發(fā)展帶來不利影響。在這樣的竹??景下
MySQL分布式集群的同步復制。Galera集群采用三階段提交協(xié)議,并發(fā)的控制??采用樂觀鎖。對于每一個DML操作,Galera都會賦予其一個全局唯一的標識,??事務的執(zhí)行按照標識的次序串行進行,如果發(fā)生沖突,會撤銷并重啟一個事務,??給予事務新的標識。基于這種分布式控制,Galera具有以下優(yōu)點[22]:??1、多主服務器的拓撲結構,真正的多主架構,在任何節(jié)點都可以進行讀寫;??2、同步復制,各節(jié)點之間數(shù)據(jù)無延遲,節(jié)點宕機不會導致數(shù)據(jù)丟失;??3、緊密耦合,所有節(jié)點均保持相同的狀態(tài),節(jié)點之間沒有不同的數(shù)據(jù),數(shù)據(jù)不一致問題,無需主從切換操作或使用vip;??4、發(fā)生宕機時無停機時間,得益于任意節(jié)點可以讀寫。宕機對系統(tǒng)的影響??微乎其微;??5、自動剔除故障節(jié)點,自動加入新節(jié)點,無需手工備份數(shù)據(jù)庫,加入新節(jié)??點時,Galera會自動備份數(shù)據(jù),并復制至新節(jié)點;??6、支持InnoDB存儲引擎;對應用透明,無需更改應用或進行極小的更改,??客戶端連接與操作單臺Mysql數(shù)據(jù)庫的體驗一致。??Galera的系統(tǒng)架構如圖2-5所示。??
【參考文獻】:
期刊論文
[1]Galera Cluster—新型的MySQL集群架構[J]. 電腦編程技巧與維護. 2017(12)
[2]主題網(wǎng)絡爬蟲研究綜述[J]. 于娟,劉強. 計算機工程與科學. 2015(02)
[3]基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J]. 陳吉榮,樂嘉錦. 計算機工程與科學. 2013(10)
[4]網(wǎng)絡爬蟲技術的研究[J]. 孫立偉,何國輝,吳禮發(fā). 電腦知識與技術. 2010(15)
[5]冪律分布研究簡史[J]. 胡海波,王林. 物理. 2005(12)
博士論文
[1]基于網(wǎng)絡用戶行為的搜索排行榜研究[D]. 楊悅.北京交通大學 2013
碩士論文
[1]Nginx負載均衡技術研究[D]. 馬原龍.重慶郵電大學 2016
[2]Web應用系統(tǒng)漏洞檢測技術研究與實現(xiàn)[D]. 洪俊斌.廣東工業(yè)大學 2016
本文編號:3233299
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3233299.html
最近更新
教材專著