天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于網(wǎng)絡爬蟲的排行榜系統(tǒng)設計與實現(xiàn)

發(fā)布時間:2021-06-16 15:11
  隨著信息技術的飛速發(fā)展,互聯(lián)網(wǎng)上的信息數(shù)量出現(xiàn)了爆炸式的增長。如何從海量數(shù)據(jù)中提取并利用有用信息成為一大挑戰(zhàn)。網(wǎng)絡爬蟲的出現(xiàn)有效地解決了這一問題,它可以按照人們設計的規(guī)則,憑借計算機的強大處理能力,快速地獲取并提煉出有價值的數(shù)據(jù)。相對于人工獲取信息的方式,網(wǎng)絡爬蟲獲取信息的方式具有更高的效率。本項目通過爬蟲獲取網(wǎng)絡資源,使用分布式數(shù)據(jù)庫系統(tǒng)存儲爬蟲獲取的海量數(shù)據(jù),完成對數(shù)據(jù)的分析和處理,進而生成排行榜,并通過榜單頁面進行展示;谝陨弦(guī)劃,本文設計和實現(xiàn)了基于分布式爬蟲的排行榜展示系統(tǒng)。該系統(tǒng)已上線運行,取得了預期效果。本文主要工作有以下四個方面:首先,基于分布式結構,設計網(wǎng)絡爬蟲,可以實現(xiàn)即時爬取、基于模板的爬取、基于配置的爬取、增量爬取、隨時增減機器數(shù)量、隨時啟停,并且去重率可以達到100%。其次,使用分布式數(shù)據(jù)庫中間件,實現(xiàn)了具有易維護、高可用、易擴展、高速讀寫等優(yōu)點的分布式數(shù)據(jù)庫系統(tǒng),滿足了爬蟲結果存儲和排行榜數(shù)據(jù)存儲兩個主要需求。再次,通過對數(shù)據(jù)的分析和處理,提出排行榜打分算法。根據(jù)打分算法產(chǎn)生的排行榜榜單能夠獲得一個客觀的結果。最后,采用MVC設計模式和Spring開發(fā)框架... 

【文章來源】:北京郵電大學北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:69 頁

【學位級別】:碩士

【部分圖文】:

基于網(wǎng)絡爬蟲的排行榜系統(tǒng)設計與實現(xiàn)


圖2-2數(shù)據(jù)庫與網(wǎng)絡爬蟲和排行榜web服務的關系??然而數(shù)據(jù)庫技術目前尚+成熟

程序圖,架構,程序,模塊


庫是管理數(shù)據(jù)的系統(tǒng),不同的數(shù)據(jù)庫使用不同的存儲模型,能夠滿足不M的需求。??本文實現(xiàn)的排行榜系統(tǒng)和網(wǎng)絡爬蟲,底層的數(shù)據(jù)存取都需要用到數(shù)據(jù)庫,它們的??關系如圖2-2所示。??y?嘯??網(wǎng)絡爬蟲?排行榜wqb服務??個?A??數(shù)據(jù)庫??圖2-2數(shù)據(jù)庫與網(wǎng)絡爬蟲和排行榜web服務的關系??然而數(shù)據(jù)庫技術目前尚+成熟。對于大多數(shù)應用場景,笮臺數(shù)據(jù)庫會有單點??故障、容量有限、不易擴展等問題存在。隨著數(shù)據(jù)量增大,以及業(yè)務要求的提高,??無法滿足實際需求。在當今互聯(lián)網(wǎng)環(huán)境下,應用往往會出現(xiàn)爆炸式的增長,開發(fā)??者無法對用戶數(shù)做出準確的預估,系統(tǒng)所需要支持的用戶很有可能在短短一個月??內增長幾千倍,數(shù)據(jù)也很有可能從原來的幾百GB飛速上漲到幾百個TB。即使??是淘寶這樣大網(wǎng)站,也要面臨雙十一購物高峰期的巨大壓力。如果系統(tǒng)+能隨著??用戶的變化而快速的擴人或縮小,都將對業(yè)務的發(fā)展帶來不利影響。在這樣的竹??景下

系統(tǒng)架構,節(jié)點,硬件,性能


MySQL分布式集群的同步復制。Galera集群采用三階段提交協(xié)議,并發(fā)的控制??采用樂觀鎖。對于每一個DML操作,Galera都會賦予其一個全局唯一的標識,??事務的執(zhí)行按照標識的次序串行進行,如果發(fā)生沖突,會撤銷并重啟一個事務,??給予事務新的標識。基于這種分布式控制,Galera具有以下優(yōu)點[22]:??1、多主服務器的拓撲結構,真正的多主架構,在任何節(jié)點都可以進行讀寫;??2、同步復制,各節(jié)點之間數(shù)據(jù)無延遲,節(jié)點宕機不會導致數(shù)據(jù)丟失;??3、緊密耦合,所有節(jié)點均保持相同的狀態(tài),節(jié)點之間沒有不同的數(shù)據(jù),數(shù)據(jù)不一致問題,無需主從切換操作或使用vip;??4、發(fā)生宕機時無停機時間,得益于任意節(jié)點可以讀寫。宕機對系統(tǒng)的影響??微乎其微;??5、自動剔除故障節(jié)點,自動加入新節(jié)點,無需手工備份數(shù)據(jù)庫,加入新節(jié)??點時,Galera會自動備份數(shù)據(jù),并復制至新節(jié)點;??6、支持InnoDB存儲引擎;對應用透明,無需更改應用或進行極小的更改,??客戶端連接與操作單臺Mysql數(shù)據(jù)庫的體驗一致。??Galera的系統(tǒng)架構如圖2-5所示。??

【參考文獻】:
期刊論文
[1]Galera Cluster—新型的MySQL集群架構[J].   電腦編程技巧與維護. 2017(12)
[2]主題網(wǎng)絡爬蟲研究綜述[J]. 于娟,劉強.  計算機工程與科學. 2015(02)
[3]基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J]. 陳吉榮,樂嘉錦.  計算機工程與科學. 2013(10)
[4]網(wǎng)絡爬蟲技術的研究[J]. 孫立偉,何國輝,吳禮發(fā).  電腦知識與技術. 2010(15)
[5]冪律分布研究簡史[J]. 胡海波,王林.  物理. 2005(12)

博士論文
[1]基于網(wǎng)絡用戶行為的搜索排行榜研究[D]. 楊悅.北京交通大學 2013

碩士論文
[1]Nginx負載均衡技術研究[D]. 馬原龍.重慶郵電大學 2016
[2]Web應用系統(tǒng)漏洞檢測技術研究與實現(xiàn)[D]. 洪俊斌.廣東工業(yè)大學 2016



本文編號:3233299

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3233299.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶ec9eb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
国产传媒免费观看视频| 偷拍洗澡一区二区三区| 国产人妻精品区一区二区三区 | 国产亚洲神马午夜福利| 国产精品大秀视频日韩精品| 亚洲永久一区二区三区在线| 日本人妻精品中文字幕不卡乱码 | 日韩高清中文字幕亚洲| 亚洲一区二区三区有码| 欧美日本亚欧在线观看| 午夜福利视频六七十路熟女| 国产精品涩涩成人一区二区三区| 国产又猛又黄又粗又爽无遮挡 | 少妇人妻精品一区二区三区 | 精品亚洲av一区二区三区| 国内精品偷拍视频久久| 丰满人妻熟妇乱又乱精品古代| 亚洲中文在线观看小视频| 亚洲欧美国产精品一区二区| 亚洲一区二区精品免费| 日韩色婷婷综合在线观看| 国产精品国产亚洲区久久| 暴力三级a特黄在线观看| 亚洲内射人妻一区二区| 亚洲男人天堂网在线视频| 国产精品亚洲二区三区| 在线日本不卡一区二区| 日本欧美在线一区二区三区| 亚洲一区二区三区国产| 成年午夜在线免费视频| 日韩黄色大片免费在线| 一本久道久久综合中文字幕| 91香蕉国产观看免费人人| 日本少妇aa特黄大片| 日本人妻中出在线观看| 欧美不卡一区二区在线视频| 国产一区二区在线免费| 国产欧美亚洲精品自拍| 国产精品亚洲综合天堂夜夜| 老司机激情五月天在线不卡| 免费一级欧美大片免费看|