基于HDFS的微博數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-03-12 08:48
【摘要】:隨著Web2.0技術(shù)的深入發(fā)展,微博作為一種新型媒體出現(xiàn)在人們的視野里。微博以其獨(dú)有的內(nèi)容短小精悍、傳播速度快、影響范圍廣等特點(diǎn)受到越來越多的人的關(guān)注和喜愛,并已經(jīng)成為互聯(lián)網(wǎng)的典型應(yīng)用之一。隨著微博的飛速發(fā)展,用戶對(duì)微博信息的獲取需求也呈直線上升態(tài)勢。面對(duì)每天海量的微博信息,如何快速、準(zhǔn)確地找到自己所需要的微博信息是一個(gè)亟待解決的問題。本文在對(duì)微博特點(diǎn)進(jìn)行分析的基礎(chǔ)上,結(jié)合Hadoop分布式系統(tǒng)框架和Lucene全文檢索引擎,設(shè)計(jì)并實(shí)現(xiàn)了一套微博數(shù)據(jù)管理系統(tǒng)。本文首先對(duì)系統(tǒng)進(jìn)行需求分析。然后,采用模塊化設(shè)計(jì)的方法對(duì)系統(tǒng)進(jìn)行總體設(shè)計(jì)。詳細(xì)介紹了微博數(shù)據(jù)抓取、微博數(shù)據(jù)預(yù)處理、微博數(shù)據(jù)分布式存儲(chǔ)、微博數(shù)據(jù)倒排索引、微博數(shù)據(jù)排序以及微博數(shù)據(jù)檢索各個(gè)模塊的設(shè)計(jì)與實(shí)現(xiàn)。通過系統(tǒng)測試,對(duì)系統(tǒng)進(jìn)行了功能評(píng)估。最后,對(duì)本文進(jìn)行了總結(jié)并指出了系統(tǒng)存在的不足之處。系統(tǒng)的主要功能是微博數(shù)據(jù)的抓取、微博預(yù)處理、微博存儲(chǔ)、微博索引、微博排序和微博檢索。為了實(shí)現(xiàn)上述功能,本系統(tǒng)采取的關(guān)鍵技術(shù):一是微博Crawler,利用新浪微博開放平臺(tái)提供的API抓取微博數(shù)據(jù);二是分布式存儲(chǔ),微博數(shù)據(jù)的分布式存儲(chǔ)采用HDFS(Hadoop Distributed File System,分布式文件系統(tǒng)),HDFS在廉價(jià)的機(jī)器和大規(guī)模數(shù)據(jù)集上使用更為適合,在數(shù)據(jù)訪問時(shí)可提供高吞吐量,為了完成流式訪問數(shù)據(jù)的目的,HDFS對(duì)POSIX放寬了約束。HDFS目前為Apache的頂級(jí)項(xiàng)目;三是排序算法,參考了PageRank排序算法的思想,提出了一個(gè)微博數(shù)據(jù)的排序算法。系統(tǒng)利用新浪微博開放平臺(tái)API抓取微博數(shù)據(jù),對(duì)系統(tǒng)中的微博數(shù)據(jù)進(jìn)行預(yù)處理,并采用分布式文件系統(tǒng)HDFS進(jìn)行存儲(chǔ)。采用Lucene全文檢索引擎和MapReduce編程模型,利用Lucene提供的索引引擎建立微博數(shù)據(jù)的倒排索引。針對(duì)微博數(shù)據(jù)的特點(diǎn),利用Lucene提供的查詢引擎,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)微博排序算法,從而大大提高了微博數(shù)據(jù)的檢索效率。在面對(duì)海量的微博信息時(shí),用戶可以更加快速、準(zhǔn)確的找到自己所需的信息。
【圖文】:
圖 2-7 微博檢索用例圖分析最終結(jié)論系統(tǒng)實(shí)現(xiàn)目標(biāo)、系統(tǒng)開發(fā)環(huán)境、系統(tǒng)運(yùn)行環(huán)p 中的 HDFS 分布式文件系統(tǒng)和 MapReduc提供了實(shí)踐依據(jù),利用了 Lucene 提供的索排序提供了理論依據(jù)。數(shù)據(jù)中采用 HDFS 分布式文件系統(tǒng)進(jìn)行存性和廣泛性。HDFS 分布式文件系統(tǒng)能夠收便用戶通過關(guān)鍵詞來檢索系統(tǒng)中的微博數(shù)回更多的相關(guān)微博數(shù)據(jù)。實(shí)現(xiàn)微博數(shù)據(jù)的新速度快,具有實(shí)時(shí)性的特點(diǎn),要保證微
微博Craw
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP311.52;TP393.092
,
本文編號(hào):2586510
【圖文】:
圖 2-7 微博檢索用例圖分析最終結(jié)論系統(tǒng)實(shí)現(xiàn)目標(biāo)、系統(tǒng)開發(fā)環(huán)境、系統(tǒng)運(yùn)行環(huán)p 中的 HDFS 分布式文件系統(tǒng)和 MapReduc提供了實(shí)踐依據(jù),利用了 Lucene 提供的索排序提供了理論依據(jù)。數(shù)據(jù)中采用 HDFS 分布式文件系統(tǒng)進(jìn)行存性和廣泛性。HDFS 分布式文件系統(tǒng)能夠收便用戶通過關(guān)鍵詞來檢索系統(tǒng)中的微博數(shù)回更多的相關(guān)微博數(shù)據(jù)。實(shí)現(xiàn)微博數(shù)據(jù)的新速度快,具有實(shí)時(shí)性的特點(diǎn),要保證微
微博Craw
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP311.52;TP393.092
,
本文編號(hào):2586510
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2586510.html
最近更新
教材專著