基于Hadoop的web日志分析系統(tǒng)的研究與實現(xiàn)

發(fā)布時間：2025-01-19 14:47

　　信息社會的迅猛發(fā)展使得互聯(lián)網(wǎng)上的web信息的內(nèi)容日益豐富,數(shù)據(jù)量與日俱增。web信息中蘊藏著巨大的科研價值和商業(yè)價值,近年來,web挖掘作為獲取信息價值的重要手段,得到了廣泛的關(guān)注與研究。web挖掘的一個研究熱點是對web訪問日志的挖掘,之所以將web訪問日志作為研究對象,是因為日志中記錄了用戶與服務(wù)器交互的行為信息,通過分析web日志可以找出用戶訪問站點的規(guī)律,對掌握web服務(wù)器的運行狀態(tài),維護網(wǎng)絡(luò)系統(tǒng)安全,優(yōu)化站點結(jié)構(gòu),了解用戶訪問模式和用戶群體需求有著重要的意義。面對海量web日志的挖掘,單一節(jié)點的web日志分析系統(tǒng)在執(zhí)行效率上已經(jīng)不能滿足需求,并且,傳統(tǒng)的日志挖掘算法多存在其固有的缺陷,本文利用Hadoop平臺并行化挖掘海量web日志,通過網(wǎng)絡(luò)將計算分布到多節(jié)點執(zhí)行,對原始日志預(yù)處理后基于用戶訪問主題頻次建模,用于描述用戶興趣分布,使用改進的聚類挖掘算法進行分析,目的在于提高最終得出的用戶興趣度模型的準確度的同時,保證用戶行為分析的高效性和可靠性。對此,本文主要進行了以下幾方面的研究:第一,單一節(jié)點集中式web日志分析系統(tǒng)的處理能力和資源利用方面都已無法勝任海量日志的挖掘工作,為...

【文章頁數(shù)】：84 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖2-2聚類算法分類圖

并作為樹結(jié)構(gòu)的根節(jié)點，接著迭代分裂，常見的有DIANA算法。3)基于網(wǎng)格的聚類基于網(wǎng)格的聚類方法假設(shè)對象屬性是連續(xù)的、序數(shù)的、區(qū)間的，根據(jù)每個性的可能值將空間分割成有限數(shù)目的格狀空間，每個對象落到與自身屬性值一的網(wǎng)格當(dāng)中。常見的有STING、CLIQUE、WaveClus....

圖2-3HDFS架構(gòu)圖

Hadoop分布式平臺應(yīng)用于海量數(shù)據(jù)的存儲和處理，它具有高效性、高容、高擴展性、高可靠性、成本低廉的優(yōu)點[25]。Hadoop生態(tài)系統(tǒng)由很多部分，包括：分布式文件存儲系統(tǒng)HDFS、分布式并行計算框架MapReduce、數(shù)庫Hive、分布式鎖服務(wù)ZooKeeper等等....

圖2-4MapReduce架構(gòu)圖

多個節(jié)點儲存著Block數(shù)據(jù)副本，在節(jié)點出現(xiàn)故障時，能夠快速協(xié)調(diào)據(jù)的安全可靠性，提高系統(tǒng)容錯。4)SecondaryNameNode：SecondaryNameNode的主要工作是eNode，幫助NameNode減少啟動時間，而不是NameNod....

圖2-5MapReduce處理流程圖

第2章相關(guān)理論與技術(shù)1)Client：用戶通過Client提交MapReduce程序到JobTracker端，同時也可在Client端查看控制作業(yè)運行狀態(tài)。2)JobTracker：JobTracker的主要負責(zé)監(jiān)控TaskTracker的運行狀....

本文編號：4029120

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/4029120.html

上一篇：多樣本遺傳算法在武器外彈道組網(wǎng)試驗中的應(yīng)用
下一篇：沒有了

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的web日志分析系統(tǒng)的研究與實現(xiàn)