天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Hadoop的web日志分析系統(tǒng)的研究與實現(xiàn)

發(fā)布時間:2025-01-19 14:47
  信息社會的迅猛發(fā)展使得互聯(lián)網(wǎng)上的web信息的內(nèi)容日益豐富,數(shù)據(jù)量與日俱增。web信息中蘊藏著巨大的科研價值和商業(yè)價值,近年來,web挖掘作為獲取信息價值的重要手段,得到了廣泛的關(guān)注與研究。web挖掘的一個研究熱點是對web訪問日志的挖掘,之所以將web訪問日志作為研究對象,是因為日志中記錄了用戶與服務(wù)器交互的行為信息,通過分析web日志可以找出用戶訪問站點的規(guī)律,對掌握web服務(wù)器的運行狀態(tài),維護網(wǎng)絡(luò)系統(tǒng)安全,優(yōu)化站點結(jié)構(gòu),了解用戶訪問模式和用戶群體需求有著重要的意義。面對海量web日志的挖掘,單一節(jié)點的web日志分析系統(tǒng)在執(zhí)行效率上已經(jīng)不能滿足需求,并且,傳統(tǒng)的日志挖掘算法多存在其固有的缺陷,本文利用Hadoop平臺并行化挖掘海量web日志,通過網(wǎng)絡(luò)將計算分布到多節(jié)點執(zhí)行,對原始日志預(yù)處理后基于用戶訪問主題頻次建模,用于描述用戶興趣分布,使用改進的聚類挖掘算法進行分析,目的在于提高最終得出的用戶興趣度模型的準確度的同時,保證用戶行為分析的高效性和可靠性。對此,本文主要進行了以下幾方面的研究:第一,單一節(jié)點集中式web日志分析系統(tǒng)的處理能力和資源利用方面都已無法勝任海量日志的挖掘工作,為...

【文章頁數(shù)】:84 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖2-2聚類算法分類圖

圖2-2聚類算法分類圖

并作為樹結(jié)構(gòu)的根節(jié)點,接著迭代分裂,常見的有DIANA算法。3)基于網(wǎng)格的聚類基于網(wǎng)格的聚類方法假設(shè)對象屬性是連續(xù)的、序數(shù)的、區(qū)間的,根據(jù)每個性的可能值將空間分割成有限數(shù)目的格狀空間,每個對象落到與自身屬性值一的網(wǎng)格當(dāng)中。常見的有STING、CLIQUE、WaveClus....


圖2-3HDFS架構(gòu)圖

圖2-3HDFS架構(gòu)圖

Hadoop分布式平臺應(yīng)用于海量數(shù)據(jù)的存儲和處理,它具有高效性、高容、高擴展性、高可靠性、成本低廉的優(yōu)點[25]。Hadoop生態(tài)系統(tǒng)由很多部分,包括:分布式文件存儲系統(tǒng)HDFS、分布式并行計算框架MapReduce、數(shù)庫Hive、分布式鎖服務(wù)ZooKeeper等等....


圖2-4MapReduce架構(gòu)圖

圖2-4MapReduce架構(gòu)圖

多個節(jié)點儲存著Block數(shù)據(jù)副本,在節(jié)點出現(xiàn)故障時,能夠快速協(xié)調(diào)據(jù)的安全可靠性,提高系統(tǒng)容錯。4)SecondaryNameNode:SecondaryNameNode的主要工作是eNode,幫助NameNode減少啟動時間,而不是NameNod....


圖2-5MapReduce處理流程圖

圖2-5MapReduce處理流程圖

第2章相關(guān)理論與技術(shù)1)Client:用戶通過Client提交MapReduce程序到JobTracker端,同時也可在Client端查看控制作業(yè)運行狀態(tài)。2)JobTracker:JobTracker的主要負責(zé)監(jiān)控TaskTracker的運行狀....



本文編號:4029120

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/4029120.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9acb0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com