基于Hadoop的PCF系統(tǒng)的設(shè)計與實現(xiàn)
本文關(guān)鍵詞:基于Hadoop的PCF系統(tǒng)的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)興盛,依托于互聯(lián)網(wǎng)的電子商務(wù)也開始蓬勃發(fā)展。每天大量的買家和賣家在電子商務(wù)平臺上交易,產(chǎn)生大量的數(shù)據(jù),這些大數(shù)據(jù)是電子商務(wù)平臺的寶貴資源。而Hadoop等技術(shù)的普及,使得大數(shù)據(jù)分析走向了大眾化。依托于Hadoop的大數(shù)據(jù)分析可以快速有效地處理大量的數(shù)據(jù),為后續(xù)的數(shù)據(jù)挖掘提供良好的基礎(chǔ)。eBay公司原有的數(shù)據(jù)處理大部分都在昂貴的Teradata上進(jìn)行,隨著數(shù)據(jù)量的不斷增加,Teradata資源已經(jīng)十分緊張,在這種情況下,將一些時效性不是很強的數(shù)據(jù)分析存儲到相對廉價的Hadoop上十分必要。因此,我們開發(fā)了基于管道過濾器模式買家數(shù)據(jù)處理系統(tǒng),命名為Page Click Funnel,使用HDFS非結(jié)構(gòu)化分布式存儲系統(tǒng),MapReduce和基于MapReduce的Cascading進(jìn)行數(shù)據(jù)計算處理。論文描述了PCF系統(tǒng)的需求分析,買家用戶在商城上的頁面點擊行為等數(shù)據(jù),對企業(yè)產(chǎn)品的分析和決策有很重要的影響。對此類數(shù)據(jù)的分析有助于幫助公司改進(jìn)搜索結(jié)果展示順序,合理安排廣告頁面的數(shù)量和位置,同時也幫助公司對賣家進(jìn)行分析。目前公司的買家數(shù)據(jù)按照時間順序存儲,用戶在網(wǎng)站上對頁面的點擊跳轉(zhuǎn)類的操作,會被記錄到數(shù)據(jù)倉庫當(dāng)中,細(xì)粒度的數(shù)據(jù)在數(shù)據(jù)倉庫中按照Session分組(從單個用戶打開第一個商城相關(guān)網(wǎng)頁開始,一直到所有商城相關(guān)頁面全部關(guān)閉或者連續(xù)半小時以上沒有在商城上進(jìn)行任何操作會形成一個session),每組中按照頁面被打開的時間順序存儲。在移動端,可以基本認(rèn)為頁面被打開的時間順序就是用戶依次打開這些頁面的順序,但是在PC端,時間順序不能體現(xiàn)用戶真正的頁面點擊行為,故而時間順序存儲的數(shù)據(jù)不適合分析用戶的點擊行為。系統(tǒng)嘗試使用新的存儲順序來提高分析的速度,將數(shù)據(jù)按照邏輯順序進(jìn)行存儲,使得數(shù)據(jù)分析人員不再需要自己編寫方法處理數(shù)據(jù),可以直接使用系統(tǒng)提供的數(shù)據(jù)分析用戶點擊行為,減少出錯率。論文重點闡述了PCF系統(tǒng)的設(shè)計與實現(xiàn),系統(tǒng)如何重組數(shù)據(jù)倉庫當(dāng)中的數(shù)據(jù),改變其存儲順序和結(jié)構(gòu),讓其可以體現(xiàn)用戶行為,并提取粗粒度信息展現(xiàn)在前臺,提取細(xì)粒度的數(shù)據(jù)分析生成報表給用戶進(jìn)行進(jìn)一步分析。因為Cascading、或者Hadoop技術(shù)主要是用于處理數(shù)據(jù)的,并且數(shù)據(jù)是單向流動的,所以使用管道過濾器模式進(jìn)行系統(tǒng)架構(gòu)設(shè)計系統(tǒng),進(jìn)行有效的大數(shù)據(jù)量的分析。原始數(shù)據(jù)源在系統(tǒng)中通過Filter和Join等一系列操作,最終變成系統(tǒng)分析所需要的非結(jié)構(gòu)化的存儲格式,為其后的統(tǒng)計分析提供了可以直接使用的數(shù)據(jù)。論文還介紹了PCF系統(tǒng)的主要使用人員,即數(shù)據(jù)分析人員,通過非結(jié)構(gòu)化的存儲和處理方式,以及按照買家用戶的點擊邏輯順序進(jìn)行數(shù)據(jù)排序,能夠根據(jù)買家用戶的每日的頁面點擊行為快速的計算出頁面點擊跳轉(zhuǎn)率,從而讓實時的數(shù)據(jù)分析成為可能,能夠更好地為eBay的決策做出服務(wù)。系統(tǒng)提供兩種不同的方式供數(shù)據(jù)分析人員使用,一種是簡單而直觀的頁面可視化瀏覽,一種是使用到HDFS或者Hive的報表數(shù)據(jù)讀取和分析,適合于數(shù)據(jù)分析人員的使用。
【關(guān)鍵詞】:Maven管理 HDFS存儲系統(tǒng) Map Reduce技術(shù) Cascading架構(gòu) 非結(jié)構(gòu)化數(shù)據(jù)
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.52
【目錄】:
- 摘要5-7
- Abstract7-13
- 第一章 緒論13-17
- 1.1 項目背景13
- 1.2 國內(nèi)外相關(guān)技術(shù)研究現(xiàn)狀13-15
- 1.3 本文的主要工作15
- 1.4 本文的組織結(jié)構(gòu)15-17
- 第二章 相關(guān)技術(shù)綜述17-31
- 2.1 Maven管理技術(shù)17-20
- 2.1.1 Maven與Ant的對比17-18
- 2.1.2 Maven的主要組件18-20
- 2.2 HDFS存儲技術(shù)20-23
- 2.3 Map Reduce計算技術(shù)23-26
- 2.4 Cascading技術(shù)26-30
- 2.4.1 文件讀寫(Tap and Schemes)27-28
- 2.4.2 數(shù)據(jù)流(Pipe)28-29
- 2.4.3 數(shù)據(jù)處理(Operations)29-30
- 2.5 本章小結(jié)30-31
- 第三章 PCF系統(tǒng)分析與設(shè)計31-45
- 3.1 系統(tǒng)功能需求分析31-34
- 3.2 系統(tǒng)流程需求分析34-36
- 3.3 系統(tǒng)總體架構(gòu)設(shè)計36-40
- 3.4 后臺數(shù)據(jù)處理層的詳細(xì)設(shè)計40-44
- 3.4.1 主要功能40-42
- 3.4.2 數(shù)據(jù)存儲結(jié)構(gòu)42-43
- 3.4.3 處理流程分析43-44
- 3.5 本章小結(jié)44-45
- 第四章 后臺數(shù)據(jù)處理層的實現(xiàn)45-57
- 4.1 原始數(shù)據(jù)的過濾和處理45-46
- 4.2 數(shù)據(jù)源之間的Join連接46-47
- 4.3 頁面跳轉(zhuǎn)數(shù)據(jù)存儲的實現(xiàn)47-50
- 4.4 其它自定義方法50-53
- 4.5 前臺實現(xiàn)的結(jié)果展示53-54
- 4.6 后臺報表生成和文件讀取54-56
- 4.7 本章小結(jié)56-57
- 第五章 總結(jié)與展望57-59
- 5.1 本文總結(jié)57
- 5.2 進(jìn)一步工作展望57-59
- 參考文獻(xiàn)59-61
- 致謝61-63
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 曾妮麗;陳林;;制造企業(yè)數(shù)據(jù)分析的現(xiàn)狀與對策[J];科技情報開發(fā)與經(jīng)濟(jì);2008年33期
2 C·P·Chapman;B·R·Sotomayor;李偉;;用數(shù)控隨機試驗系統(tǒng)作脫機數(shù)據(jù)分析和處理[J];國外導(dǎo)彈技術(shù);1979年09期
3 陳明;;大數(shù)據(jù)分析[J];計算機教育;2014年05期
4 嚴(yán)雪林;;中國企業(yè)應(yīng)用數(shù)據(jù)分析大概情況和未來趨勢[J];信息與電腦;2014年06期
5 嚴(yán)呂勇;;數(shù)據(jù)分析讓借口變得蒼白無力[J];信息與電腦;2004年12期
6 張安珍;一部具有創(chuàng)新性、系統(tǒng)性與實用性的力作——評《網(wǎng)絡(luò)數(shù)據(jù)分析》[J];情報資料工作;2005年05期
7 胡新生;齊秀玉;;用模型開啟數(shù)據(jù)分析的大門[J];中國市場;2007年Z4期
8 Joab Jackson;許翠蘋;;關(guān)于大數(shù)據(jù)CIO須知[J];通訊世界;2012年11期
9 ;富基融通:助零售集團(tuán)精準(zhǔn)數(shù)據(jù)分析[J];信息與電腦;2010年01期
10 ;《駕馭大數(shù)據(jù)》出版?zhèn)鞑?shù)據(jù)分析真經(jīng)[J];通訊世界;2013年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 申敏;;數(shù)據(jù)分析的原則和一般方法[A];2010年云南電力技術(shù)論壇論文集(文摘部分)[C];2010年
2 劉剛;;小學(xué)生數(shù)據(jù)分析觀念的培養(yǎng)[A];中華教育理論與實踐科研論文成果選編(第五卷)[C];2013年
3 石勇;;在銀行和金融數(shù)據(jù)分析中的評分方法[A];Data Analysis, Econo-physics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年
4 吳一平;;基于數(shù)據(jù)分析的離校工作改進(jìn)[A];中國高等教育學(xué)會教育信息化分會第十二次學(xué)術(shù)年會論文集[C];2014年
5 呂大青;;送變電施工企業(yè)中數(shù)據(jù)分析的運用[A];第二屆浙江中西部科技論壇論文集(第一卷)[C];2005年
6 李小花;李姝;;大數(shù)據(jù)分析在指揮信息系統(tǒng)中的應(yīng)用[A];2014第二屆中國指揮控制大會論文集(下)[C];2014年
7 范麗偉;唐煥文;唐一源;;空間獨立成分分析在fMRⅠ數(shù)據(jù)分析中的應(yīng)用[A];第九次全國生物物理大會學(xué)術(shù)會議論文摘要集[C];2002年
8 張軍;李婕;;中國國民休閑狀態(tài)變化研究——基于網(wǎng)上數(shù)據(jù)分析[A];第十五屆全國區(qū)域旅游學(xué)術(shù)開發(fā)研討會暨度假旅游論壇論文冊[C];2010年
9 徐小龍;王汝傳;姜波;;一種新的基于P2P的電信海量數(shù)據(jù)分析業(yè)務(wù)模式[A];普適計算及其軟件新技術(shù)——第三屆長三角計算機科技論壇文集[C];2006年
10 邵東華;;高速公路的平面控制復(fù)測與數(shù)據(jù)分析[A];第四屆“測繪科學(xué)前沿技術(shù)論壇”論文精選[C];2012年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 周桂生 湯建國;數(shù)據(jù)分析行業(yè)登陸湖南,帶來巨大商機[N];中國企業(yè)報;2008年
2 朱文明 甫瀚公司咨詢專家;數(shù)據(jù)分析提升決策智慧[N];中國審計報;2009年
3 ;國采中心空調(diào)協(xié)議供貨數(shù)據(jù)分析[N];政府采購信息報;2010年
4 武虹 審計署駐沈陽特派辦;以數(shù)據(jù)分析為統(tǒng)領(lǐng)開展數(shù)字化審計工作[N];中國審計報;2012年
5 本報記者 鄒大斌;大數(shù)據(jù)分析走親民路線[N];計算機世界;2013年
6 袁紹軍;大數(shù)據(jù)分析 亟待具備的新能力[N];政府采購信息報;2013年
7 昆山工商局 劉連珠 朱納新;基層工商分局登記數(shù)據(jù)分析科學(xué)性淺見[N];江蘇經(jīng)濟(jì)報;2013年
8 記者 朱賢佳;大數(shù)據(jù)不能做什么[N];上海證券報;2014年
9 程兆鋸;數(shù)據(jù)分析是投標(biāo)生命[N];醫(yī)藥經(jīng)濟(jì)報;2014年
10 曉航;數(shù)據(jù)分析與網(wǎng)絡(luò)營銷[N];中國質(zhì)量報;2010年
本文關(guān)鍵詞:基于Hadoop的PCF系統(tǒng)的設(shè)計與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號:371401
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/371401.html