基于Hadoop的改進(jìn)Apriori算法研究及應(yīng)用
本文關(guān)鍵詞:基于Hadoop的改進(jìn)Apriori算法研究及應(yīng)用
更多相關(guān)文章: 分布式 Apriori算法 數(shù)據(jù)挖掘 Hadoop
【摘要】:今天,我們正被數(shù)據(jù)包圍。經(jīng)過調(diào)查全球總共有四十多億部電話、二十多億網(wǎng)絡(luò)用戶,這么多的用戶每時(shí)每刻都在不停地產(chǎn)生數(shù)據(jù)。同時(shí)人們還使用手機(jī)進(jìn)行發(fā)送短信、上傳自己制作地視頻、更新自己在社交網(wǎng)站上的個(gè)人動(dòng)態(tài)信息、轉(zhuǎn)發(fā)別人的微博等等。數(shù)據(jù)如此快速地增長向那些互聯(lián)網(wǎng)公司巨頭(國內(nèi)的百度、淘寶、騰訊,國外的Facebook、亞馬遜、微軟)提出了很大的挑戰(zhàn)。它們每天都需要對用戶產(chǎn)生的海量數(shù)據(jù)進(jìn)行分析處理,從而發(fā)現(xiàn)哪些網(wǎng)站人們喜歡點(diǎn)擊和閱讀,哪些商品消費(fèi)者喜歡購買,哪些廣告能夠吸引用戶進(jìn)行點(diǎn)擊。但是傳統(tǒng)的算法和工具對于處理如此規(guī)模的數(shù)據(jù)集的處理能力的越來越低效同時(shí)受制于內(nèi)存大小。針對課題的要求,了解當(dāng)前Hadoop和并行Apriori算法國內(nèi)外研究進(jìn)展以及成果。在此基礎(chǔ)上本文詳細(xì)地介紹Hadoop技術(shù)和數(shù)據(jù)挖掘技術(shù)的相關(guān)概念和知識(shí),其中在Hadoop技術(shù)中著重介紹了Hadoop的兩個(gè)核心:HDFS系統(tǒng)文件系統(tǒng)和編程模型MapReduce。接下來對傳統(tǒng)Apriori算法的思想、實(shí)現(xiàn)過程等等都進(jìn)行了詳細(xì)地研究,于是在此前提下提出一種適用大數(shù)據(jù)環(huán)境改進(jìn)的并行Apriori算法。本改進(jìn)算法主要是利用Hadoop的MapReduce編程模型將原始數(shù)據(jù)庫進(jìn)行劃分后并行化倒序處理數(shù)據(jù)的思想。最后對改進(jìn)的算法的思想、設(shè)計(jì)過程、移植、應(yīng)用到網(wǎng)上購物等等都進(jìn)行了詳細(xì)地介紹,同時(shí)還使用實(shí)例分析法驗(yàn)證了算法的可行性。實(shí)驗(yàn)通過對比分析法得到了改進(jìn)的算法執(zhí)行效率得到了很大的提高及其具有橫向擴(kuò)展性。
【關(guān)鍵詞】:分布式 Apriori算法 數(shù)據(jù)挖掘 Hadoop
【學(xué)位授予單位】:安徽理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要5-6
- Abstract6-11
- 1 引言11-17
- 1.1 研究背景11-12
- 1.2 國內(nèi)外研究現(xiàn)狀12-14
- 1.2.1 Hadoop研究現(xiàn)狀12-13
- 1.2.2 Apriori算法并行化研究現(xiàn)狀13-14
- 1.3 本課題研究內(nèi)容及意義14-17
- 1.3.0 本課題的意義14-15
- 1.3.1 本課題的主要工作15
- 1.3.2 本課題的組織結(jié)構(gòu)15-17
- 2 Hadoop技術(shù)和數(shù)據(jù)挖掘技術(shù)介紹17-34
- 2.1 Hadoop簡述17-26
- 2.1.1 HDFS文件系統(tǒng)18-21
- 2.1.2 MapReduce編程模型21-26
- 2.2 數(shù)據(jù)挖掘26-33
- 2.2.1 數(shù)據(jù)挖掘的概念27-28
- 2.2.2 傳統(tǒng)Apriori算法28-33
- 2.3 本章總結(jié)33-34
- 3 Hadoop平臺(tái)下改進(jìn)的Apriori算法研究34-50
- 3.1 Apriori算法改進(jìn)思想34-41
- 3.2 改進(jìn)Apriori算法的設(shè)計(jì)41-46
- 3.3 改進(jìn)Apriori算法移植46-49
- 3.4 本章總結(jié)49-50
- 4 改進(jìn)的Apriori算法在網(wǎng)上購物中應(yīng)用50-60
- 4.1 數(shù)據(jù)預(yù)處理50-55
- 4.2 Apriori算法應(yīng)用55-59
- 4.3 本章總結(jié)59-60
- 5 實(shí)驗(yàn)結(jié)果分析60-64
- 5.1 實(shí)驗(yàn)環(huán)境60
- 5.2 算法分析60-64
- 6 總結(jié)64-66
- 6.1 本文的工作總結(jié)64-65
- 6.2 對今后工作的展望65-66
- 參考文獻(xiàn)66-69
- 致謝69-70
- 作者簡介及讀研期間主要科研成果70
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 馮舜璽;;新書推薦:《算法分析導(dǎo)論》[J];計(jì)算機(jī)教育;2006年05期
2 張力,慕曉冬;計(jì)算機(jī)算法分析淺談[J];武警工程學(xué)院學(xué)報(bào);2002年04期
3 馬安光;;飛彈問題的算法分析——2003年第10期題解[J];程序員;2003年12期
4 蘇運(yùn)霖;;《算法分析導(dǎo)論》評介[J];計(jì)算機(jī)教育;2006年07期
5 朱力強(qiáng);;培養(yǎng)學(xué)生創(chuàng)新思維與能力的算法分析案例[J];計(jì)算機(jī)與信息技術(shù);2007年11期
6 汪菊琴;;幾種常見特殊方陣的算法分析與實(shí)現(xiàn)[J];無錫職業(yè)技術(shù)學(xué)院學(xué)報(bào);2009年05期
7 李涵;;“算法分析與設(shè)計(jì)”課程教學(xué)改革和實(shí)踐[J];中國電力教育;2010年16期
8 劉寧;管濤;;淺析案例教學(xué)法在算法分析與設(shè)計(jì)課程中的應(yīng)用[J];科技風(fēng);2011年07期
9 胡峰;王國胤;;“算法分析與設(shè)計(jì)”教學(xué)模式探索[J];當(dāng)代教育理論與實(shí)踐;2011年12期
10 趙娟;;淺析啟發(fā)式教學(xué)法在《算法分析與設(shè)計(jì)》課程中的應(yīng)用[J];福建電腦;2012年06期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 俞洋;田亞菲;;一種新的變步長LMS算法及其仿真[A];通信理論與信號處理新進(jìn)展——2005年通信理論與信號處理年會(huì)論文集[C];2005年
2 周顥;劉振華;趙保華;;構(gòu)造型的D~2FA生成算法[A];中國通信學(xué)會(huì)通信軟件技術(shù)委員會(huì)2009年學(xué)術(shù)會(huì)議論文集[C];2009年
3 賴桃桃;馮少榮;張東站;;一種基于劃分和密度的快速聚類算法[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(一)[C];2008年
4 劉遠(yuǎn)新;鄧飛其;羅艷輝;舒添慧;;ERP柔性平臺(tái)下物流運(yùn)輸配送系統(tǒng)算法分析[A];第二十六屆中國控制會(huì)議論文集[C];2007年
5 王樹西;白碩;姜吉發(fā);;模式合一的“減首去尾”算法[A];第二屆全國學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2004年
6 王萬青;張曉輝;;改進(jìn)的A~*算法的高效實(shí)現(xiàn)[A];2009全國測繪科技信息交流會(huì)暨首屆測繪博客征文頒獎(jiǎng)?wù)撐募痆C];2009年
7 孫煥良;邱菲;劉俊嶺;朱葉麗;;IncSNN——一種基于密度的增量聚類算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2006年
8 韓建民;岑婷婷;于娟;;實(shí)現(xiàn)敏感屬性l-多樣性的l-MDAV算法[A];第二十七屆中國控制會(huì)議論文集[C];2008年
9 張悅;尤楓;趙瑞蓮;;利用蟻群算法實(shí)現(xiàn)基于程序結(jié)構(gòu)的主變元分析[A];第五屆中國測試學(xué)術(shù)會(huì)議論文集[C];2008年
10 王旭東;劉渝;鄧振淼;;正弦波頻率估計(jì)的修正Rife算法及其FPGA實(shí)現(xiàn)[A];全國第十屆信號與信息處理、第四屆DSP應(yīng)用技術(shù)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2006年
中國重要報(bào)紙全文數(shù)據(jù)庫 前1條
1 科文;VIXD算法分析Web異常[N];中國計(jì)算機(jī)報(bào);2008年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 魏哲學(xué);樣本斷點(diǎn)距離問題的算法與復(fù)雜性研究[D];山東大學(xué);2015年
2 劉春明;基于增強(qiáng)學(xué)習(xí)和車輛動(dòng)力學(xué)的高速公路自主駕駛研究[D];國防科學(xué)技術(shù)大學(xué);2014年
3 張敏霞;生物地理學(xué)優(yōu)化算法及其在應(yīng)急交通規(guī)劃中的應(yīng)用研究[D];浙江工業(yè)大學(xué);2015年
4 李紅;流程挖掘算法研究[D];云南大學(xué);2015年
5 盛歆漪;粒子群優(yōu)化算法及其應(yīng)用研究[D];江南大學(xué);2015年
6 黃磊;高動(dòng)態(tài)環(huán)境捷聯(lián)慣導(dǎo)信號處理及高精度姿態(tài)速度算法研究[D];南京航空航天大學(xué);2015年
7 劉新旺;多核學(xué)習(xí)算法研究[D];國防科學(xué)技術(shù)大學(xué);2013年
8 于濱;城市公交系統(tǒng)模型與算法研究[D];大連理工大學(xué);2006年
9 曾國強(qiáng);改進(jìn)的極值優(yōu)化算法及其在組合優(yōu)化問題中的應(yīng)用研究[D];浙江大學(xué);2011年
10 肖永豪;蜂群算法及在圖像處理中的應(yīng)用研究[D];華南理工大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 黃廈;基于改進(jìn)蟻群算法的柔性作業(yè)車間調(diào)度問題研究[D];昆明理工大學(xué);2015年
2 李平;基于Hadoop的信息爬取與輿情檢測算法研究[D];昆明理工大學(xué);2015年
3 趙官寶;基于位表的關(guān)聯(lián)規(guī)則挖掘算法研究[D];昆明理工大學(xué);2015年
4 殷文華;移動(dòng)容遲網(wǎng)絡(luò)中基于社會(huì)感知的多播分發(fā)算法研究[D];內(nèi)蒙古大學(xué);2015年
5 徐翔燕;人工魚群優(yōu)化算法及其應(yīng)用研究[D];西南交通大學(xué);2015年
6 李德福;基于小世界模型的啟發(fā)式尋路算法研究[D];華中師范大學(xué);2015年
7 鄭海彬;一種面向MAPREDUCE的DATASHUFFLE的優(yōu)化方法[D];蘇州大學(xué);2015年
8 趙曉寒;輪換步長PSO算法及SMVSC參數(shù)優(yōu)化[D];沈陽理工大學(xué);2015年
9 安豐洋;基于無線網(wǎng)絡(luò)的廣播算法研究[D];曲阜師范大學(xué);2015年
10 李智明;基于改進(jìn)FastICA算法的混合語音盲分離[D];上海交通大學(xué);2015年
,本文編號:1036373
本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/1036373.html