Yarn架構(gòu)下基于GA的Web日志挖掘技術(shù)
本文選題:Yarn架構(gòu) + 日志挖掘。 參考:《計算機(jī)應(yīng)用研究》2014年11期
【摘要】:提出了一種面向TB級別日志文件挖掘需求的日志挖掘技術(shù)。采用MapReduce編程模型設(shè)計并實(shí)現(xiàn)了一種基于子種群聯(lián)姻策略的GA,并部署到Y(jié)arn架構(gòu)上,使Yarn架構(gòu)與GA有效結(jié)合。在算法Partition階段,采用Round-Robin策略代替原有的哈希方法,使各個子種群基因更加趨向均勻分布,增加了子種群收斂效率和結(jié)果準(zhǔn)確性,同時均衡各個節(jié)點(diǎn)運(yùn)行負(fù)載,提高了系統(tǒng)性能。經(jīng)測試,應(yīng)用該技術(shù)的挖掘結(jié)果平均準(zhǔn)確度達(dá)到93%以上,效率提升接近33%。
[Abstract]:In this paper, a log mining technique for TB level log file mining is proposed. Using MapReduce programming model, a GA-based sub-population marriage strategy is designed and implemented, and deployed to Yarn architecture, which can effectively combine Yarn architecture with GA. In the phase of Partition, Round-Robin strategy is used to replace the original hash method, which makes the genes of each subpopulation more uniformly distributed, increases the convergence efficiency and accuracy of the sub-population, balances the running load of each node, and improves the system performance. The test results show that the average accuracy of the mining results is over 93%, and the efficiency is improved by nearly 33%.
【作者單位】: 哈爾濱工程大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院;清華大學(xué)計算機(jī)系;
【基金】:國家自然科學(xué)基金資助項(xiàng)目(61003036) 黑龍江省自然科學(xué)基金資助項(xiàng)目(F201124) 黑龍江省教育廳科學(xué)技術(shù)研究基金資助項(xiàng)目(12513048)
【分類號】:TP393.09
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 程苗;陳華平;;基于Hadoop的Web日志挖掘[J];計算機(jī)工程;2011年11期
2 趙龍;江榮安;;基于Hive的海量搜索日志分析系統(tǒng)研究[J];計算機(jī)應(yīng)用研究;2013年11期
3 何翔;李仁發(fā);唐卓;;一種異構(gòu)環(huán)境下的基于MapReduce任務(wù)調(diào)度改進(jìn)機(jī)制[J];計算機(jī)應(yīng)用研究;2013年11期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 宋瑩;沈奇威;王晶;;基于Hadoop的Web日志預(yù)處理的設(shè)計與實(shí)現(xiàn)[J];電信工程技術(shù)與標(biāo)準(zhǔn)化;2011年11期
2 林大云;;基于Hadoop的微博信息挖掘[J];計算機(jī)光盤軟件與應(yīng)用;2012年01期
3 劉永增;張曉景;李先毅;;基于Hadoop/Hive的web日志分析系統(tǒng)的設(shè)計[J];廣西大學(xué)學(xué)報(自然科學(xué)版);2011年S1期
4 郎波;張博宇;;面向大數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)管理平臺關(guān)鍵技術(shù)[J];信息技術(shù)與標(biāo)準(zhǔn)化;2013年10期
5 邵景峰;崔尊民;王進(jìn)富;白曉波;;大數(shù)據(jù)下紡織制造執(zhí)行系統(tǒng)的構(gòu)建[J];紡織器材;2013年06期
6 張亞楠;譚躍生;;基于MapReduce的并行遮蓋文本聚類算法[J];內(nèi)蒙古科技大學(xué)學(xué)報;2013年03期
7 周國亮;朱永利;王桂蘭;;CC-MRSJ:Hadoop平臺下緩存敏感的星型聯(lián)接算法[J];電信科學(xué);2013年10期
8 王鵬;黃焱;劉峰;安俊秀;;大數(shù)據(jù)技術(shù)中計算與數(shù)據(jù)的協(xié)作機(jī)制[J];成都信息工程學(xué)院學(xué)報;2014年01期
9 杜政頡;王鵬;黃焱;郎福通;;一種基于Storm編程模型的迭代Topology方案[J];成都信息工程學(xué)院學(xué)報;2014年01期
10 范飛;黃文明;鄧珍榮;;Oozie工作流在Mahout分布式數(shù)據(jù)挖掘中的應(yīng)用[J];桂林電子科技大學(xué)學(xué)報;2014年01期
相關(guān)會議論文 前6條
1 朱湘;金松昌;賈焰;;一種基于Hadoop平臺的海量Web數(shù)據(jù)挖掘系統(tǒng)研究與實(shí)現(xiàn)[A];第九屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2012年
2 喬媛媛;劉芳;凌艷;尹勁松;;云計算環(huán)境下MapReduce的資源建模與性能預(yù)測[A];2013年全國通信軟件學(xué)術(shù)會議論文集[C];2013年
3 Xiaoguang Han;Jigang Sun;Wu Qu;Xuanxia Yao;;Distributed Malware Detection based on Binary File Features in Cloud Computing Environment[A];第26屆中國控制與決策會議論文集[C];2014年
4 陳佐旗;余柏蒗;吳健平;;基于GPU通用計算的遙感數(shù)據(jù)處理——以計算地表太陽輻射值為例[A];第十八屆中國環(huán)境遙感應(yīng)用技術(shù)論壇論文集[C];2014年
5 白永超;付偉;辛陽;;基于Hadoop和Nutch的分布式搜索引擎研究與仿真[A];第十九屆全國青年通信學(xué)術(shù)年會論文集[C];2014年
6 李超越;徐國勝;;Hadoop公平調(diào)度算法的改進(jìn)[A];第十九屆全國青年通信學(xué)術(shù)年會論文集[C];2014年
相關(guān)博士學(xué)位論文 前10條
1 王鑒全;基于概念圖挖掘的中文文本傾向性研究[D];大連理工大學(xué);2012年
2 李健;云計算環(huán)境下最小化運(yùn)營開銷的調(diào)度技術(shù)研究[D];北京郵電大學(xué);2013年
3 韓晶;大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D];北京郵電大學(xué);2013年
4 程祥;高效可靠的虛擬網(wǎng)絡(luò)映射技術(shù)研究[D];北京郵電大學(xué);2013年
5 李韌;基于Hadoop的大規(guī)模語義Web本體數(shù)據(jù)查詢與推理關(guān)鍵技術(shù)研究[D];重慶大學(xué);2013年
6 盧風(fēng)順;面向CPU/GPU異構(gòu)體系結(jié)構(gòu)的并行計算關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2012年
7 孫鵬;動車組維修物聯(lián)網(wǎng)及其關(guān)鍵技術(shù)研究[D];中國鐵道科學(xué)研究院;2013年
8 肖奎;維基百科大數(shù)據(jù)的知識挖掘與管理方法研究[D];武漢大學(xué);2013年
9 程興國;仿生算法的動態(tài)反饋機(jī)制及其并行化實(shí)現(xiàn)方法研究[D];華南理工大學(xué);2013年
10 馬馮;數(shù)據(jù)密集型計算環(huán)境下貝葉斯網(wǎng)的學(xué)習(xí)、推理及應(yīng)用[D];云南大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 劉叢山;基于Hadoop的文本分類研究[D];上海交通大學(xué);2012年
2 劉永增;基于Hadoop/Hive的海量web日志處理系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];大連理工大學(xué);2011年
3 汪晶晶;基于MapReduce的天文數(shù)據(jù)處理方法與應(yīng)用研究[D];昆明理工大學(xué);2012年
4 鄭天紅;基于Hadoop的網(wǎng)絡(luò)流量分流并行化設(shè)計與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2012年
5 張旭;基于模糊聚類的自組織神經(jīng)網(wǎng)絡(luò)的用戶模式挖掘算法研究[D];南昌大學(xué);2012年
6 王霽欣;一種基于Hadoop/MapReduce的可擴(kuò)展存儲系統(tǒng)架構(gòu)研究[D];華中科技大學(xué);2012年
7 馮偉;基于云計算的海量數(shù)據(jù)分析系統(tǒng)的研究與實(shí)現(xiàn)[D];上海交通大學(xué);2012年
8 陶禮亮;基于云計算的BI處理技術(shù)研究[D];吉林大學(xué);2013年
9 張嘯宇;Web Server性能分析工具日志管理模塊的設(shè)計與實(shí)現(xiàn)[D];南京大學(xué);2013年
10 王雅光;基于Hadoop平臺的DBSCAN算法應(yīng)用研究[D];廣東工業(yè)大學(xué);2013年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 李建江;崔健;王聃;嚴(yán)林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學(xué)報;2011年11期
2 王川;王大玲;于戈;馬海濤;劉鑫鋼;;基于用戶行為模型的搜索引擎[J];計算機(jī)工程;2008年04期
3 郭本俊;王鵬;陳高云;黃健;;基于MPI的云計算模型[J];計算機(jī)工程;2009年24期
4 陳全;鄧倩妮;;異構(gòu)環(huán)境下自適應(yīng)的Map-Reduce調(diào)度[J];計算機(jī)工程與科學(xué);2009年S1期
5 邢東山,沈鈞毅,宋擒豹;從Web日志中挖掘用戶瀏覽偏愛路徑[J];計算機(jī)學(xué)報;2003年11期
6 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學(xué)報;2007年01期
7 王文平;劉希玉;韓杰;;基于并行遺傳算法的關(guān)聯(lián)規(guī)則挖掘[J];山東師范大學(xué)學(xué)報(自然科學(xué)版);2006年04期
8 周勇;劉鋒;;基于并行遺傳算法的規(guī)則發(fā)現(xiàn)研究[J];計算機(jī)技術(shù)與發(fā)展;2008年08期
相關(guān)碩士學(xué)位論文 前2條
1 朱珠;基于Hadoop的海量數(shù)據(jù)處理模型研究和應(yīng)用[D];北京郵電大學(xué);2008年
2 紀(jì)俊;一種基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)設(shè)計與實(shí)現(xiàn)[D];青島大學(xué);2009年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王媛媛;鐘永恒;;基于SQL Server 2005的Web日志挖掘系統(tǒng)構(gòu)建[J];現(xiàn)代圖書情報技術(shù);2006年05期
2 習(xí)慧丹;嚴(yán)暉;;概念格在Web日志挖掘中的應(yīng)用[J];計算機(jī)系統(tǒng)應(yīng)用;2006年09期
3 呂宗健;;利用Web日志挖掘技術(shù)構(gòu)建自適應(yīng)網(wǎng)站[J];山東師范大學(xué)學(xué)報(自然科學(xué)版);2007年01期
4 呂佳;;基于免疫聚類的Web日志挖掘[J];重慶師范大學(xué)學(xué)報(自然科學(xué)版);2007年02期
5 吳榮;;Web日志挖掘的用戶識別算法研究[J];微型電腦應(yīng)用;2007年09期
6 王洪偉;王彥麗;;應(yīng)用Web日志挖掘技術(shù)改善企業(yè)客戶關(guān)系[J];計算機(jī)與現(xiàn)代化;2007年10期
7 陳珍;;Web日志挖掘在個性化遠(yuǎn)程教育中的應(yīng)用[J];福建電腦;2007年12期
8 邱偉江;;Web日志挖掘優(yōu)化網(wǎng)站的研究[J];高職論叢;2008年04期
9 羅新;;基于SQL Server 2005的Web日志挖掘應(yīng)用研究[J];現(xiàn)代計算機(jī)(專業(yè)版);2008年12期
10 李文媛;林克正;;Web日志挖掘研究[J];哈爾濱金融高等?茖W(xué)校學(xué)報;2008年01期
相關(guān)會議論文 前3條
1 蔡麗萍;李茂青;;一種基于模糊聚類的日志挖掘方法及應(yīng)用[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2004年
2 王軍;宋寶燕;于戈;;一種Web日志挖掘數(shù)據(jù)預(yù)處理方法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2006年
3 周莉;張勇;邢春曉;;ULMF:一種基于構(gòu)件的通用日志挖掘框架[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(一)[C];2008年
相關(guān)博士學(xué)位論文 前1條
1 鮑鈺;WEB日志挖掘及其應(yīng)用研究[D];華東師范大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 王燕;Web日志挖掘技術(shù)應(yīng)用研究[D];貴州大學(xué);2008年
2 劉世杰;基于Web日志挖掘的應(yīng)用研究[D];天津財經(jīng)大學(xué);2009年
3 宦蕾;基于Web日志挖掘的頁面推薦的研究[D];南京理工大學(xué);2009年
4 陳曉春;基于關(guān)聯(lián)規(guī)則的Web日志挖掘研究與應(yīng)用[D];南京理工大學(xué);2009年
5 王小姣;聚類分析及其在Web日志挖掘中的應(yīng)用研究[D];山東師范大學(xué);2011年
6 楊鵬;Web日志挖掘數(shù)據(jù)預(yù)處理算法研究與實(shí)現(xiàn)[D];北京郵電大學(xué);2011年
7 劉維娜;Web日志挖掘相關(guān)技術(shù)研究[D];哈爾濱工程大學(xué);2006年
8 劉鑫;基于Web日志挖掘系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D];哈爾濱工程大學(xué);2006年
9 李向云;Web日志挖掘技術(shù)的研究[D];大慶石油學(xué)院;2007年
10 吳佳楠;基于Web日志挖掘的個性化服務(wù)[D];吉林大學(xué);2007年
,本文編號:2036850
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2036850.html