天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向用戶個(gè)性化推薦的日志分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2019-05-27 09:43
【摘要】:近年來,隨著計(jì)算機(jī)的普及和互聯(lián)網(wǎng)的發(fā)展,使用互聯(lián)網(wǎng)的用戶數(shù)和互聯(lián)網(wǎng)上充斥的各類信息量突飛猛進(jìn),如何快速從互聯(lián)網(wǎng)海量的數(shù)據(jù)信息中獲取用戶所關(guān)注的信息已成為用戶最為關(guān)心的問題之一,也是互聯(lián)網(wǎng)服務(wù)網(wǎng)站能夠吸引用戶使用的要點(diǎn)。同時(shí)網(wǎng)絡(luò)視頻業(yè)務(wù)也已成為互聯(lián)網(wǎng)應(yīng)用的最大熱點(diǎn),隨著媒體事業(yè)的發(fā)展和臺(tái)網(wǎng)聯(lián)動(dòng)的推廣,提供網(wǎng)絡(luò)視頻業(yè)務(wù)的網(wǎng)站數(shù)量和互聯(lián)網(wǎng)上視頻數(shù)量也越來越多,通過關(guān)鍵字查詢的搜索引擎顯然已無法滿足用戶快速獲取視頻的需求,此時(shí),基于主動(dòng)推送的推薦引擎應(yīng)運(yùn)而生;ヂ(lián)網(wǎng)的用戶數(shù)量和視頻數(shù)量的急劇增長(zhǎng)為推薦系統(tǒng)帶來了新的問題。首先,海量用戶日志信息的存儲(chǔ)對(duì)推薦系統(tǒng)的存儲(chǔ)模塊提出了新的挑戰(zhàn),需保障存儲(chǔ)數(shù)據(jù)的可靠性和存儲(chǔ)容量的可擴(kuò)展性;其次,海量日志信息的分析和推薦計(jì)算對(duì)系統(tǒng)處理數(shù)據(jù)的性能提出了更高的要求;最后,推薦引擎推送的視頻信息要能夠吸引用戶,這就要求推薦引擎的推薦結(jié)果具有較高的準(zhǔn)確有效性。本文針對(duì)推薦系統(tǒng)在面對(duì)海量數(shù)據(jù)信息時(shí)需要解決的各種問題,基于Hadoop分布式平臺(tái)及其系列子項(xiàng)目提出了一種解決方案——面向用戶個(gè)性化推薦的日志分析系統(tǒng)。該系統(tǒng)利用Hadoop分布式文件系統(tǒng)(HDFS)的可靠性和可擴(kuò)展性的特點(diǎn),使用基于HDFS的數(shù)據(jù)倉庫Hive作為海量日志信息的存儲(chǔ)平臺(tái),保證了用戶日志信息存儲(chǔ)的可靠性和可擴(kuò)展性;利用Hadoop并行計(jì)算編程模型Map/Reduce的高效性特點(diǎn),使用能夠?qū)QL語句轉(zhuǎn)換為Map/Reduce任務(wù)執(zhí)行的Hive作為用戶日志信息分析的平臺(tái),并使用借助Map/Reduce實(shí)現(xiàn)并行推薦計(jì)算的機(jī)器學(xué)習(xí)算法庫Mahout封裝的協(xié)同過濾算法來實(shí)現(xiàn)推薦引擎,實(shí)現(xiàn)了高性能的日志分析和推薦計(jì)算;最后通過分析Mahout源碼和視頻推薦的特點(diǎn),優(yōu)化了Mahout的推薦算法源碼,以期提高推薦結(jié)果的準(zhǔn)確有效性。為了對(duì)系統(tǒng)進(jìn)行驗(yàn)證,本文設(shè)計(jì)了詳細(xì)的測(cè)試方案。首先,從功能上驗(yàn)證了面向用戶個(gè)性化推薦的日志分析系統(tǒng)的可用性和系統(tǒng)日志存儲(chǔ)模塊的可靠性、可擴(kuò)展性;其次,從性能上驗(yàn)證了日志分析和推薦計(jì)算效率的提升;接著驗(yàn)證了優(yōu)化后的推薦算法對(duì)推薦結(jié)果準(zhǔn)確有效性的提升;最后通過搭建真實(shí)的實(shí)驗(yàn)環(huán)境,驗(yàn)證了系統(tǒng)的實(shí)際工作效果。
[Abstract]:In recent years, with the popularity of computers and the development of the Internet, the number of users using the Internet and all kinds of information filled with the Internet have advanced by leaps and bounds. How to quickly obtain the information concerned by users from the massive data information of the Internet has become one of the most concerned issues for users, and it is also the key point that Internet service websites can attract users to use. At the same time, the network video service has become the biggest hot spot of the Internet application. With the development of the media industry and the promotion of the network linkage, the number of websites providing network video service and the number of videos on the Internet are also increasing. The search engine through keyword query obviously can not meet the needs of users to get video quickly. At this time, the recommendation engine based on active push emerges as the times require. The rapid increase in the number of users and videos on the Internet has brought new problems to the recommendation system. First of all, the storage of massive user log information poses a new challenge to the storage module of the recommendation system, and it is necessary to ensure the reliability of storage data and the scalability of storage capacity. Secondly, the analysis and recommendation calculation of massive log information puts forward higher requirements for the performance of the system in processing data. Finally, the video information pushed by the recommendation engine should be able to attract users, which requires the recommendation results of the recommendation engine to have high accuracy and effectiveness. In order to solve all kinds of problems that recommendation system needs to solve in the face of massive data information, this paper proposes a solution based on Hadoop distributed platform and its series of subprojects-user personalized recommendation log analysis system. The system makes use of the reliability and expansibility of Hadoop distributed file system (HDFS), and uses the data warehouse Hive based on HDFS as the storage platform of massive log information, which ensures the reliability and scalability of user log information storage. Taking advantage of the efficient characteristics of Hadoop parallel computing programming model Map/Reduce, Hive, which can convert SQL statements into Map/Reduce tasks, is used as the platform for user log information analysis. The collaborative filtering algorithm packaged by Mahout, which realizes parallel recommendation computing with the help of Map/Reduce, is used to realize the recommendation engine, and the high performance log analysis and recommendation calculation are realized. Finally, by analyzing the characteristics of Mahout source code and video recommendation, the source code of Mahout recommendation algorithm is optimized in order to improve the accuracy and effectiveness of the recommendation results. In order to verify the system, a detailed test scheme is designed in this paper. Firstly, the availability of the user-oriented personalized recommendation log analysis system and the reliability and scalability of the system log storage module are verified from the functional point of view. Secondly, the performance of log analysis and recommendation computing efficiency is verified. Then the optimized recommendation algorithm is verified to improve the accuracy and effectiveness of the recommendation results. Finally, the actual working effect of the system is verified by building a real experimental environment.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張曉剛;潘久輝;;MS SQL Server 2000日志分析方法的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年19期

2 李春林;周根鴻;張文體;;重視日志審計(jì)確保數(shù)據(jù)安全[J];醫(yī)學(xué)信息;2007年10期

3 梁曉雪;王鋒;;基于聚類的日志分析技術(shù)綜述與展望[J];云南大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年S1期

4 黃海隆;陳賽娉;;計(jì)算機(jī)日志分析與管理方法的研究[J];大眾科技;2006年07期

5 鄭毅;;基于日志分析的網(wǎng)絡(luò)IDS研究[J];襄樊學(xué)院學(xué)報(bào);2008年11期

6 陳庭平;沈麗娟;曾鵬;;日志服務(wù)器建設(shè)和應(yīng)用[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2010年09期

7 鄒先霞;賈維嘉;潘久輝;;基于數(shù)據(jù)庫日志的變化數(shù)據(jù)捕獲研究[J];小型微型計(jì)算機(jī)系統(tǒng);2012年03期

8 羅新;;防火墻日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)時(shí)代;2012年02期

9 姜良華;崔建明;;Serv-U FTP服務(wù)器日志分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2010年28期

10 李玉榮;楊樹強(qiáng);賈焰;周斌;樊宇;;分布式日志服務(wù)關(guān)鍵技術(shù)研究[J];計(jì)算機(jī)工程與應(yīng)用;2006年07期

相關(guān)會(huì)議論文 前10條

1 馬辰;武斌;;一種基于攻擊事件圖的蜜網(wǎng)日志分析方法[A];虛擬運(yùn)營與云計(jì)算——第十八屆全國青年通信學(xué)術(shù)年會(huì)論文集(下冊(cè))[C];2013年

2 周濤;;基于數(shù)據(jù)挖掘的入侵檢測(cè)日志分析技術(shù)研究[A];第二屆中國科學(xué)院博士后學(xué)術(shù)年會(huì)暨高新技術(shù)前沿與發(fā)展學(xué)術(shù)會(huì)議程序冊(cè)[C];2010年

3 陳晨;鄭康鋒;;一種基于支持向量機(jī)的蜜網(wǎng)系統(tǒng)日志分析方法[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2011年

4 劉莉;;基于多協(xié)議技術(shù)的日志集中管理安全方案[A];2008年中國通信學(xué)會(huì)無線及移動(dòng)通信委員會(huì)學(xué)術(shù)年會(huì)論文集[C];2008年

5 耿濤;;Web日志分析在電子數(shù)據(jù)取證中的應(yīng)用[A];第二十一次全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集[C];2006年

6 閆龍川;王懷宇;李楓;毛一凡;;基于Hadoop的郵件日志分析與研究[A];2012電力行業(yè)信息化年會(huì)論文集[C];2012年

7 陳慶章;王磊;毛科技;戴國勇;;基于防火墻日志的在線攻擊偵查系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(英文)[A];全國第19屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(下冊(cè))[C];2008年

8 王振亞;武斌;;基于MFI-WT算法的蜜網(wǎng)日志分析方法[A];第十七屆全國青年通信學(xué)術(shù)年會(huì)論文集[C];2012年

9 金松昌;方濱興;楊樹強(qiáng);賈焰;;基于Hadoop的網(wǎng)絡(luò)安全日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];全國計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集·第二十五卷[C];2010年

10 朱金清;王建新;陳志泊;;基于APRIORI的層次化聚類算法及其在IDS日志分析中的應(yīng)用[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年

相關(guān)重要報(bào)紙文章 前10條

1 中航工業(yè)南方航空工業(yè)集團(tuán)(有限)公司科技與信息部 鄒滬湘;分析日志識(shí)別暴力破解[N];計(jì)算機(jī)世界;2013年

2 ;日志分析中的五個(gè)誤區(qū)[N];網(wǎng)絡(luò)世界;2004年

3 陳代壽;網(wǎng)管的四兩撥千斤[N];中國計(jì)算機(jī)報(bào);2004年

4 IBM大數(shù)據(jù)專家 James Kobielus 范范 編譯;大數(shù)據(jù)日志分析借機(jī)器學(xué)習(xí)騰飛[N];網(wǎng)絡(luò)世界;2014年

5 《網(wǎng)絡(luò)世界》評(píng)測(cè)實(shí)驗(yàn)室 于洋;用好Web日志[N];網(wǎng)絡(luò)世界;2004年

6 重慶 航行者;IIS的安全[N];電腦報(bào);2002年

7 河南工業(yè)職業(yè)技術(shù)學(xué)院 邱建新;監(jiān)測(cè)Squid日志的五種方法[N];計(jì)算機(jī)世界;2005年

8 shotgun;入侵檢測(cè)初步(上)[N];電腦報(bào);2001年

9 朱閔;淺談企業(yè)核心應(yīng)用的安全審計(jì)(下)[N];網(wǎng)絡(luò)世界;2008年

10 覃進(jìn)文;在Windows 2000&&2003下快速安裝Webalizer[N];中國電腦教育報(bào);2003年

相關(guān)博士學(xué)位論文 前3條

1 饒翔;基于日志的大規(guī)模分布式軟件系統(tǒng)可信保障技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

2 曹志波;基于日志的任務(wù)建模及調(diào)度優(yōu)化的研究[D];華南理工大學(xué);2014年

3 胡蓉;WEB日志和子空間聚類挖掘算法研究[D];華中科技大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 張之宣;云計(jì)算環(huán)境下實(shí)時(shí)日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];浙江大學(xué);2016年

2 李華民;UC日志收集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2015年

3 張永霞;面向用戶個(gè)性化推薦的日志分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2013年

4 顏斯哲;安全操作平臺(tái)中日志過濾與解析范化的研究[D];中南大學(xué);2009年

5 楊華;可視化日志分析系統(tǒng)的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年

6 薛文娟;基于層次聚類的日志分析技術(shù)研究[D];山東師范大學(xué);2013年

7 曾金梁;分布式日志分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];北京郵電大學(xué);2014年

8 范驚;高精度的程序日志解析技術(shù)研究[D];上海交通大學(xué);2013年

9 馮鑫;日志解析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2013年

10 張文選;通用防火墻日志分析系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)[D];長(zhǎng)春理工大學(xué);2004年



本文編號(hào):2486047

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2486047.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f7987***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com