基于Hadoop的大規(guī)模中文網(wǎng)站聚類的設(shè)計與實現(xiàn)
[Abstract]:Text clustering analysis is an important research in the field of data mining. It has been widely used in the fields of statistics, finance, biology, medicine, information retrieval and document classification. Similarity detection and user recommendation are used in this paper. With the rapid popularity of the Internet, the number of various Chinese websites has shown a huge growth, people get more and more data from the web pages. Because different people have different needs and standards, resulting in data diversity and quality requirements. Therefore, how to quickly and efficiently mine the information we need from web pages has become a huge challenge at this stage. The research and application of text clustering provide a good way to solve this problem. It is precisely because the data has the characteristics of magnanimity and diversity that the traditional clustering analysis often can not achieve the ideal effect in time and space when clustering the text. With the rise of cloud computing, cluster processing using distributed parallel framework has been studied and applied by more and more scholars. Hadoop is a distributed system infrastructure developed by Apache Foundation. It has two core framework design: HDFS and MapReduce.HDFS framework mainly undertake the task of providing storage for massive data, and the task of frame MapReduce is to compute, and this kind of computation of mass data is parallel. This paper is based on the Hadoop platform to design the Chinese website clustering analysis system, the following is the main research work. 1. This paper introduces the idea of classical clustering algorithm and related theoretical knowledge. In this paper, the whole process of text clustering and the common similarity measurement methods are introduced in detail. 2. In this paper, we deeply understand the two core frameworks and key technologies of Hadoop platform, expound their interrelation and operation mechanism, and explain the advantages of clustering experiment in traditional single machine environment. 3. Build the Hadoop distributed environment, configure the use of eclipse development tools, use k-means clustering algorithm, write a program to test the Chinese web page data, get the clustering results, the experiment successfully divided all the pages; The analysis of the experimental results shows that Hadoop has powerful computing power in dealing with large scale data, and to a certain extent, with the increase of cluster nodes, the computing power is enhanced.
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13;TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 逄利華;張錦春;;基于Hadoop的分布式數(shù)據(jù)庫系統(tǒng)[J];辦公自動化;2014年05期
2 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期
3 劉爾凱;崔振東;;基于HADOOP技術(shù) 實現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期
4 鄒群;;一種基于Hadoop的數(shù)字圖書存儲系統(tǒng)設(shè)計方案[J];黑龍江史志;2014年01期
5 諶章義;畢偉;向萬紅;王國安;吳愛國;;基于Hadoop的海量電費數(shù)據(jù)處理模型[J];計算機系統(tǒng)應(yīng)用;2014年05期
6 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動化;2014年06期
7 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計算機與網(wǎng)絡(luò);2013年08期
8 王峰;雷葆華;;Hadoop分布式文件系統(tǒng)的模型分析[J];電信科學(xué);2010年12期
9 蘇小會;何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進(jìn)[J];電子設(shè)計工程;2012年22期
10 林偉偉;;一種改進(jìn)的Hadoop數(shù)據(jù)放置策略[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2012年01期
相關(guān)重要報紙文章 前8條
1 本報記者 郭濤;機器大數(shù)據(jù)也離不開Hadoop[N];中國計算機報;2013年
2 本報記者 王星;Hadoop引發(fā)大數(shù)據(jù)之戰(zhàn)[N];電腦報;2012年
3 本報記者 鄒大斌;Hadoop一體機降低大數(shù)據(jù)門檻[N];計算機世界;2012年
4 孫定;云計算、大數(shù)據(jù)與Hadoop[N];計算機世界;2011年
5 樂天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計算機世界;2012年
6 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年
7 波波 編譯;Hadoop、Web 2.0為磁帶帶來新商機[N];網(wǎng)絡(luò)世界;2013年
8 本報記者 郭濤;讓更多人能夠使用Hadoop[N];中國計算機報;2012年
相關(guān)博士學(xué)位論文 前1條
1 宋亞奇;云平臺下電力設(shè)備監(jiān)測大數(shù)據(jù)存儲優(yōu)化與并行處理技術(shù)研究[D];華北電力大學(xué)(北京);2016年
相關(guān)碩士學(xué)位論文 前10條
1 劉君;基于Hadoop技術(shù)的氣象數(shù)據(jù)采集及數(shù)據(jù)挖掘平臺的研究[D];天津理工大學(xué);2015年
2 譚旭;基于物流數(shù)據(jù)的快遞網(wǎng)絡(luò)分析與建模[D];浙江大學(xué);2015年
3 趙偉;基于Hadoop的數(shù)據(jù)挖掘算法并行化研究[D];西南交通大學(xué);2015年
4 趙振崇;基于Hadoop的決策樹挖掘算法的研究[D];蘭州大學(xué);2015年
5 郭凱振;基于Hadoop的分布式計算系統(tǒng)的設(shè)計與實現(xiàn)[D];大連海事大學(xué);2015年
6 白亮;基于Hadoop的民航高價值旅客發(fā)現(xiàn)方法研究[D];中國民航大學(xué);2015年
7 席屏;基于Hadoop的視頻大數(shù)據(jù)智能預(yù)警系統(tǒng)應(yīng)用研究[D];江蘇科技大學(xué);2015年
8 董立明;基于HADOOP的分布式推薦引擎[D];復(fù)旦大學(xué);2013年
9 陸藝達(dá);基于Hadoop分布式計算框架的垃圾短信群發(fā)檢測系統(tǒng)[D];復(fù)旦大學(xué);2013年
10 沈德利;基于Hadoop的密文檢索關(guān)鍵技術(shù)研究[D];西安電子科技大學(xué);2014年
,本文編號:2310881
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2310881.html