天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于MapReduce模型文本分類算法的研究

發(fā)布時(shí)間:2018-10-18 16:41
【摘要】:隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大和信息量的不斷增加,集中式環(huán)境文本分類不能滿足現(xiàn)有的需要,因此在分布式環(huán)境下對(duì)大規(guī)模數(shù)據(jù)處理成為當(dāng)前IT行業(yè)關(guān)注的焦點(diǎn)。無(wú)論是在廣告投放,還是在信息檢索等領(lǐng)域,都需要對(duì)大規(guī)模數(shù)據(jù)處理進(jìn)行文本分類,因此研究云計(jì)算環(huán)境下的大規(guī)模數(shù)據(jù)文本分類就成為了焦點(diǎn)。本文就在Hadoop系統(tǒng)平臺(tái)下,以文本分類為前提,以本文設(shè)計(jì)的倒排索引樹(shù)結(jié)構(gòu)為基礎(chǔ),對(duì)文本分類算法及其增量算法進(jìn)行了以下研究。 綜上所述:本文的主要研究成果、貢獻(xiàn)和創(chuàng)新點(diǎn)可概括以下幾點(diǎn): 1.為了滿足特征選擇方法的計(jì)算速度和文本分類KNN、Bayes等算法以及文本向量維度分布稀松性,本文給出了倒排索引樹(shù)結(jié)構(gòu),并在云平臺(tái)上將倒排索引樹(shù)結(jié)構(gòu)并行化。 2.結(jié)合倒排索引樹(shù)的結(jié)構(gòu)和文本分類算法,給出了海量數(shù)據(jù)的倒排索引樹(shù)構(gòu)建算法及其剪枝策略,同時(shí)也給出了增量倒排索引樹(shù)算法以及增量倒排索引樹(shù)并行化設(shè)計(jì)。 3.基于倒排索引樹(shù)結(jié)構(gòu),設(shè)計(jì)了K-means增量分類算法,并給出了Hadoop平臺(tái)下該算法分類的并行化設(shè)計(jì)。 4.根據(jù)倒排索引樹(shù)結(jié)構(gòu),提出了云計(jì)算hadoop平臺(tái)下基于倒排索引樹(shù)的樸素貝葉斯分類算法,并給出了該算法的三種改進(jìn)方法,分別有采用TFIDF權(quán)重加權(quán)的,互信息加權(quán)的,期望交叉熵加權(quán)的樸素貝葉斯文本分類算法,同時(shí)也給出了基于倒排索引樹(shù)的局部樸素貝葉斯文本分類算法。 5.搭建hadoop集群進(jìn)行實(shí)驗(yàn)分析,驗(yàn)證了倒排索引樹(shù)結(jié)構(gòu)及其文本分類改進(jìn)算法的分類準(zhǔn)確率,召回率和分類性能。
[Abstract]:With the continuous expansion of the network scale and the increase of the amount of information, the centralized environment text classification can not meet the existing needs, so large-scale data processing in the distributed environment has become the focus of attention in the current IT industry. It is necessary to classify the large-scale data processing in the field of advertising and information retrieval, so the research of large-scale data text classification in cloud computing environment has become the focus. In this paper, based on the inverted index tree structure designed in this paper, the text classification algorithm and its incremental algorithm are studied on the basis of text classification based on Hadoop system. To sum up: the main research results, contributions and innovations can be summarized as follows: 1. In order to satisfy the computation speed of feature selection method, text classification KNN,Bayes algorithm and text vector dimension distribution looseness, the inverted index tree structure is presented in this paper, and the inverted index tree structure is parallelized on cloud platform. 2. Combined with the structure of inverted index tree and text classification algorithm, this paper presents an inverted index tree construction algorithm and pruning strategy for massive data. At the same time, the incremental inverted index tree algorithm and the parallel design of incremental inverted index tree are presented. Based on the inverted index tree structure, the K-means incremental classification algorithm is designed, and the parallel design of the algorithm classification based on Hadoop platform is given. 4. According to inverted index tree structure, a naive Bayesian classification algorithm based on inverted index tree in cloud computing hadoop platform is proposed, and three improved methods are given, which are weighted by TFIDF weight and weighted by mutual information. A naive Bayesian text classification algorithm with expected cross-entropy weighted is proposed. At the same time, a local naive Bayesian text classification algorithm based on inverted index tree is presented. The hadoop cluster was built for experimental analysis to verify the classification accuracy recall rate and classification performance of the inverted index tree structure and its improved text classification algorithm.
【學(xué)位授予單位】:遼寧大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.1

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張玉芳;陳小莉;熊忠陽(yáng);;基于信息增益的特征詞權(quán)重調(diào)整算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2007年35期

2 秦鋒;任詩(shī)流;程澤凱;羅慧;;基于屬性加權(quán)的樸素貝葉斯分類算法[J];計(jì)算機(jī)工程與應(yīng)用;2008年06期

3 唐亮;段建國(guó);許洪波;梁玲;;基于互信息最大化的特征選擇算法及應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2008年13期

4 鄧維斌;王國(guó)胤;王燕;;基于Rough Set的加權(quán)樸素貝葉斯分類算法[J];計(jì)算機(jī)科學(xué);2007年02期

5 向小軍;高陽(yáng);商琳;楊育彬;;基于Hadoop平臺(tái)的海量文本分類的并行化[J];計(jì)算機(jī)科學(xué);2011年10期

6 張玉芳;彭時(shí)名;呂佳;;基于文本分類TFIDF方法的改進(jìn)與應(yīng)用[J];計(jì)算機(jī)工程;2006年19期

7 李學(xué)明;李海瑞;薛亮;何光軍;;基于信息增益與信息熵的TFIDF算法[J];計(jì)算機(jī)工程;2012年08期

8 鄧維斌;黃蜀江;周玉敏;;基于條件信息熵的自主式樸素貝葉斯分類算法[J];計(jì)算機(jī)應(yīng)用;2007年04期

9 周敏;周繼鵬;丁光華;;PSL:針對(duì)大規(guī)模數(shù)據(jù)應(yīng)用的并行Slope One算法[J];科學(xué)技術(shù)與工程;2010年03期

10 冀素琴;石洪波;衛(wèi)潔;;基于Map Reduce的Bagging貝葉斯文本分類[J];計(jì)算機(jī)工程;2012年16期

相關(guān)碩士學(xué)位論文 前5條

1 李原;中文文本分類中分詞和特征選擇方法研究[D];吉林大學(xué);2011年

2 劉叢山;基于Hadoop的文本分類研究[D];上海交通大學(xué);2012年

3 王新麗;中文文本分類系統(tǒng)的研究與實(shí)現(xiàn)[D];天津大學(xué);2007年

4 李軍華;云計(jì)算及若干數(shù)據(jù)挖掘算法的MapReduce化研究[D];電子科技大學(xué);2010年

5 喬鴻欣;基于MapReduce的KNN分類算法的研究與實(shí)現(xiàn)[D];北京交通大學(xué);2012年



本文編號(hào):2279728

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/guanggaoshejilunwen/2279728.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b8c67***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产av精品高清一区二区三区 | 日本欧美三级中文字幕| 日本一本不卡免费视频| 国产性情片一区二区三区| 午夜福利直播在线视频| 极品少妇嫩草视频在线观看| 国产成人高清精品尤物| 亚洲欧美黑人一区二区| 精品一区二区三区中文字幕 | 国产精品午夜福利免费在线| 国产精品美女午夜福利| 亚洲国产性生活高潮免费视频 | 出差被公高潮久久中文字幕| 婷婷激情四射在线观看视频| 日本视频在线观看不卡| 国产午夜福利一区二区| 久久福利视频这里有精品| 日本午夜免费啪视频在线| 日韩熟妇人妻一区二区三区| 日韩精品一区二区不卡| 91偷拍视频久久精品| 国产不卡的视频在线观看| 日本一级特黄大片国产| 黑丝袜美女老师的小逼逼| 久久99夜色精品噜噜亚洲av| 不卡中文字幕在线视频| 少妇人妻中出中文字幕| 国产一级片内射视频免费播放| 久久精品亚洲精品一区| 欧美一区二区三区十区| 视频一区中文字幕日韩| 成人国产激情在线视频| 欧美日韩综合综合久久久| 精品国产亚洲区久久露脸| 欧美一区二区三区十区| 韩日黄片在线免费观看| 国产福利一区二区久久| 欧美视频在线观看一区| 中日韩美女黄色一级片| 欧美精品亚洲精品一区| 91久久国产福利自产拍|