基于Hadoop的文本挖掘研究與應(yīng)用

發(fā)布時(shí)間：2017-10-15 23:15

本文關(guān)鍵詞：基于Hadoop的文本挖掘研究與應(yīng)用

更多相關(guān)文章： 分布式 云計(jì)算 Hadoop 文本挖掘 文本聚類

【摘要】：當(dāng)前伴隨互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)信息成為人們獲取信息的主要來(lái)源。人們通過(guò)Internet可以輕易獲取海量信息,但是信息的爆炸式增長(zhǎng)也帶來(lái)一些不便。用戶面對(duì)海量數(shù)據(jù),快速而有效的篩選出有價(jià)值信息顯得越來(lái)越困難。面對(duì)海量數(shù)據(jù),傳統(tǒng)的單節(jié)點(diǎn)串行計(jì)算模式已經(jīng)滿足不了處理海量信息的要求,分布式技術(shù)為此帶來(lái)了新的解決方案,通過(guò)分布式的并行處理模式,能夠快速有效的完成對(duì)海量數(shù)據(jù)的計(jì)算。當(dāng)前基于分布式發(fā)展而來(lái)的云計(jì)算,對(duì)處理海量數(shù)據(jù)和高并發(fā)問(wèn)題優(yōu)勢(shì)明顯。Hadoop平臺(tái)是近幾年應(yīng)用比較熱門的云平臺(tái),其硬件成本較低通過(guò)普通PC集群即可構(gòu)成,同時(shí)能夠存儲(chǔ)及處理海量數(shù)據(jù)。文本挖掘是數(shù)據(jù)挖掘的一個(gè)熱門分支,被廣泛應(yīng)用于搜索、分類、推薦等領(lǐng)域。傳統(tǒng)的串行計(jì)算模式應(yīng)用于當(dāng)前的文本挖掘領(lǐng)域,面對(duì)海量的文本數(shù)據(jù),其運(yùn)算能力難以滿足要求�；诖吮疚倪x擇將Hadoop平臺(tái)與文本挖掘技術(shù)結(jié)合。本文著重研究了Hadoop下的文本預(yù)處理,及CURE聚類算法。本文主要工作如下：(1)簡(jiǎn)單介紹了研究背景及意義、分布式技術(shù)、云平臺(tái)和文本挖掘等相關(guān)技術(shù)。(2)研究了文本挖掘的文本預(yù)處理過(guò)程,提出了一種新的構(gòu)造停用詞表的方法。簡(jiǎn)要介紹了Hadoop平臺(tái)的搭建過(guò)程。將文本預(yù)處理過(guò)程MapReduce化,通過(guò)Hadoop平臺(tái)并行計(jì)算完成文本預(yù)處理。并對(duì)比和分析了單機(jī)串行處理和Hadoop平臺(tái)并行處理的效率(3)簡(jiǎn)要介紹了CURE聚類算法。提出了一種優(yōu)化TFIDF公式,并將其應(yīng)用于CURE算法MapReduce化的過(guò)程。分析對(duì)比了優(yōu)化前,以及優(yōu)化后的TFIDF公式的優(yōu)劣,并證明了優(yōu)化后的TFIDF公式比傳統(tǒng)的TFIDF公式有效性更高。(4)測(cè)試和分析了CURE算法在Hadoop平臺(tái)下,不同集群的運(yùn)行效率。通過(guò)統(tǒng)計(jì)分析相關(guān)計(jì)算結(jié)果,進(jìn)一步證明了Hadoop平臺(tái)并行處理的優(yōu)勢(shì)。通過(guò)實(shí)驗(yàn)分析本文提出的新的停用詞表構(gòu)造方法,以及對(duì)TFIDF的優(yōu)化,證明了本文研究具有一定的價(jià)值。同時(shí)證明了云計(jì)算技術(shù)應(yīng)用文本挖掘領(lǐng)域的有效性,為今后研究文本挖掘提供了新的思路。
【關(guān)鍵詞】：分布式 云計(jì)算 Hadoop 文本挖掘 文本聚類
【學(xué)位授予單位】：廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2016
【分類號(hào)】：TP391.1
【目錄】：

摘要4-5
ABSTRACT5-13
第一章緒論13-18
1.1 研究背景及意義13
1.2 國(guó)內(nèi)外研究現(xiàn)狀13-16
1.2.1 云計(jì)算領(lǐng)域13-14
1.2.2 文本挖掘領(lǐng)域14-15
1.2.3 文本預(yù)處理15
1.2.4 停用詞表構(gòu)造15-16
1.3 本文主要研究?jī)?nèi)容16
1.4 論文結(jié)構(gòu)16-17
1.5 本章小結(jié)17-18
第二章云計(jì)算和文本挖掘相關(guān)理論18-32
2.1 云計(jì)算相關(guān)理論18-27
2.1.1 Google云計(jì)算18-25
2.1.2 Hadoop平臺(tái)25-27
2.2 文本挖掘理論27-31
2.2.1 文本預(yù)處理27-28
2.2.2 文本表示28-29
2.2.3 文本分類29-30
2.2.4 文本聚類30-31
2.3 本章小結(jié)31-32
第三章基于HADOOP的文本預(yù)處理研究32-46
3.1 Hadoop平臺(tái)搭建32-37
3.2 文本預(yù)處理37-42
3.2.1 文本集37-38
3.2.2 分詞38
3.2.3 去停用詞38-41
3.2.4 降為處理41
3.2.5 文本表示41-42
3.3 MapReduce42-43
3.4 測(cè)試分析43-45
3.5 本章小結(jié)45-46
第四章聚類算法研究46-63
4.1 TFIDF優(yōu)化46-52
4.2 聚類算法52-56
4.3 基于Hadoop的CURE56-62
4.3.1 相關(guān)參數(shù)57-59
4.3.2 TFIDF值59-60
4.3.3 相似度距離計(jì)算60-61
4.3.4 CURE的MapReduce化61-62
4.4 本章小結(jié)62-63
第五章基于HADOOP的CURE分析63-71
5.1 實(shí)驗(yàn)分析65-70
5.1.1 TFIDF結(jié)果分析66-67
5.1.2 余弦距離計(jì)算分析67-69
5.1.3 CURE算法分析69-70
5.1.4 實(shí)驗(yàn)結(jié)果分析70
5.2 本章小結(jié)70-71
總結(jié)與展望71-73
參考文獻(xiàn)73-79
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文79-80
攻讀學(xué)位期間參加的科研項(xiàng)目80-82
致謝82

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 羅燕;趙書良;李曉超;韓玉輝;丁亞飛;;基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法[J];計(jì)算機(jī)應(yīng)用;2016年03期

2 尹倩;;基于語(yǔ)義擴(kuò)展度的中文分詞交叉歧義處理方法[J];南昌工程學(xué)院學(xué)報(bào);2016年01期

3 常建秋;沈煒;;基于字符串匹配的中文分詞算法的研究[J];工業(yè)控制計(jì)算機(jī);2016年02期

4 張振景;李新福;田學(xué)東;王凱;;基于SVM的離合詞詞義消歧[J];計(jì)算機(jī)科學(xué);2016年02期

5 劉穎瑩;劉培玉;王智昊;李情情;朱振方;;一種基于密度峰值發(fā)現(xiàn)的文本聚類算法[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2016年01期

6 陳之彥;李曉杰;朱淑華;付丹龍;邢詒海;;基于Hash結(jié)構(gòu)詞典的雙向最大匹配分詞法[J];計(jì)算機(jī)科學(xué);2015年S2期

7 艾明;;Hadoop對(duì)小文件的處理性能的研究[J];信息技術(shù);2015年10期

8 王小林;肖慧;邰偉鵬;;基于Hadoop平臺(tái)的文本相似度檢測(cè)系統(tǒng)的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2015年08期

9 黃美慶;潘慧;;東莞中國(guó)科學(xué)院云計(jì)算產(chǎn)業(yè)技術(shù)創(chuàng)新與育成中心:搶占大數(shù)據(jù)領(lǐng)域制高點(diǎn)[J];廣東科技;2015年11期

10 趙震;;三方聯(lián)合開創(chuàng)全媒體云平臺(tái)新時(shí)代——就“OnAir全媒體云平臺(tái)”專訪新奧特云視總經(jīng)理高云浩、阿里巴巴集團(tuán)云計(jì)算業(yè)務(wù)部高級(jí)業(yè)務(wù)拓展專家孫黎明、華通云數(shù)據(jù)董事長(zhǎng)兼總裁鄭曉林[J];現(xiàn)代電視技術(shù);2014年05期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 劉兆軍;XML文檔數(shù)據(jù)集聚類問(wèn)題研究[D];吉林大學(xué);2015年

2 周勇;基于并行計(jì)算的數(shù)據(jù)流處理方法研究[D];大連理工大學(xué);2013年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 徐靜婷;基于文本挖掘技術(shù)的創(chuàng)業(yè)板股票招股說(shuō)明書風(fēng)險(xiǎn)分析[D];上海師范大學(xué);2015年

2 白鋮;一種分布式文件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

3 閆文亮;云計(jì)算環(huán)境下分布式的虛擬機(jī)資源分配模式研究應(yīng)用[D];北京郵電大學(xué);2015年

4 許行;基于決策樹的單調(diào)分類算法研究[D];山西大學(xué);2014年

5 李亮亮;基于二維特征集合的文本計(jì)算方法[D];濟(jì)南大學(xué);2014年

6 黃琳;基于CURE聚類的KNN文本分類研究與實(shí)現(xiàn)[D];昆明理工大學(xué);2014年

7 龔瑞琴;文本分類中特征選擇和分類算法的研究[D];寧夏大學(xué);2014年

8 胡捷程;智能工單云計(jì)算平臺(tái)的安全隔離研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2013年

9 張平;基于直接優(yōu)化信息檢索評(píng)價(jià)方法的排序?qū)W習(xí)算法研究[D];大連理工大學(xué);2013年

10 仰孝富;基于BIRCH改進(jìn)算法的文本聚類研究[D];北京林業(yè)大學(xué);2013年

，

本文編號(hào)：1039257

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1039257.html

上一篇：不完全信息議價(jià)博弈的序貫均衡分析與計(jì)算實(shí)驗(yàn)
下一篇：基于Cocos2D-x引擎的手游設(shè)計(jì)與開發(fā)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的文本挖掘研究與應(yīng)用