基于Hadoop的文本挖掘研究與應(yīng)用
本文關(guān)鍵詞:基于Hadoop的文本挖掘研究與應(yīng)用
更多相關(guān)文章: 分布式 云計(jì)算 Hadoop 文本挖掘 文本聚類(lèi)
【摘要】:當(dāng)前伴隨互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)信息成為人們獲取信息的主要來(lái)源。人們通過(guò)Internet可以輕易獲取海量信息,但是信息的爆炸式增長(zhǎng)也帶來(lái)一些不便。用戶(hù)面對(duì)海量數(shù)據(jù),快速而有效的篩選出有價(jià)值信息顯得越來(lái)越困難。面對(duì)海量數(shù)據(jù),傳統(tǒng)的單節(jié)點(diǎn)串行計(jì)算模式已經(jīng)滿(mǎn)足不了處理海量信息的要求,分布式技術(shù)為此帶來(lái)了新的解決方案,通過(guò)分布式的并行處理模式,能夠快速有效的完成對(duì)海量數(shù)據(jù)的計(jì)算。當(dāng)前基于分布式發(fā)展而來(lái)的云計(jì)算,對(duì)處理海量數(shù)據(jù)和高并發(fā)問(wèn)題優(yōu)勢(shì)明顯。Hadoop平臺(tái)是近幾年應(yīng)用比較熱門(mén)的云平臺(tái),其硬件成本較低通過(guò)普通PC集群即可構(gòu)成,同時(shí)能夠存儲(chǔ)及處理海量數(shù)據(jù)。文本挖掘是數(shù)據(jù)挖掘的一個(gè)熱門(mén)分支,被廣泛應(yīng)用于搜索、分類(lèi)、推薦等領(lǐng)域。傳統(tǒng)的串行計(jì)算模式應(yīng)用于當(dāng)前的文本挖掘領(lǐng)域,面對(duì)海量的文本數(shù)據(jù),其運(yùn)算能力難以滿(mǎn)足要求。基于此本文選擇將Hadoop平臺(tái)與文本挖掘技術(shù)結(jié)合。本文著重研究了Hadoop下的文本預(yù)處理,及CURE聚類(lèi)算法。本文主要工作如下:(1)簡(jiǎn)單介紹了研究背景及意義、分布式技術(shù)、云平臺(tái)和文本挖掘等相關(guān)技術(shù)。(2)研究了文本挖掘的文本預(yù)處理過(guò)程,提出了一種新的構(gòu)造停用詞表的方法。簡(jiǎn)要介紹了Hadoop平臺(tái)的搭建過(guò)程。將文本預(yù)處理過(guò)程MapReduce化,通過(guò)Hadoop平臺(tái)并行計(jì)算完成文本預(yù)處理。并對(duì)比和分析了單機(jī)串行處理和Hadoop平臺(tái)并行處理的效率(3)簡(jiǎn)要介紹了CURE聚類(lèi)算法。提出了一種優(yōu)化TFIDF公式,并將其應(yīng)用于CURE算法MapReduce化的過(guò)程。分析對(duì)比了優(yōu)化前,以及優(yōu)化后的TFIDF公式的優(yōu)劣,并證明了優(yōu)化后的TFIDF公式比傳統(tǒng)的TFIDF公式有效性更高。(4)測(cè)試和分析了CURE算法在Hadoop平臺(tái)下,不同集群的運(yùn)行效率。通過(guò)統(tǒng)計(jì)分析相關(guān)計(jì)算結(jié)果,進(jìn)一步證明了Hadoop平臺(tái)并行處理的優(yōu)勢(shì)。通過(guò)實(shí)驗(yàn)分析本文提出的新的停用詞表構(gòu)造方法,以及對(duì)TFIDF的優(yōu)化,證明了本文研究具有一定的價(jià)值。同時(shí)證明了云計(jì)算技術(shù)應(yīng)用文本挖掘領(lǐng)域的有效性,為今后研究文本挖掘提供了新的思路。
【關(guān)鍵詞】:分布式 云計(jì)算 Hadoop 文本挖掘 文本聚類(lèi)
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-13
- 第一章 緒論13-18
- 1.1 研究背景及意義13
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀13-16
- 1.2.1 云計(jì)算領(lǐng)域13-14
- 1.2.2 文本挖掘領(lǐng)域14-15
- 1.2.3 文本預(yù)處理15
- 1.2.4 停用詞表構(gòu)造15-16
- 1.3 本文主要研究?jī)?nèi)容16
- 1.4 論文結(jié)構(gòu)16-17
- 1.5 本章小結(jié)17-18
- 第二章 云計(jì)算和文本挖掘相關(guān)理論18-32
- 2.1 云計(jì)算相關(guān)理論18-27
- 2.1.1 Google云計(jì)算18-25
- 2.1.2 Hadoop平臺(tái)25-27
- 2.2 文本挖掘理論27-31
- 2.2.1 文本預(yù)處理27-28
- 2.2.2 文本表示28-29
- 2.2.3 文本分類(lèi)29-30
- 2.2.4 文本聚類(lèi)30-31
- 2.3 本章小結(jié)31-32
- 第三章 基于HADOOP的文本預(yù)處理研究32-46
- 3.1 Hadoop平臺(tái)搭建32-37
- 3.2 文本預(yù)處理37-42
- 3.2.1 文本集37-38
- 3.2.2 分詞38
- 3.2.3 去停用詞38-41
- 3.2.4 降為處理41
- 3.2.5 文本表示41-42
- 3.3 MapReduce42-43
- 3.4 測(cè)試分析43-45
- 3.5 本章小結(jié)45-46
- 第四章 聚類(lèi)算法研究46-63
- 4.1 TFIDF優(yōu)化46-52
- 4.2 聚類(lèi)算法52-56
- 4.3 基于Hadoop的CURE56-62
- 4.3.1 相關(guān)參數(shù)57-59
- 4.3.2 TFIDF值59-60
- 4.3.3 相似度距離計(jì)算60-61
- 4.3.4 CURE的MapReduce化61-62
- 4.4 本章小結(jié)62-63
- 第五章 基于HADOOP的CURE分析63-71
- 5.1 實(shí)驗(yàn)分析65-70
- 5.1.1 TFIDF結(jié)果分析66-67
- 5.1.2 余弦距離計(jì)算分析67-69
- 5.1.3 CURE算法分析69-70
- 5.1.4 實(shí)驗(yàn)結(jié)果分析70
- 5.2 本章小結(jié)70-71
- 總結(jié)與展望71-73
- 參考文獻(xiàn)73-79
- 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文79-80
- 攻讀學(xué)位期間參加的科研項(xiàng)目80-82
- 致謝82
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 羅燕;趙書(shū)良;李曉超;韓玉輝;丁亞飛;;基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法[J];計(jì)算機(jī)應(yīng)用;2016年03期
2 尹倩;;基于語(yǔ)義擴(kuò)展度的中文分詞交叉歧義處理方法[J];南昌工程學(xué)院學(xué)報(bào);2016年01期
3 常建秋;沈煒;;基于字符串匹配的中文分詞算法的研究[J];工業(yè)控制計(jì)算機(jī);2016年02期
4 張振景;李新福;田學(xué)東;王凱;;基于SVM的離合詞詞義消歧[J];計(jì)算機(jī)科學(xué);2016年02期
5 劉穎瑩;劉培玉;王智昊;李情情;朱振方;;一種基于密度峰值發(fā)現(xiàn)的文本聚類(lèi)算法[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2016年01期
6 陳之彥;李曉杰;朱淑華;付丹龍;邢詒海;;基于Hash結(jié)構(gòu)詞典的雙向最大匹配分詞法[J];計(jì)算機(jī)科學(xué);2015年S2期
7 艾明;;Hadoop對(duì)小文件的處理性能的研究[J];信息技術(shù);2015年10期
8 王小林;肖慧;邰偉鵬;;基于Hadoop平臺(tái)的文本相似度檢測(cè)系統(tǒng)的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2015年08期
9 黃美慶;潘慧;;東莞中國(guó)科學(xué)院云計(jì)算產(chǎn)業(yè)技術(shù)創(chuàng)新與育成中心:搶占大數(shù)據(jù)領(lǐng)域制高點(diǎn)[J];廣東科技;2015年11期
10 趙震;;三方聯(lián)合 開(kāi)創(chuàng)全媒體云平臺(tái)新時(shí)代——就“OnAir全媒體云平臺(tái)”專(zhuān)訪新奧特云視總經(jīng)理高云浩、阿里巴巴集團(tuán)云計(jì)算業(yè)務(wù)部高級(jí)業(yè)務(wù)拓展專(zhuān)家孫黎明、華通云數(shù)據(jù)董事長(zhǎng)兼總裁鄭曉林[J];現(xiàn)代電視技術(shù);2014年05期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 劉兆軍;XML文檔數(shù)據(jù)集聚類(lèi)問(wèn)題研究[D];吉林大學(xué);2015年
2 周勇;基于并行計(jì)算的數(shù)據(jù)流處理方法研究[D];大連理工大學(xué);2013年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 徐靜婷;基于文本挖掘技術(shù)的創(chuàng)業(yè)板股票招股說(shuō)明書(shū)風(fēng)險(xiǎn)分析[D];上海師范大學(xué);2015年
2 白鋮;一種分布式文件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
3 閆文亮;云計(jì)算環(huán)境下分布式的虛擬機(jī)資源分配模式研究應(yīng)用[D];北京郵電大學(xué);2015年
4 許行;基于決策樹(shù)的單調(diào)分類(lèi)算法研究[D];山西大學(xué);2014年
5 李亮亮;基于二維特征集合的文本計(jì)算方法[D];濟(jì)南大學(xué);2014年
6 黃琳;基于CURE聚類(lèi)的KNN文本分類(lèi)研究與實(shí)現(xiàn)[D];昆明理工大學(xué);2014年
7 龔瑞琴;文本分類(lèi)中特征選擇和分類(lèi)算法的研究[D];寧夏大學(xué);2014年
8 胡捷程;智能工單云計(jì)算平臺(tái)的安全隔離研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2013年
9 張平;基于直接優(yōu)化信息檢索評(píng)價(jià)方法的排序?qū)W習(xí)算法研究[D];大連理工大學(xué);2013年
10 仰孝富;基于BIRCH改進(jìn)算法的文本聚類(lèi)研究[D];北京林業(yè)大學(xué);2013年
,本文編號(hào):1039257
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1039257.html