天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于Hadoop的文本挖掘研究與應(yīng)用

發(fā)布時(shí)間:2017-10-15 23:15

  本文關(guān)鍵詞:基于Hadoop的文本挖掘研究與應(yīng)用


  更多相關(guān)文章: 分布式 云計(jì)算 Hadoop 文本挖掘 文本聚類(lèi)


【摘要】:當(dāng)前伴隨互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)信息成為人們獲取信息的主要來(lái)源。人們通過(guò)Internet可以輕易獲取海量信息,但是信息的爆炸式增長(zhǎng)也帶來(lái)一些不便。用戶(hù)面對(duì)海量數(shù)據(jù),快速而有效的篩選出有價(jià)值信息顯得越來(lái)越困難。面對(duì)海量數(shù)據(jù),傳統(tǒng)的單節(jié)點(diǎn)串行計(jì)算模式已經(jīng)滿(mǎn)足不了處理海量信息的要求,分布式技術(shù)為此帶來(lái)了新的解決方案,通過(guò)分布式的并行處理模式,能夠快速有效的完成對(duì)海量數(shù)據(jù)的計(jì)算。當(dāng)前基于分布式發(fā)展而來(lái)的云計(jì)算,對(duì)處理海量數(shù)據(jù)和高并發(fā)問(wèn)題優(yōu)勢(shì)明顯。Hadoop平臺(tái)是近幾年應(yīng)用比較熱門(mén)的云平臺(tái),其硬件成本較低通過(guò)普通PC集群即可構(gòu)成,同時(shí)能夠存儲(chǔ)及處理海量數(shù)據(jù)。文本挖掘是數(shù)據(jù)挖掘的一個(gè)熱門(mén)分支,被廣泛應(yīng)用于搜索、分類(lèi)、推薦等領(lǐng)域。傳統(tǒng)的串行計(jì)算模式應(yīng)用于當(dāng)前的文本挖掘領(lǐng)域,面對(duì)海量的文本數(shù)據(jù),其運(yùn)算能力難以滿(mǎn)足要求。基于此本文選擇將Hadoop平臺(tái)與文本挖掘技術(shù)結(jié)合。本文著重研究了Hadoop下的文本預(yù)處理,及CURE聚類(lèi)算法。本文主要工作如下:(1)簡(jiǎn)單介紹了研究背景及意義、分布式技術(shù)、云平臺(tái)和文本挖掘等相關(guān)技術(shù)。(2)研究了文本挖掘的文本預(yù)處理過(guò)程,提出了一種新的構(gòu)造停用詞表的方法。簡(jiǎn)要介紹了Hadoop平臺(tái)的搭建過(guò)程。將文本預(yù)處理過(guò)程MapReduce化,通過(guò)Hadoop平臺(tái)并行計(jì)算完成文本預(yù)處理。并對(duì)比和分析了單機(jī)串行處理和Hadoop平臺(tái)并行處理的效率(3)簡(jiǎn)要介紹了CURE聚類(lèi)算法。提出了一種優(yōu)化TFIDF公式,并將其應(yīng)用于CURE算法MapReduce化的過(guò)程。分析對(duì)比了優(yōu)化前,以及優(yōu)化后的TFIDF公式的優(yōu)劣,并證明了優(yōu)化后的TFIDF公式比傳統(tǒng)的TFIDF公式有效性更高。(4)測(cè)試和分析了CURE算法在Hadoop平臺(tái)下,不同集群的運(yùn)行效率。通過(guò)統(tǒng)計(jì)分析相關(guān)計(jì)算結(jié)果,進(jìn)一步證明了Hadoop平臺(tái)并行處理的優(yōu)勢(shì)。通過(guò)實(shí)驗(yàn)分析本文提出的新的停用詞表構(gòu)造方法,以及對(duì)TFIDF的優(yōu)化,證明了本文研究具有一定的價(jià)值。同時(shí)證明了云計(jì)算技術(shù)應(yīng)用文本挖掘領(lǐng)域的有效性,為今后研究文本挖掘提供了新的思路。
【關(guān)鍵詞】:分布式 云計(jì)算 Hadoop 文本挖掘 文本聚類(lèi)
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-13
  • 第一章 緒論13-18
  • 1.1 研究背景及意義13
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀13-16
  • 1.2.1 云計(jì)算領(lǐng)域13-14
  • 1.2.2 文本挖掘領(lǐng)域14-15
  • 1.2.3 文本預(yù)處理15
  • 1.2.4 停用詞表構(gòu)造15-16
  • 1.3 本文主要研究?jī)?nèi)容16
  • 1.4 論文結(jié)構(gòu)16-17
  • 1.5 本章小結(jié)17-18
  • 第二章 云計(jì)算和文本挖掘相關(guān)理論18-32
  • 2.1 云計(jì)算相關(guān)理論18-27
  • 2.1.1 Google云計(jì)算18-25
  • 2.1.2 Hadoop平臺(tái)25-27
  • 2.2 文本挖掘理論27-31
  • 2.2.1 文本預(yù)處理27-28
  • 2.2.2 文本表示28-29
  • 2.2.3 文本分類(lèi)29-30
  • 2.2.4 文本聚類(lèi)30-31
  • 2.3 本章小結(jié)31-32
  • 第三章 基于HADOOP的文本預(yù)處理研究32-46
  • 3.1 Hadoop平臺(tái)搭建32-37
  • 3.2 文本預(yù)處理37-42
  • 3.2.1 文本集37-38
  • 3.2.2 分詞38
  • 3.2.3 去停用詞38-41
  • 3.2.4 降為處理41
  • 3.2.5 文本表示41-42
  • 3.3 MapReduce42-43
  • 3.4 測(cè)試分析43-45
  • 3.5 本章小結(jié)45-46
  • 第四章 聚類(lèi)算法研究46-63
  • 4.1 TFIDF優(yōu)化46-52
  • 4.2 聚類(lèi)算法52-56
  • 4.3 基于Hadoop的CURE56-62
  • 4.3.1 相關(guān)參數(shù)57-59
  • 4.3.2 TFIDF值59-60
  • 4.3.3 相似度距離計(jì)算60-61
  • 4.3.4 CURE的MapReduce化61-62
  • 4.4 本章小結(jié)62-63
  • 第五章 基于HADOOP的CURE分析63-71
  • 5.1 實(shí)驗(yàn)分析65-70
  • 5.1.1 TFIDF結(jié)果分析66-67
  • 5.1.2 余弦距離計(jì)算分析67-69
  • 5.1.3 CURE算法分析69-70
  • 5.1.4 實(shí)驗(yàn)結(jié)果分析70
  • 5.2 本章小結(jié)70-71
  • 總結(jié)與展望71-73
  • 參考文獻(xiàn)73-79
  • 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文79-80
  • 攻讀學(xué)位期間參加的科研項(xiàng)目80-82
  • 致謝82

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 羅燕;趙書(shū)良;李曉超;韓玉輝;丁亞飛;;基于詞頻統(tǒng)計(jì)的文本關(guān)鍵詞提取方法[J];計(jì)算機(jī)應(yīng)用;2016年03期

2 尹倩;;基于語(yǔ)義擴(kuò)展度的中文分詞交叉歧義處理方法[J];南昌工程學(xué)院學(xué)報(bào);2016年01期

3 常建秋;沈煒;;基于字符串匹配的中文分詞算法的研究[J];工業(yè)控制計(jì)算機(jī);2016年02期

4 張振景;李新福;田學(xué)東;王凱;;基于SVM的離合詞詞義消歧[J];計(jì)算機(jī)科學(xué);2016年02期

5 劉穎瑩;劉培玉;王智昊;李情情;朱振方;;一種基于密度峰值發(fā)現(xiàn)的文本聚類(lèi)算法[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2016年01期

6 陳之彥;李曉杰;朱淑華;付丹龍;邢詒海;;基于Hash結(jié)構(gòu)詞典的雙向最大匹配分詞法[J];計(jì)算機(jī)科學(xué);2015年S2期

7 艾明;;Hadoop對(duì)小文件的處理性能的研究[J];信息技術(shù);2015年10期

8 王小林;肖慧;邰偉鵬;;基于Hadoop平臺(tái)的文本相似度檢測(cè)系統(tǒng)的研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2015年08期

9 黃美慶;潘慧;;東莞中國(guó)科學(xué)院云計(jì)算產(chǎn)業(yè)技術(shù)創(chuàng)新與育成中心:搶占大數(shù)據(jù)領(lǐng)域制高點(diǎn)[J];廣東科技;2015年11期

10 趙震;;三方聯(lián)合 開(kāi)創(chuàng)全媒體云平臺(tái)新時(shí)代——就“OnAir全媒體云平臺(tái)”專(zhuān)訪新奧特云視總經(jīng)理高云浩、阿里巴巴集團(tuán)云計(jì)算業(yè)務(wù)部高級(jí)業(yè)務(wù)拓展專(zhuān)家孫黎明、華通云數(shù)據(jù)董事長(zhǎng)兼總裁鄭曉林[J];現(xiàn)代電視技術(shù);2014年05期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 劉兆軍;XML文檔數(shù)據(jù)集聚類(lèi)問(wèn)題研究[D];吉林大學(xué);2015年

2 周勇;基于并行計(jì)算的數(shù)據(jù)流處理方法研究[D];大連理工大學(xué);2013年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 徐靜婷;基于文本挖掘技術(shù)的創(chuàng)業(yè)板股票招股說(shuō)明書(shū)風(fēng)險(xiǎn)分析[D];上海師范大學(xué);2015年

2 白鋮;一種分布式文件系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2015年

3 閆文亮;云計(jì)算環(huán)境下分布式的虛擬機(jī)資源分配模式研究應(yīng)用[D];北京郵電大學(xué);2015年

4 許行;基于決策樹(shù)的單調(diào)分類(lèi)算法研究[D];山西大學(xué);2014年

5 李亮亮;基于二維特征集合的文本計(jì)算方法[D];濟(jì)南大學(xué);2014年

6 黃琳;基于CURE聚類(lèi)的KNN文本分類(lèi)研究與實(shí)現(xiàn)[D];昆明理工大學(xué);2014年

7 龔瑞琴;文本分類(lèi)中特征選擇和分類(lèi)算法的研究[D];寧夏大學(xué);2014年

8 胡捷程;智能工單云計(jì)算平臺(tái)的安全隔離研究與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2013年

9 張平;基于直接優(yōu)化信息檢索評(píng)價(jià)方法的排序?qū)W習(xí)算法研究[D];大連理工大學(xué);2013年

10 仰孝富;基于BIRCH改進(jìn)算法的文本聚類(lèi)研究[D];北京林業(yè)大學(xué);2013年

,

本文編號(hào):1039257

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1039257.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)a1c08***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
国产剧情欧美日韩中文在线| 欧美精品在线播放一区二区| 狠色婷婷久久一区二区三区| 国产精品人妻熟女毛片av久| 黑鬼糟蹋少妇资源在线观看| 国产精品欧美一区两区| 91欧美日韩国产在线观看| 男女一进一出午夜视频| 日本精品理论在线观看| 成年人黄片大全在线观看| 在线中文字幕亚洲欧美一区| 日韩一级免费中文字幕视频| 99久久精品免费看国产高清| 久久99热成人网不卡| 国产精品推荐在线一区| 国产精品不卡高清在线观看| 亚洲第一香蕉视频在线| 国产成人精品午夜福利| 精品一区二区三区三级视频| 欧美日韩在线视频一区| 四季av一区二区播放| 色综合伊人天天综合网中文| 大香蕉精品视频一区二区| 91麻豆视频国产一区二区| 国产麻豆一区二区三区在| 国产亚洲二区精品美女久久| 欧美日本精品视频在线观看| 国产一区二区三区成人精品| 亚洲一区二区三区四区性色av| 欧美性高清一区二区三区视频| 五月天丁香亚洲综合网| 国产日韩精品激情在线观看| 国产三级视频不卡在线观看| 欧美成人一区二区三区在线 | 亚洲精选91福利在线观看| 国产又粗又深又猛又爽又黄| 国产精品视频一区二区秋霞| 好吊日在线观看免费视频| 少妇丰满a一区二区三区| 草草草草在线观看视频| 午夜亚洲精品理论片在线观看|