天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于云計(jì)算的文本分類(lèi)研究與應(yīng)用

發(fā)布時(shí)間:2017-09-26 19:33

  本文關(guān)鍵詞:基于云計(jì)算的文本分類(lèi)研究與應(yīng)用


  更多相關(guān)文章: 云計(jì)算 文本分類(lèi) 樸素貝葉斯 Hadoop Spark


【摘要】:當(dāng)代互聯(lián)網(wǎng)的高速發(fā)展產(chǎn)生了大量富有價(jià)值的互聯(lián)網(wǎng)信息,其中文本數(shù)據(jù)占據(jù)著重要的位置,如何從海量的文本數(shù)據(jù)中挖掘出有用的信息是具有重大意義的課題。文本分類(lèi)是文本挖掘中一項(xiàng)重要的研究方向,分類(lèi)算法的實(shí)現(xiàn)是文本分類(lèi)的重要部分,影響著文本分類(lèi)效果和分類(lèi)性能;趥鹘y(tǒng)計(jì)算機(jī)的分類(lèi)算法實(shí)現(xiàn)過(guò)程需要消耗大量的時(shí)間,不能滿(mǎn)足日益增長(zhǎng)的數(shù)據(jù)處理需求,云計(jì)算平臺(tái)的研究和發(fā)展就是在這一背景下興起,滿(mǎn)足了日益增長(zhǎng)的海量數(shù)據(jù)處理需求。鑒于目前文本分類(lèi)的研究現(xiàn)狀和云計(jì)算平臺(tái)應(yīng)用的發(fā)展趨勢(shì),本文將基于云計(jì)算平臺(tái)對(duì)文本分類(lèi)相關(guān)技術(shù)進(jìn)行研究,主要工作有以下三個(gè)方面:(1)深入分析了樸素貝葉斯文本分類(lèi)算法相關(guān)理論,對(duì)條件屬性獨(dú)立性假設(shè)進(jìn)行深入研究,重點(diǎn)討論了樸素貝葉斯屬性加權(quán)對(duì)獨(dú)立性假設(shè)的影響。然后針對(duì)屬性加權(quán),本文提出了基于余弦相似度的加權(quán)樸素貝葉斯分類(lèi)算法,采用余弦相似度優(yōu)化屬性權(quán)值,對(duì)分類(lèi)算法進(jìn)行改進(jìn)。(2)研究樸素貝葉斯算法在云計(jì)算平臺(tái)中的并行化實(shí)現(xiàn);谠朴(jì)算平臺(tái)Hadoop,根據(jù)MapReduce編程模型對(duì)貝葉斯算法并行化進(jìn)行設(shè)計(jì)和實(shí)現(xiàn);基于云計(jì)算平臺(tái)Spark,根據(jù)基于內(nèi)存的運(yùn)算模式來(lái)分析和設(shè)計(jì)貝葉斯算法的并行化。然后實(shí)驗(yàn)對(duì)比算法在兩個(gè)平臺(tái)上性能提升的效果。(3)針對(duì)電子商務(wù)商品類(lèi)目分類(lèi)領(lǐng)域,在Spark平臺(tái)和文本分類(lèi)相關(guān)技術(shù)的研究基礎(chǔ)上,對(duì)基于Spark平臺(tái)文本分類(lèi)并行化實(shí)現(xiàn)過(guò)程進(jìn)行分析和設(shè)計(jì),分析任務(wù)提交后各節(jié)點(diǎn)的作用和任務(wù)分配情況。然后研究改進(jìn)的樸素貝葉斯算法在Spark上的并行化實(shí)現(xiàn),給出了詳細(xì)的并行化實(shí)現(xiàn)過(guò)程。實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法對(duì)比傳統(tǒng)算法有一定的優(yōu)勢(shì),基于內(nèi)存計(jì)算的Spark在算法執(zhí)行上要優(yōu)于基于MapReduce模型的Hadoop。改進(jìn)的算法能有效的移植到Spark上,在Spark上實(shí)現(xiàn)商品類(lèi)目分類(lèi)能有效的提高分類(lèi)性能。
【關(guān)鍵詞】:云計(jì)算 文本分類(lèi) 樸素貝葉斯 Hadoop Spark
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-15
  • 1.1 論文選題背景及意義9-10
  • 1.2 國(guó)內(nèi)外的研究現(xiàn)狀10-13
  • 1.2.1 文本分類(lèi)研究現(xiàn)狀10-12
  • 1.2.2 云計(jì)算平臺(tái)研究現(xiàn)狀12-13
  • 1.3 主要工作13
  • 1.4 組織結(jié)構(gòu)13-15
  • 第二章 相關(guān)技術(shù)15-31
  • 2.1 文本分類(lèi)關(guān)鍵技術(shù)研究15-23
  • 2.1.1 文本預(yù)處理16
  • 2.1.2 特征選擇16-19
  • 2.1.3 文本表示19-21
  • 2.1.4 分類(lèi)算法21-22
  • 2.1.5 分類(lèi)評(píng)價(jià)22-23
  • 2.2 云計(jì)算平臺(tái)Hadoop23-26
  • 2.2.1 HDFS23-24
  • 2.2.2 MapReduce24-26
  • 2.3 云計(jì)算平臺(tái)Spark26-31
  • 2.3.1 Spark RDD27-29
  • 2.3.2 Spark架構(gòu)29-31
  • 第三章 樸素貝葉斯分類(lèi)算法的改進(jìn)和并行化研究31-48
  • 3.1 引言31
  • 3.2 傳統(tǒng)的樸素貝葉斯分類(lèi)算法31-36
  • 3.2.1 概率論基礎(chǔ)31-32
  • 3.2.2 樸素貝葉斯分類(lèi)算法32-35
  • 3.2.3 樸素貝葉斯分類(lèi)算法的優(yōu)缺點(diǎn)35-36
  • 3.3 改進(jìn)的樸素貝葉斯分類(lèi)算法36-39
  • 3.3.1 加權(quán)樸素貝葉斯分類(lèi)算法36-37
  • 3.3.2 基于余弦相似度的加權(quán)樸素貝葉斯算法37-39
  • 3.4 基于云計(jì)算平臺(tái)的樸素貝葉斯分類(lèi)算法39-42
  • 3.4.1 基于Hadoop的樸素貝葉斯分類(lèi)算法39-40
  • 3.4.2 基于Spark的樸素貝葉斯分類(lèi)算法40-42
  • 3.5 實(shí)驗(yàn)及結(jié)果分析42-47
  • 3.5.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)數(shù)據(jù)集42-43
  • 3.5.2 評(píng)測(cè)指標(biāo)43
  • 3.5.3 實(shí)驗(yàn)過(guò)程與結(jié)果分析43-47
  • 3.6 本章小結(jié)47-48
  • 第四章 基于Spark的電子商務(wù)商品類(lèi)目分類(lèi)研究48-62
  • 4.1 引言48
  • 4.2 電子商務(wù)商品文本數(shù)據(jù)獲取48-49
  • 4.3 基于Spark平臺(tái)的商品類(lèi)目分類(lèi)與預(yù)測(cè)49-57
  • 4.3.1 基于Spark平臺(tái)的商品類(lèi)目分類(lèi)整體設(shè)計(jì)49-51
  • 4.3.2 預(yù)處理模塊51-52
  • 4.3.3 特征選擇模塊52-53
  • 4.3.4 特征權(quán)重模塊53-54
  • 4.3.5 改進(jìn)的貝葉斯分類(lèi)模塊54-57
  • 4.4 實(shí)驗(yàn)及結(jié)果分析57-61
  • 4.4.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)數(shù)據(jù)集57
  • 4.4.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)57-58
  • 4.4.3 實(shí)驗(yàn)過(guò)程與結(jié)果分析58-61
  • 4.5 本章小結(jié)61-62
  • 第五章 總結(jié)與展望62-64
  • 5.1 全文工作總結(jié)62-63
  • 5.2 展望63-64
  • 參考文獻(xiàn)64-68
  • 致謝68-69
  • 攻讀學(xué)位期間研究成果69

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 賴(lài)英旭;楊震;;改進(jìn)貝葉斯算法在未知惡意軟件識(shí)別中的研究[J];北京工業(yè)大學(xué)學(xué)報(bào);2011年05期

2 陳凱星;陳建英;;一種改進(jìn)的基于樸素貝葉斯算法的垃圾短信過(guò)濾技術(shù)[J];福建電腦;2014年03期

3 李欣;;一種對(duì)貝葉斯算法的改進(jìn)算法分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報(bào);2011年05期

4 皮靖;邵雄凱;肖雅夫;;基于樸素貝葉斯算法的主題爬蟲(chóng)的研究[J];計(jì)算機(jī)與數(shù)字工程;2012年06期

5 楊忠強(qiáng);秦亮曦;;一種基于維規(guī)約的屬性加權(quán)樸素貝葉斯算法[J];信息技術(shù);2013年12期

6 丁岳偉;潘濤;;利用貝葉斯算法過(guò)濾報(bào)文內(nèi)容分析系統(tǒng)中的垃圾信息[J];上海理工大學(xué)學(xué)報(bào);2008年01期

7 李森;趙潔;;基于樸素貝葉斯算法的語(yǔ)言特征描述研究[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2012年05期

8 陳福志,史杏榮;基于改進(jìn)貝葉斯算法的信息安全模型[J];計(jì)算機(jī)工程;2003年20期

9 汪明;張征;;SQL Server 2008 R2貝葉斯算法研究[J];河北軟件職業(yè)技術(shù)學(xué)院學(xué)報(bào);2011年03期

10 文橋;王衛(wèi)平;;基于改進(jìn)貝葉斯算法的入侵檢測(cè)方法[J];計(jì)算機(jī)工程;2006年12期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條

1 顧蕊;;利用貝葉斯算法的目標(biāo)探測(cè)前跟蹤方法[A];第七屆全國(guó)信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2009年

2 許小林;唐文忠;;基于貝葉斯算法的垃圾郵件檢測(cè)中數(shù)據(jù)預(yù)處理技術(shù)的研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展——全國(guó)第17屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2006年

3 彭小明;辛陽(yáng);;基于增量貝葉斯算法的主題爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第九屆中國(guó)通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2012年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 劉大雷;基于不確定貝葉斯算法在滑坡危險(xiǎn)性預(yù)測(cè)的應(yīng)用研究[D];江西理工大學(xué);2015年

2 王海鵬;基于HBase的人口收入水平的預(yù)測(cè)研究[D];大連海事大學(xué);2015年

3 嚴(yán)嘉銘;基于云計(jì)算的文本分類(lèi)研究與應(yīng)用[D];浙江理工大學(xué);2016年

4 楊忠強(qiáng);基于屬性加權(quán)和歸約的樸素貝葉斯算法研究[D];廣西大學(xué);2013年

5 Emmanuel Kayitaba 阿瑪尼;[D];中南大學(xué);2010年

6 孫源澤;樸素貝葉斯算法及其在電信客戶(hù)流失分析中的應(yīng)用研究[D];湖南大學(xué);2008年

7 朱強(qiáng);貝葉斯算法在智能終端信息過(guò)濾中的應(yīng)用研究[D];中南大學(xué);2013年

8 王剛剛;貝葉斯算法在人體生理狀態(tài)識(shí)別中的應(yīng)用[D];大連理工大學(xué);2008年

9 曾志中;基于貝葉斯算法的垃圾郵件過(guò)濾系統(tǒng)的分析與實(shí)現(xiàn)[D];北京郵電大學(xué);2009年

10 林士杰;ID3算法、樸素貝葉斯算法和BP神經(jīng)網(wǎng)絡(luò)算法的比較和分析研究[D];內(nèi)蒙古大學(xué);2013年

,

本文編號(hào):925336

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/925336.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)7510a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com