基于MapReduce的深度學(xué)習(xí)混合模型文本分類(lèi)研究
發(fā)布時(shí)間:2024-06-30 08:16
隨著大數(shù)據(jù)時(shí)代的發(fā)展,“信息爆炸”成為人類(lèi)不得不面對(duì)的嚴(yán)峻問(wèn)題,而且文本信息占主要地位。傳統(tǒng)的文本分類(lèi)方法已經(jīng)無(wú)法處理大數(shù)據(jù)背景下規(guī)模大、維度高、結(jié)構(gòu)多樣化的文本數(shù)據(jù)了。如何處理大數(shù)據(jù)面臨的技術(shù)問(wèn)題和挑戰(zhàn),高效的管理和組織這些信息,成為人們需要迫切解決的問(wèn)題。深度學(xué)習(xí)是具有多層神經(jīng)網(wǎng)絡(luò)的深層非線性映射結(jié)構(gòu),可以利用較少的參數(shù)完成復(fù)雜的函數(shù)逼近,對(duì)文本數(shù)據(jù)進(jìn)行多層的特征學(xué)習(xí),從而提高分類(lèi)準(zhǔn)確率。MapReduce是面向大數(shù)據(jù)的高性能并行化處理的計(jì)算模型、平臺(tái)和框架,其可以很好的解決海量文本數(shù)據(jù)分類(lèi)過(guò)程中空間存儲(chǔ)量不足和時(shí)間消耗長(zhǎng)的問(wèn)題。本文利用MapReduce并行計(jì)算框架和深度學(xué)習(xí)算法來(lái)進(jìn)行文本分類(lèi)。具體研究結(jié)果如下:1、提出了一種改進(jìn)的DAE文本特征學(xué)習(xí)方法:針對(duì)傳統(tǒng)降噪自動(dòng)編碼器(DAE)模型在特征表達(dá)過(guò)程中收斂速度較慢,訓(xùn)練時(shí)間較長(zhǎng)的問(wèn)題。對(duì)其進(jìn)行了附加自適應(yīng)學(xué)習(xí)率和動(dòng)量項(xiàng)的改進(jìn)(Mom-Ada-DAE)。最后通過(guò)分別使用KNN分類(lèi)算法、傳統(tǒng)DAE和Mom-Ada-DAE模型進(jìn)行文本分類(lèi)實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)證明,其Mom-Ada-DAE可以有效的降低DAE對(duì)于誤差曲面局部細(xì)節(jié)的敏感性,...
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 文本分類(lèi)國(guó)內(nèi)外研究現(xiàn)狀
1.2.2 深度學(xué)習(xí)國(guó)內(nèi)外研究現(xiàn)狀
1.2.3 MapReduce技術(shù)國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文結(jié)構(gòu)和創(chuàng)新點(diǎn)
1.3.1 論文結(jié)構(gòu)
1.3.2 論文創(chuàng)新點(diǎn)
1.4 本章小結(jié)
第2章 相關(guān)技術(shù)研究
2.1 深度學(xué)習(xí)文本分類(lèi)相關(guān)技術(shù)研究
2.1.1 深度學(xué)習(xí)文本分類(lèi)概述
2.1.2 深度學(xué)習(xí)文本分類(lèi)步驟
2.1.3 分類(lèi)性能評(píng)價(jià)指標(biāo)
2.1.4 深度學(xué)習(xí)文本分類(lèi)算法
2.2 MapReduce相關(guān)技術(shù)研究
2.2.1 MapReduce概述
2.2.2 MapReduce框架組成
2.2.3 MapReduce的工作流程
2.2.4 深度學(xué)習(xí)MapReduce過(guò)程
2.3 本章小結(jié)
第3章 基于AdaGrad和Momentum的改進(jìn)降噪自動(dòng)編碼器文本分類(lèi)研究
3.1 傳統(tǒng)降噪自動(dòng)編碼器(DAE)的不足
3.2 附加AdaGrad和Momentum的改進(jìn)降噪自動(dòng)編碼器
3.2.1 附加自適應(yīng)學(xué)習(xí)率(Ada-DAE)
3.2.2 附加動(dòng)量項(xiàng)(Mom-DAE)
3.3 基于改進(jìn)的降噪自動(dòng)編碼器文本分類(lèi)
3.4 實(shí)驗(yàn)
3.4.1 實(shí)驗(yàn)環(huán)境
3.4.2 實(shí)驗(yàn)數(shù)據(jù)集
3.4.3 實(shí)驗(yàn)參數(shù)設(shè)置
3.4.4 實(shí)驗(yàn)結(jié)果分析
3.5 本章小結(jié)
第4章 基于深度學(xué)習(xí)混合模型的文本分類(lèi)研究
4.1 深度學(xué)習(xí)混合模型的設(shè)計(jì)
4.2 基于深度學(xué)習(xí)混合模型的文本分類(lèi)
4.2.1 預(yù)處理模塊
4.2.2 文本表示模塊
4.2.3 特征學(xué)習(xí)模塊
4.2.4 分類(lèi)識(shí)別模塊
4.2.5 分類(lèi)效果評(píng)價(jià)
4.3 實(shí)驗(yàn)
4.3.1 實(shí)驗(yàn)環(huán)境
4.3.2 實(shí)驗(yàn)數(shù)據(jù)集
4.3.3 實(shí)驗(yàn)參數(shù)設(shè)置
4.3.4 實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
第5章 基于MapReduce的深度學(xué)習(xí)混合模型的應(yīng)用
5.1 基于MapReduce的深度學(xué)習(xí)混合模型文本分類(lèi)
5.1.1 預(yù)處理的并行化
5.1.2 VSM文本表示并行化
5.1.3 Mom-Ada-DABN分類(lèi)模型并行化
5.2 實(shí)驗(yàn)
5.2.1 實(shí)驗(yàn)環(huán)境
5.2.2 實(shí)驗(yàn)數(shù)據(jù)集
5.2.3 Hadoop環(huán)境安裝
5.2.4 實(shí)驗(yàn)結(jié)果分析
5.3 本章小結(jié)
第6章 總結(jié)與展望
參考文獻(xiàn)
致謝
在學(xué)期間主要科研成果
一、發(fā)表學(xué)術(shù)論文
二、其它科研成果
本文編號(hào):3998576
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 文本分類(lèi)國(guó)內(nèi)外研究現(xiàn)狀
1.2.2 深度學(xué)習(xí)國(guó)內(nèi)外研究現(xiàn)狀
1.2.3 MapReduce技術(shù)國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文結(jié)構(gòu)和創(chuàng)新點(diǎn)
1.3.1 論文結(jié)構(gòu)
1.3.2 論文創(chuàng)新點(diǎn)
1.4 本章小結(jié)
第2章 相關(guān)技術(shù)研究
2.1 深度學(xué)習(xí)文本分類(lèi)相關(guān)技術(shù)研究
2.1.1 深度學(xué)習(xí)文本分類(lèi)概述
2.1.2 深度學(xué)習(xí)文本分類(lèi)步驟
2.1.3 分類(lèi)性能評(píng)價(jià)指標(biāo)
2.1.4 深度學(xué)習(xí)文本分類(lèi)算法
2.2 MapReduce相關(guān)技術(shù)研究
2.2.1 MapReduce概述
2.2.2 MapReduce框架組成
2.2.3 MapReduce的工作流程
2.2.4 深度學(xué)習(xí)MapReduce過(guò)程
2.3 本章小結(jié)
第3章 基于AdaGrad和Momentum的改進(jìn)降噪自動(dòng)編碼器文本分類(lèi)研究
3.1 傳統(tǒng)降噪自動(dòng)編碼器(DAE)的不足
3.2 附加AdaGrad和Momentum的改進(jìn)降噪自動(dòng)編碼器
3.2.1 附加自適應(yīng)學(xué)習(xí)率(Ada-DAE)
3.2.2 附加動(dòng)量項(xiàng)(Mom-DAE)
3.3 基于改進(jìn)的降噪自動(dòng)編碼器文本分類(lèi)
3.4 實(shí)驗(yàn)
3.4.1 實(shí)驗(yàn)環(huán)境
3.4.2 實(shí)驗(yàn)數(shù)據(jù)集
3.4.3 實(shí)驗(yàn)參數(shù)設(shè)置
3.4.4 實(shí)驗(yàn)結(jié)果分析
3.5 本章小結(jié)
第4章 基于深度學(xué)習(xí)混合模型的文本分類(lèi)研究
4.1 深度學(xué)習(xí)混合模型的設(shè)計(jì)
4.2 基于深度學(xué)習(xí)混合模型的文本分類(lèi)
4.2.1 預(yù)處理模塊
4.2.2 文本表示模塊
4.2.3 特征學(xué)習(xí)模塊
4.2.4 分類(lèi)識(shí)別模塊
4.2.5 分類(lèi)效果評(píng)價(jià)
4.3 實(shí)驗(yàn)
4.3.1 實(shí)驗(yàn)環(huán)境
4.3.2 實(shí)驗(yàn)數(shù)據(jù)集
4.3.3 實(shí)驗(yàn)參數(shù)設(shè)置
4.3.4 實(shí)驗(yàn)結(jié)果分析
4.4 本章小結(jié)
第5章 基于MapReduce的深度學(xué)習(xí)混合模型的應(yīng)用
5.1 基于MapReduce的深度學(xué)習(xí)混合模型文本分類(lèi)
5.1.1 預(yù)處理的并行化
5.1.2 VSM文本表示并行化
5.1.3 Mom-Ada-DABN分類(lèi)模型并行化
5.2 實(shí)驗(yàn)
5.2.1 實(shí)驗(yàn)環(huán)境
5.2.2 實(shí)驗(yàn)數(shù)據(jù)集
5.2.3 Hadoop環(huán)境安裝
5.2.4 實(shí)驗(yàn)結(jié)果分析
5.3 本章小結(jié)
第6章 總結(jié)與展望
參考文獻(xiàn)
致謝
在學(xué)期間主要科研成果
一、發(fā)表學(xué)術(shù)論文
二、其它科研成果
本文編號(hào):3998576
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3998576.html
最近更新
教材專著