基于Spark的Web文本挖掘系統(tǒng)的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-08-19 09:28
本文關(guān)鍵詞:基于Spark的Web文本挖掘系統(tǒng)的研究與實(shí)現(xiàn)
更多相關(guān)文章: Web文本挖掘 Spark TF-IDF LDA主題模型
【摘要】:社交網(wǎng)絡(luò)、在線媒體/社區(qū)、電子商務(wù)等網(wǎng)站的飛速發(fā)展,催生了互聯(lián)網(wǎng)上數(shù)以億計(jì)的Web文本數(shù)據(jù)。與傳統(tǒng)的文本信息相比,Web文本具有規(guī)模性和異構(gòu)性的特點(diǎn),對(duì)其進(jìn)行整合及分析的過(guò)程更為復(fù)雜。因此,如何通過(guò)有效手段,從紛繁復(fù)雜的Web文本數(shù)據(jù)中快速獲取、整合有價(jià)值的信息和知識(shí)是近年來(lái)文本挖掘領(lǐng)域的熱點(diǎn)問(wèn)題。而進(jìn)入21世紀(jì),隨著云計(jì)算、分布式存儲(chǔ)以及數(shù)據(jù)挖掘等信息處理技術(shù)的日漸成熟,以Hadoop Map Reduce和Spark為代表的大數(shù)據(jù)并行計(jì)算框架應(yīng)運(yùn)而生。其中,Spark基于內(nèi)存計(jì)算,具有高效的數(shù)據(jù)處理能力,并提供對(duì)實(shí)時(shí)、交互式的數(shù)據(jù)訪問(wèn)支持,克服了Map Reduce在需要大量迭代計(jì)算的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法中的明顯不足,更適用于構(gòu)建低延遲的大數(shù)據(jù)處理應(yīng)用。鑒于此,本文基于新一代大數(shù)據(jù)并行運(yùn)算框架Spark,進(jìn)行了Web文本挖掘系統(tǒng)的研究與實(shí)現(xiàn),主要工作包含以下四部分:1.在Web文本挖掘系統(tǒng)的基礎(chǔ)知識(shí)準(zhǔn)備部分,首先對(duì)Web文本挖掘的概念和具體流程進(jìn)行了深入研究;然后,對(duì)大數(shù)據(jù)分析引擎的重點(diǎn)技術(shù)進(jìn)行了詳細(xì)介紹,包括并行計(jì)算框架Spark和分布式文件系統(tǒng)HDFS;最后,對(duì)Web文本挖掘系統(tǒng)所涉及的其他概念和技術(shù),包括機(jī)器學(xué)習(xí)、網(wǎng)絡(luò)爬蟲以及文本信息可視化做出了簡(jiǎn)要概括。2.在Web文本挖掘系統(tǒng)的算法準(zhǔn)備部分,首先對(duì)文本特征提取算法TF-IDF進(jìn)行研究改進(jìn),并且在Spark并行計(jì)算的環(huán)境下對(duì)其進(jìn)行了應(yīng)用研究和討論;然后,對(duì)LDA主題模型及其改進(jìn)模型Labeled-LDA的原理進(jìn)行了深入研究。3.在Web文本挖掘系統(tǒng)的總體設(shè)計(jì)部分,以IT社區(qū)/在線新聞、技術(shù)博客等更新速度快、信息量大、知識(shí)涵蓋面廣且原始文檔分類信息較完善的中文計(jì)算機(jī)技術(shù)類網(wǎng)站內(nèi)容為分析對(duì)象,以幫助用戶快速識(shí)別、整合海量文本數(shù)據(jù)中的熱點(diǎn)內(nèi)容和熱門主題為應(yīng)用目標(biāo),進(jìn)行了Web文本挖掘系統(tǒng)的功能需求分析、總體架構(gòu)以及模塊劃分等工作。4.在Web文本挖掘系統(tǒng)的詳細(xì)設(shè)計(jì)和編碼實(shí)現(xiàn)部分,首先進(jìn)行了大數(shù)據(jù)運(yùn)行架構(gòu)的環(huán)境搭建及部署;然后根據(jù)總體設(shè)計(jì)的結(jié)果編碼實(shí)現(xiàn)了系統(tǒng)的三個(gè)主要功能模塊,包括信息采集模塊、文本分析模塊以及文本信息可視化模塊;最后將系統(tǒng)應(yīng)用于若干技術(shù)類網(wǎng)站的文本挖掘中,通過(guò)運(yùn)行速率及挖掘結(jié)果證實(shí)了系統(tǒng)的可行性和實(shí)用性。
【關(guān)鍵詞】:Web文本挖掘 Spark TF-IDF LDA主題模型
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-6
- Abstract6-11
- 第1章 緒論11-15
- 1.1 研究背景11-12
- 1.2 研究現(xiàn)狀12-13
- 1.2.1 文本挖掘12
- 1.2.2 大數(shù)據(jù)技術(shù)12-13
- 1.3 文章內(nèi)容及意義13-14
- 1.4 文章結(jié)構(gòu)14-15
- 第2章 相關(guān)知識(shí)與技術(shù)介紹15-25
- 2.1 文本挖掘15-17
- 2.2 并行計(jì)算框架Spark17-20
- 2.2.1 Spark生態(tài)圈17-18
- 2.2.2 運(yùn)行架構(gòu)及計(jì)算模型18-19
- 2.2.3 優(yōu)勢(shì)分析19-20
- 2.3 分布式文件系統(tǒng)HDFS20-21
- 2.4 其他相關(guān)知識(shí)及技術(shù)21-24
- 2.4.1 網(wǎng)絡(luò)爬蟲21-22
- 2.4.2 文本信息可視化22-23
- 2.4.3 機(jī)器學(xué)習(xí)23-24
- 2.5 本章小結(jié)24-25
- 第3章 Web文本挖掘算法研究25-35
- 3.1 文本挖掘算法概述25-26
- 3.2 TF-IDF算法26-29
- 3.2.1 TF-IDF算法簡(jiǎn)介26
- 3.2.2 TF-IDF算法改進(jìn)26-27
- 3.2.3 TF-IDF并行化研究27-29
- 3.3 LDA主題模型29-34
- 3.3.1 LDA模型原理29-31
- 3.3.2 Gibbs采樣法推導(dǎo)LDA31-33
- 3.3.3 Labeled-LDA主題模型33-34
- 3.4 本章小結(jié)34-35
- 第4章 基于Spark的Web文本挖掘系統(tǒng)總體設(shè)計(jì)35-42
- 4.1 系統(tǒng)功能需求35-37
- 4.1.1 Web文本采集35
- 4.1.2 文本分析35-36
- 4.1.3 結(jié)果展示36
- 4.1.4 數(shù)據(jù)存儲(chǔ)36-37
- 4.2 系統(tǒng)概要設(shè)計(jì)37-41
- 4.2.1 系統(tǒng)架構(gòu)設(shè)計(jì)37-38
- 4.2.2 模塊劃分及技術(shù)選型38-39
- 4.2.3 數(shù)據(jù)處理邏輯39-40
- 4.2.4 界面設(shè)計(jì)40-41
- 4.3 本章小結(jié)41-42
- 第5章 基于Spark的Web文本挖掘系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)42-57
- 5.1 環(huán)境搭建及部署42
- 5.2 系統(tǒng)詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)42-53
- 5.2.1 信息采集模塊43-46
- 5.2.2 文本分析模塊46-50
- 5.2.3 文本信息可視化模塊50-53
- 5.3 操作示例及運(yùn)行結(jié)果53-55
- 5.4 本章小結(jié)55-57
- 第6章 總結(jié)與展望57-59
- 6.1 本文總結(jié)57-58
- 6.2 展望58-59
- 參考文獻(xiàn)59-61
- 作者簡(jiǎn)介61-62
- 致謝62
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 詹義;方媛;;基于Spark技術(shù)的網(wǎng)絡(luò)大數(shù)據(jù)分析平臺(tái)搭建與應(yīng)用[J];互聯(lián)網(wǎng)天地;2016年02期
2 梁喜濤;顧磊;;中文分詞與詞性標(biāo)注研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2015年02期
3 袁海;陳康;陶彩霞;陳,
本文編號(hào):699952
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/699952.html
最近更新
教材專著