天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 社科論文 > 文化論文 >

基于Spark的海量少數(shù)民族文化資源數(shù)據(jù)挖掘研究

發(fā)布時(shí)間:2020-06-05 04:22
【摘要】:近年來,少數(shù)民族文化越來越受到國家和社會的重視,尤其隨著信息技術(shù)的快速發(fā)展,少數(shù)民族文化數(shù)字化建設(shè)的力度也越來越大,各類民族文化信息資源不斷涌現(xiàn)。然而,面對數(shù)量龐大、內(nèi)容豐富、結(jié)構(gòu)復(fù)雜的少數(shù)民族文化資源數(shù)據(jù),如何快速、準(zhǔn)確地發(fā)現(xiàn)、獲取和利用有價(jià)值的信息,成為當(dāng)前少數(shù)民族信息化發(fā)展亟待解決的問題之一。本文將大數(shù)據(jù)處理技術(shù)與數(shù)據(jù)挖掘技術(shù)相結(jié)合,對海量的少數(shù)民族文化資源數(shù)據(jù)挖掘方法進(jìn)行了研究,為促進(jìn)少數(shù)民族文化的保護(hù)和傳承提供有效途徑。主要研究內(nèi)容包括:(1)少數(shù)民族文化資源預(yù)處理。少數(shù)民族文化資源主要以文本的方式分布在各民族地方網(wǎng)站,本文利用網(wǎng)絡(luò)爬蟲技術(shù)爬取各民族網(wǎng)站數(shù)據(jù),再對獲取的文本資源進(jìn)行預(yù)處理,去除數(shù)據(jù)中的HTML格式,最后對純文本資源進(jìn)行分詞、去除停用詞、生成文本向量特征,構(gòu)建一個(gè)文本向量特征模型。(2)基于Spark的粒子群算法(Particle Swarm Optimization,PSO)和k-means算法并行化。針對單機(jī)環(huán)境下數(shù)據(jù)處理效率的不足,通過引入Spark分布式計(jì)算法框架,對PSO和k-means算法進(jìn)行并行化實(shí)現(xiàn)。并在PSO算法的并行化過程中,通過線性參數(shù)的方式降低固定權(quán)重參數(shù)的影響,進(jìn)一步提升并行化的運(yùn)行效率。(3)基于Spark的PSO-kmeans算法并行化研究。為了克服k-means算法聚類中心不確定的局限性,通過引入粒子群算法,快速確定k-means算法的聚類中心,提出一種基于Spark的PSO-kmeans算法。該算法針對粒子群算法容易陷入局部最優(yōu)的缺陷,引入線性參數(shù)的方式加快搜索速度,從而快速獲得聚類中心。實(shí)驗(yàn)表明,PSO-kmeans算法在降低運(yùn)行時(shí)間的同時(shí),保證了算法的穩(wěn)定性,并且在少數(shù)民族文化資源聚類任務(wù)中,準(zhǔn)確率提高了3.4%。(4)海量少數(shù)民族文化資源數(shù)據(jù)挖掘原型系統(tǒng)實(shí)現(xiàn)。在對少數(shù)民族數(shù)據(jù)資源挖掘原型系統(tǒng)各功能分析的基礎(chǔ)上,設(shè)計(jì)少數(shù)民族數(shù)據(jù)挖掘平臺,采用B/S結(jié)構(gòu)的方式設(shè)計(jì)并實(shí)現(xiàn)了數(shù)據(jù)采集,數(shù)據(jù)處理和數(shù)據(jù)分析等功能。
【圖文】:

生態(tài)系統(tǒng)


Spark 運(yùn)行框架rk 相對于 MapReduce 的優(yōu)勢不僅體現(xiàn)在基于內(nèi)存的性能上,更架集成了更多的子項(xiàng)目[56],包括Spark SQL(交互式操作)、Spark )、MachineLearning lib(機(jī)器學(xué)習(xí)庫)、Graphx(并行圖計(jì)算庫)。S圖 2.2 所示:rk 的核心是其計(jì)算邏輯,提供了多種組件,運(yùn)行在通用平臺上SparkSQL 可實(shí)現(xiàn)對數(shù)據(jù)庫的操作,主要分 3 步處理;第一步 DataFrame 中提供的方法存儲在內(nèi)存中,它支持多種格式的數(shù)用 SQLContext 類;第二步數(shù)據(jù)處理可以實(shí)現(xiàn)各種算法,主ntext 類,完成 hive 數(shù)據(jù)庫的操作;第三步結(jié)果輸入是把計(jì)算的部存儲文件。Machine Learnig lib 是常用機(jī)器學(xué)習(xí)庫的算法實(shí)現(xiàn)ng 會不斷接收從接收器發(fā)送來的數(shù)據(jù)流,把時(shí)間片內(nèi)的數(shù)據(jù)打包

高層調(diào)度,分配程序,進(jìn)程,任務(wù)組


圖 2.3 Spark運(yùn)行模式riverProgram 是 Spark 的一個(gè)應(yīng)用程序,負(fù)責(zé)對整個(gè)集群的監(jiān)控,節(jié)點(diǎn);它通過 SparkContext 來連接整個(gè)集群,包含 main 函數(shù),是操作的接口。ClusterManager 負(fù)責(zé)分配程序運(yùn)行所需要的資源和保正常運(yùn)行;Worker 是集群的計(jì)算節(jié)點(diǎn),存在于每個(gè) Slave 中,rManager 的命令,并以周期性的心跳機(jī)制向 ClusterManager 匯報(bào)集。每個(gè) Worker 可以單獨(dú)的運(yùn)行,,接收到一個(gè)作業(yè),將其劃分為多個(gè)Executor 進(jìn)程進(jìn)行計(jì)算或者數(shù)據(jù)的存儲。DriverProgram 創(chuàng)建進(jìn)程時(shí) DAGScheduler 和 TaskScheduler;DAGScheduler 屬于高層調(diào)度模ffle 將作業(yè)劃分為不同的 Stage,同時(shí)會根據(jù) Partition 構(gòu)造每個(gè) Sta任務(wù),然后以任務(wù)組的形式交由 TaskScheduler 具體執(zhí)行。2.5 YARN 資源管理器
【學(xué)位授予單位】:云南師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:G122;TP311.13

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 董春濤;李文婷;沈晴霓;吳中海;;Hadoop YARN大數(shù)據(jù)計(jì)算框架及其資源調(diào)度機(jī)制研究[J];信息通信技術(shù);2015年01期

2 黃永林;;數(shù)字化背景下非物質(zhì)文化遺產(chǎn)的保護(hù)與利用[J];文化遺產(chǎn);2015年01期

3 林樂波;陳魯峰;;網(wǎng)絡(luò)教研:引領(lǐng)教研的“新引擎”[J];基礎(chǔ)教育參考;2013年24期

4 劉鵬;孟炎;吳艷艷;宋丹娃;;聚類分析和孤立點(diǎn)技術(shù)在網(wǎng)絡(luò)安全態(tài)勢中的應(yīng)用[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2013年03期

5 饒君;吳斌;東昱曉;;MapReduce環(huán)境下的并行復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測[J];軟件學(xué)報(bào);2012年12期

6 李宗天;;淺談如何保護(hù)和傳承朝鮮族傳統(tǒng)音樂文化[J];品牌(理論月刊);2010年11期

7 華銓平;;面向數(shù)據(jù)特征的分布式數(shù)據(jù)挖掘研究[J];計(jì)算機(jī)工程與設(shè)計(jì);2010年06期

8 王沁;李磊;陸成勇;孫富明;;平均計(jì)算時(shí)間復(fù)雜度優(yōu)化的動態(tài)粒子群優(yōu)化算法[J];計(jì)算機(jī)科學(xué);2010年03期

9 王月;柴瑞敏;;減聚類的模糊C-均值算法在文本分類中的應(yīng)用[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2010年03期

10 吳建平;王耀希;代紅兵;;文化遺產(chǎn)數(shù)字化應(yīng)用平臺的技術(shù)構(gòu)建[J];計(jì)算機(jī)應(yīng)用研究;2006年08期

相關(guān)博士學(xué)位論文 前4條

1 衛(wèi)守林;分布式天文海量數(shù)據(jù)處理與控制研究[D];中國科學(xué)院大學(xué)(中國科學(xué)院云南天文臺);2017年

2 黃家周;文化建設(shè)視域下民族地區(qū)馬克思主義大眾化的路徑研究[D];西南交通大學(xué);2015年

3 王銳;數(shù)字博物館資源虛擬化與數(shù)據(jù)集成方法研究[D];山東大學(xué);2010年

4 李明;智能優(yōu)化排樣技術(shù)研究[D];浙江大學(xué);2006年

相關(guān)碩士學(xué)位論文 前10條

1 趙海燕;基于卷積神經(jīng)網(wǎng)絡(luò)的民族服飾圖像教育資源檢索研究[D];云南師范大學(xué);2018年

2 韓浩;基于云計(jì)算的釣魚網(wǎng)站檢測研究[D];中國礦業(yè)大學(xué);2018年

3 鄧家璧;模擬移動床分離過程的控制與優(yōu)化方法研究[D];沈陽化工大學(xué);2018年

4 錢雅倫;基于智能算法的配電網(wǎng)故障自愈方法研究[D];華北電力大學(xué);2018年

5 馮亮亮;基于Hadoop的MapReduce性能優(yōu)化研究[D];南京郵電大學(xué);2017年

6 陳萌;分布式視頻快速識別分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];西安電子科技大學(xué);2017年

7 何亞南;基于時(shí)序動態(tài)描述邏輯的民族文化資源知識表示形式化模型研究[D];云南師范大學(xué);2017年

8 吳稀鈺;基于Spark的譜聚類算法及其在QAR數(shù)據(jù)中的應(yīng)用[D];中國民航大學(xué);2017年

9 劉四平;多源數(shù)據(jù)融合的協(xié)同過濾算法研究[D];湖南大學(xué);2017年

10 陳慧麗;云計(jì)算環(huán)境下靜態(tài)任務(wù)調(diào)度機(jī)制研究[D];武漢理工大學(xué);2017年



本文編號:2697501

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shekelunwen/wenhuayichanlunwen/2697501.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8ad29***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com