基于統(tǒng)計(jì)學(xué)方法的朝鮮語(yǔ)大數(shù)據(jù)文本挖掘研究
發(fā)布時(shí)間:2021-04-09 16:40
我們現(xiàn)在所生活的是高速運(yùn)行、時(shí)刻在向前發(fā)展的社會(huì)環(huán)境,科技的不斷創(chuàng)新將我們帶進(jìn)了一個(gè)全新的大數(shù)據(jù)時(shí)代,發(fā)達(dá)的科技不僅僅日益豐富著人們的生活樂(lè)趣,同時(shí)將人們之間的關(guān)系進(jìn)行了還原,心與心的距離縮小了,更重要的是改變了人們的溝通方式。大數(shù)據(jù)作為現(xiàn)代科技環(huán)境的中心,是一種極其重要的資源,大數(shù)據(jù)顧名思義當(dāng)然是數(shù)據(jù)量“巨大”,但真正的價(jià)值不是它的大,而是它內(nèi)在所包含的信息,那些可以被有效利用起來(lái)的信息,使之逐漸變成有意義的時(shí)代產(chǎn)物。如何發(fā)現(xiàn)這些信息是有價(jià)值的可以被人們使用的呢?那么就要通過(guò)文本挖掘技術(shù)來(lái)探究,文本挖掘是由機(jī)器學(xué)習(xí)、并行計(jì)算、統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘、自然語(yǔ)言處理、概率、圖論等各個(gè)學(xué)科相互融合的,涵蓋著以上學(xué)科的精華,基于此就是文本挖掘被許多學(xué)者和專家進(jìn)行研究的原因所在,融合了多種學(xué)科和技術(shù),不存在明顯的學(xué)術(shù)限制,可以使得各個(gè)領(lǐng)域的學(xué)者進(jìn)行交流合作與探討。由于朝鮮長(zhǎng)期實(shí)行信息的封閉政策,官方的各種統(tǒng)計(jì)數(shù)據(jù)都零散的存在于各類文獻(xiàn)資料或是新聞報(bào)道中,這給朝鮮半島問(wèn)題的系統(tǒng)研究帶來(lái)了諸多不便,基于統(tǒng)計(jì)學(xué)方法的朝鮮語(yǔ)大數(shù)據(jù)文本挖掘研究就是要解決此類問(wèn)題。本研究選取的新聞數(shù)據(jù)共計(jì)約500萬(wàn)條,其中朝鮮...
【文章來(lái)源】:延邊大學(xué)吉林省 211工程院校
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3.1?KPID大數(shù)據(jù)平臺(tái)部署設(shè)計(jì)??
?+??大數(shù)據(jù)平臺(tái)部署設(shè)計(jì)如下:??圖3.1?KPID大數(shù)據(jù)平臺(tái)部署設(shè)計(jì)??Transwarp?Data?Hub是一個(gè)集技術(shù)與性能于一身的高層次平臺(tái),成為截止目??前被應(yīng)用的最多的版本,是能夠支持Spark的Hadoop發(fā)行版的平臺(tái),速度超越??了開(kāi)源Had〇〇p2的版本。該數(shù)據(jù)分析平臺(tái)融合了內(nèi)存計(jì)算技術(shù),可以處理海量的??數(shù)據(jù),并且含有高效索引的技術(shù),波及的程度是任意規(guī)模的企業(yè),數(shù)據(jù)量的覆蓋??率很高。同時(shí)平臺(tái)可以不斷地進(jìn)行擴(kuò)容操作,在不停機(jī)的狀態(tài)下,可以無(wú)懼?jǐn)?shù)據(jù)??的增長(zhǎng),更為可觀的優(yōu)勢(shì)是所具備的性能是目前為止最高的。??Transwarp大數(shù)據(jù)綜合平臺(tái)包含的最為重要組成部分是Discover數(shù)據(jù)挖掘機(jī)??器學(xué)習(xí)組件,這里需要重點(diǎn)介紹該組件,能夠成為大數(shù)據(jù)挖掘領(lǐng)域的代表技術(shù),??是因?yàn)榫哂兄浅8叩母采w率
?DataNode??Q?Replication?^||?Replication??圖3.?2?HDFS副本機(jī)制配置??當(dāng)要面臨一個(gè)龐大的數(shù)據(jù)時(shí),會(huì)將文件進(jìn)行拆分,然后分散在各個(gè)服務(wù)器之??中,以此增加龐大文件的訪問(wèn)寬度,這是由于系統(tǒng)能夠進(jìn)行并行讀入步驟,而且??是并行的從多個(gè)服務(wù)器中同時(shí)讀入。Name?Node服務(wù)器的DataNode是用來(lái)儲(chǔ)存??HDFS文件的數(shù)據(jù)塊,不用配合人工維護(hù)和干預(yù)就可以對(duì)系統(tǒng)的容量進(jìn)行擴(kuò)充操??20??
本文編號(hào):3127961
【文章來(lái)源】:延邊大學(xué)吉林省 211工程院校
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3.1?KPID大數(shù)據(jù)平臺(tái)部署設(shè)計(jì)??
?+??大數(shù)據(jù)平臺(tái)部署設(shè)計(jì)如下:??圖3.1?KPID大數(shù)據(jù)平臺(tái)部署設(shè)計(jì)??Transwarp?Data?Hub是一個(gè)集技術(shù)與性能于一身的高層次平臺(tái),成為截止目??前被應(yīng)用的最多的版本,是能夠支持Spark的Hadoop發(fā)行版的平臺(tái),速度超越??了開(kāi)源Had〇〇p2的版本。該數(shù)據(jù)分析平臺(tái)融合了內(nèi)存計(jì)算技術(shù),可以處理海量的??數(shù)據(jù),并且含有高效索引的技術(shù),波及的程度是任意規(guī)模的企業(yè),數(shù)據(jù)量的覆蓋??率很高。同時(shí)平臺(tái)可以不斷地進(jìn)行擴(kuò)容操作,在不停機(jī)的狀態(tài)下,可以無(wú)懼?jǐn)?shù)據(jù)??的增長(zhǎng),更為可觀的優(yōu)勢(shì)是所具備的性能是目前為止最高的。??Transwarp大數(shù)據(jù)綜合平臺(tái)包含的最為重要組成部分是Discover數(shù)據(jù)挖掘機(jī)??器學(xué)習(xí)組件,這里需要重點(diǎn)介紹該組件,能夠成為大數(shù)據(jù)挖掘領(lǐng)域的代表技術(shù),??是因?yàn)榫哂兄浅8叩母采w率
?DataNode??Q?Replication?^||?Replication??圖3.?2?HDFS副本機(jī)制配置??當(dāng)要面臨一個(gè)龐大的數(shù)據(jù)時(shí),會(huì)將文件進(jìn)行拆分,然后分散在各個(gè)服務(wù)器之??中,以此增加龐大文件的訪問(wèn)寬度,這是由于系統(tǒng)能夠進(jìn)行并行讀入步驟,而且??是并行的從多個(gè)服務(wù)器中同時(shí)讀入。Name?Node服務(wù)器的DataNode是用來(lái)儲(chǔ)存??HDFS文件的數(shù)據(jù)塊,不用配合人工維護(hù)和干預(yù)就可以對(duì)系統(tǒng)的容量進(jìn)行擴(kuò)充操??20??
本文編號(hào):3127961
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3127961.html
最近更新
教材專著