天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于Spark的大規(guī)模文本k-means并行聚類算法

發(fā)布時(shí)間:2018-02-24 17:47

  本文關(guān)鍵詞: k-means 并行化 文本聚類 Spark RDD Hadoop MapReduce 出處:《中文信息學(xué)報(bào)》2017年04期  論文類型:期刊論文


【摘要】:互聯(lián)網(wǎng)文本數(shù)據(jù)量的激增使得對(duì)其作聚類運(yùn)算的處理時(shí)間顯著加長(zhǎng),雖有研究者利用Hadoop架構(gòu)進(jìn)行了k-means并行化研究,但由于很難有效滿足k-means需要頻繁迭代的特點(diǎn),因此執(zhí)行效率仍然不能讓人滿意。該文研究提出了基于新一代并行計(jì)算系統(tǒng)Spark的k-means文本聚類并行化算法,利用RDD編程模型充分滿足了kmeans頻繁迭代運(yùn)算的需求。實(shí)驗(yàn)結(jié)果表明,針對(duì)同一聚類文本大數(shù)據(jù)集和同樣的計(jì)算環(huán)境,基于Spark的kmeans文本聚類并行算法在加速比、擴(kuò)展性等主要性能指標(biāo)上明顯優(yōu)于基于Hadoop的實(shí)現(xiàn),因此能更好地滿足大規(guī)模文本數(shù)據(jù)挖掘算法的需求。
[Abstract]:Because of the rapid increase of Internet text data volume, the processing time of clustering operation is significantly longer. Although some researchers use the Hadoop architecture to study k-means parallelization, it is difficult to effectively meet the needs of k-means frequent iterations. Therefore, the execution efficiency is still not satisfactory. In this paper, a k-means text clustering parallelization algorithm based on a new generation of parallel computing system Spark is proposed, and the RDD programming model is used to fully meet the needs of frequent iterations of kmeans. The experimental results show that, For the same clustering text big data set and the same computing environment, the kmeans text clustering parallel algorithm based on Spark is obviously superior to the implementation based on Hadoop in speedup, expansibility and other main performance indexes. Therefore, it can better meet the needs of large-scale text data mining algorithms.
【作者單位】: 中國(guó)礦業(yè)大學(xué)物聯(lián)網(wǎng)(感知礦山)研究中心;礦山互聯(lián)網(wǎng)應(yīng)用技術(shù)國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室;中國(guó)礦業(yè)大學(xué)信息與電氣工程學(xué)院;
【基金】:國(guó)家自然科學(xué)基金(41302203)
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 林春燕,朱東華;一種快速的文本聚類-分類法[J];計(jì)算機(jī)工程與科學(xué);2004年07期

2 趙亞琴;周獻(xiàn)中;;一種基于小生境遺傳算法的中文文本聚類新方法[J];計(jì)算機(jī)工程;2006年06期

3 劉務(wù)華;羅鐵堅(jiān);王文杰;;文本聚類技術(shù)的有效性驗(yàn)證[J];計(jì)算機(jī)工程;2007年01期

4 丁X;許侃;;基于文本聚類方法的我國(guó)科技管理研究領(lǐng)域的計(jì)量研究[J];科學(xué)學(xué)研究;2007年S1期

5 孫愛香;楊鑫華;;關(guān)于文本聚類有效性評(píng)價(jià)的研究[J];山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年05期

6 丘志宏;宮雷光;;利用上下文提高文本聚類的效果[J];中文信息學(xué)報(bào);2007年06期

7 吳啟明;易云飛;;文本聚類綜述[J];河池學(xué)院學(xué)報(bào);2008年02期

8 李江華;楊書新;劉利峰;;基于概念格的文本聚類[J];計(jì)算機(jī)應(yīng)用;2008年09期

9 趙文鵬;;淺談文本聚類研究[J];企業(yè)家天地下半月刊(理論版);2009年02期

10 章成志;;文本聚類結(jié)果描述研究綜述[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期

相關(guān)會(huì)議論文 前10條

1 趙世奇;劉挺;李生;;一種基于主題的文本聚類方法[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

2 王洪俊;俞士汶;蘇祺;施水才;肖詩(shī)斌;;中文文本聚類的特征單元比較[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

3 胡吉祥;許洪波;劉悅;王斌;程學(xué)旗;;基于重復(fù)串的短文本聚類研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

4 白剛;張錚;丁宗堯;朱毅;;中文文本聚類在互聯(lián)網(wǎng)搜索的研究與應(yīng)用[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 張猛;王大玲;于戈;;一種基于自動(dòng)閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

6 王樂;田李;賈焰;韓偉紅;;一個(gè)并行的文本聚類混合算法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年

7 章成志;;基于多語(yǔ)文本聚類的主題層次體系生成研究1)[A];國(guó)家自然科學(xué)基金委員會(huì)管理科學(xué)部宏觀管理與政策學(xué)科青年基金獲得者交流研討會(huì)論文集[C];2010年

8 邱立坤;程葳;龍志yN;孫嬌華;;面向BBS的話題挖掘初探[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

9 羅娜;左萬(wàn)利;袁福宇;張靖波;張慧杰;;使用本體語(yǔ)義提高文本聚類(英文)[A];全國(guó)語(yǔ)域web與本體能研討會(huì)論文集[C];2006年

10 孫承杰;朱文煥;林磊;劉遠(yuǎn)超;;BBS短文本聚類技術(shù)研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

相關(guān)博士學(xué)位論文 前3條

1 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

2 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年

3 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 康健;基于Multi-agent和群體智能的藏文網(wǎng)絡(luò)輿情管理研究[D];西南交通大學(xué);2015年

2 張培偉;基于改進(jìn)Single-Pass算法的熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中師范大學(xué);2015年

3 郭士串;結(jié)合權(quán)重因子與特征向量的文本聚類研究與應(yīng)用[D];江西理工大學(xué);2015年

4 邵明來(lái);中文文本聚類關(guān)鍵技術(shù)研究[D];廣西大學(xué);2015年

5 王恒靜;基于詞類和搭配的微博輿情文本聚類方法研究[D];江蘇科技大學(xué);2015年

6 吳潔潔;基于RI方法的文本聚類研究[D];南昌大學(xué);2015年

7 樊兆欣;個(gè)性化新聞推薦系統(tǒng)關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];北京理工大學(xué);2015年

8 蘇圣瞳;微博熱點(diǎn)話題發(fā)現(xiàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];復(fù)旦大學(xué);2014年

9 孫東普;融合屬性抽取的多粒度專利文本聚類研究[D];大連理工大學(xué);2015年

10 李蕓;基于爬蟲和文本聚類分析的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年

,

本文編號(hào):1531160

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1531160.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶18f4c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
99久热只有精品视频最新| 亚洲天堂精品1024| 国产精品午夜福利在线观看| 一区中文字幕人妻少妇| 亚洲天堂精品在线视频| 欧美日韩一级黄片免费观看| 99久久精品午夜一区二| 午夜视频成人在线观看| 日本精品最新字幕视频播放| 免费在线观看欧美喷水黄片| a久久天堂国产毛片精品| 国产成人高清精品尤物| 欧美日韩精品久久第一页| 国产内射一级一片内射高清视频| 大香蕉伊人一区二区三区| 亚洲av一区二区三区精品| 日韩成人h视频在线观看| 日韩国产传媒在线精品| 欧美午夜色视频国产精品| 亚洲午夜福利视频在线| 成年人视频日本大香蕉久久| 国产毛片不卡视频在线| 国产精品一区二区三区激情| 欧洲一区二区三区自拍天堂| 国产香蕉国产精品偷在线观看| 欧美视频在线观看一区| 亚洲欧美日本成人在线| 亚洲欧美中文字幕精品| 99香蕉精品视频国产版| 亚洲熟女少妇精品一区二区三区| 欧美日韩亚洲综合国产人| 伊人久久五月天综合网| 老熟妇2久久国内精品| 国产不卡免费高清视频| 日本和亚洲的香蕉视频| 一区二区免费视频中文乱码国产| 日韩午夜老司机免费视频| 男女午夜视频在线观看免费| 午夜国产精品福利在线观看| 在线日韩欧美国产自拍| 日本精品视频一二三区|