SparkCRF:一種基于Spark的并行CRFs算法實(shí)現(xiàn)
本文關(guān)鍵詞:SparkCRF:一種基于Spark的并行CRFs算法實(shí)現(xiàn)
更多相關(guān)文章: 大數(shù)據(jù) 機(jī)器學(xué)習(xí) 分布式計(jì)算 Spark 條件隨機(jī)場(chǎng)
【摘要】:條件隨機(jī)場(chǎng)(condition random fields,CRFs)可用于解決各種文本分析問題,如自然語(yǔ)言處理(natural language processing,NLP)中的序列標(biāo)記、中文分詞、命名實(shí)體識(shí)別、實(shí)體間關(guān)系抽取等.傳統(tǒng)的運(yùn)行在單節(jié)點(diǎn)上的條件隨機(jī)場(chǎng)在處理大規(guī)模文本時(shí),面臨一系列挑戰(zhàn).一方面,個(gè)人計(jì)算機(jī)遇到處理的瓶頸從而難以勝任;另一方面,服務(wù)器執(zhí)行效率較低.而通過升級(jí)服務(wù)器的硬件配置來提高其計(jì)算能力的方法,在處理大規(guī)模的文本分析任務(wù)時(shí),終究不能從根本上解決問題.為此,采用"分而治之"的思想,基于Apache Spark的大數(shù)據(jù)處理框架設(shè)計(jì)并實(shí)現(xiàn)了運(yùn)行在集群環(huán)境下的分布式CRFs——SparkCRF.實(shí)驗(yàn)表明,SparkCRF在文本分析任務(wù)中,具有高效的計(jì)算能力和較好的擴(kuò)展性,并且具有與傳統(tǒng)的單節(jié)點(diǎn)CRF++相同水平的準(zhǔn)確率.
【作者單位】: 東北大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院;中國(guó)科學(xué)院計(jì)算技術(shù)研究所網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室;
【關(guān)鍵詞】: 大數(shù)據(jù) 機(jī)器學(xué)習(xí) 分布式計(jì)算 Spark 條件隨機(jī)場(chǎng)
【基金】:國(guó)家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃基金項(xiàng)目(2014CB340405,2013CB329602) 國(guó)家重點(diǎn)研發(fā)計(jì)劃基金項(xiàng)目(2016YFB1000902) 國(guó)家自然科學(xué)基金項(xiàng)目(61173008,61232010,61272177,61303244,61402442) 北京市自然科學(xué)基金項(xiàng)目(4154086)~~
【分類號(hào)】:TP391.1
【正文快照】:
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 宗萍;施水才;王濤;呂學(xué)強(qiáng);;基于條件隨機(jī)場(chǎng)的英文地理行政實(shí)體識(shí)別[J];現(xiàn)代圖書情報(bào)技術(shù);2009年02期
2 張開旭;夏云慶;宇航;;基于條件隨機(jī)場(chǎng)的古漢語(yǔ)自動(dòng)斷句與標(biāo)點(diǎn)方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年10期
3 成姣;蔡?hào)|風(fēng);季鐸;;基于條件隨機(jī)場(chǎng)的日語(yǔ)依存分析[J];沈陽(yáng)航空工業(yè)學(xué)院學(xué)報(bào);2010年05期
4 李玲玲;金泰松;李翠華;;基于局部特征和隱條件隨機(jī)場(chǎng)的場(chǎng)景分類方法[J];北京理工大學(xué)學(xué)報(bào);2012年07期
5 寧偉;蔡?hào)|風(fēng);張桂平;季鐸;苗雪雷;;基于條件隨機(jī)場(chǎng)的冠詞選擇研究[J];中文信息學(xué)報(bào);2008年06期
6 張玉芳;莫凌琳;熊忠陽(yáng);耿曉斐;;基于條件隨機(jī)場(chǎng)的科研論文信息分層抽取[J];計(jì)算機(jī)應(yīng)用研究;2009年10期
7 王昌厚;;基于條件隨機(jī)場(chǎng)的中文命名體識(shí)別[J];福建電腦;2012年02期
8 施水才;王鍇;韓艷鏵;呂學(xué)強(qiáng);;基于條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別研究[J];計(jì)算機(jī)工程與應(yīng)用;2013年10期
9 王東波;陳小荷;年洪東;;基于條件隨機(jī)場(chǎng)的有標(biāo)記聯(lián)合結(jié)構(gòu)自動(dòng)識(shí)別[J];中文信息學(xué)報(bào);2008年06期
10 方瑩;;基于條件隨機(jī)場(chǎng)的英文農(nóng)產(chǎn)品名識(shí)別[J];河南科學(xué);2011年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前5條
1 王東波;陳小荷;年洪東;;基于條件隨機(jī)場(chǎng)的有標(biāo)記聯(lián)合結(jié)構(gòu)自動(dòng)識(shí)別[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
2 張奇;翁富良;黃萱菁;吳立德;;英文口語(yǔ)中非流利區(qū)域的檢測(cè)[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
3 魏瑋;杜金華;徐波;;基于分層語(yǔ)塊分析的統(tǒng)計(jì)翻譯研究[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
4 王根;趙軍;;基于多重冗余標(biāo)記CRF的句子情感分析研究[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
5 寧偉;蔡?hào)|風(fēng);季鐸;;基于條件隨機(jī)場(chǎng)的冠詞選擇研究[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 熊英;中文自然語(yǔ)言理解中基于條件隨機(jī)場(chǎng)理論的詞法分析研究[D];上海交通大學(xué);2009年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 趙九洋;圖像中行人檢測(cè)關(guān)鍵技術(shù)研究[D];南京大學(xué);2015年
2 寧振;基于層疊條件隨機(jī)場(chǎng)的情感分析[D];南昌大學(xué);2015年
3 楊獻(xiàn)祥;面向中文微博的產(chǎn)品名實(shí)體識(shí)別與規(guī)范化算法設(shè)計(jì)與實(shí)現(xiàn)[D];北京理工大學(xué);2015年
4 肖s,
本文編號(hào):664281
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/664281.html