氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)
發(fā)布時間:2020-05-25 20:20
【摘要】:隨著社會的發(fā)展,信息呈現(xiàn)爆炸式的增長。在氣象行業(yè),全國34個省、直轄市、自治區(qū)、特別行政區(qū)以及各大中型主要城市共建有氣象服務(wù)網(wǎng)站1200多個,包含的氣象文本量巨大,如何從大量文本數(shù)據(jù)中采集到有用信息,成為研究熱點。文本分類技術(shù)可以從大量文檔中提取相關(guān)時效性信息,是實現(xiàn)從大量氣象文本中提取相關(guān)信息的一項關(guān)鍵技術(shù);而文本分類中,特征選擇則是解決由高術(shù)語維度造成的高計算復(fù)雜度和低精度問題的核心技術(shù)。因此,本文由此為切入點,針對經(jīng)典算法缺少對術(shù)語頻率和術(shù)語分布貢獻(xiàn)度的綜合衡量,提出了基于卡方統(tǒng)計的特征選擇改進(jìn)算法,并在氣象文本數(shù)據(jù)集和經(jīng)典文本分類數(shù)據(jù)集中驗證了有效性;同時針對文本信息數(shù)據(jù)量大,單機(jī)執(zhí)行時間漫長的不足,提出了基于MapReduce并行計算框架的氣象文本分類實現(xiàn)方法,通過實驗驗證了分布式并行計算在氣象文本數(shù)據(jù)集效率上的提高。本文具體完成了以下工作:(1)提出基于術(shù)語頻率和術(shù)語分布的卡方統(tǒng)計改進(jìn)方法(Term Frequency and Distribution based CHI, TFDCHI)。本文在學(xué)習(xí)特征選擇經(jīng)典方法原理,分析算法不足之后,提出了基于傳統(tǒng)卡方統(tǒng)計的改進(jìn)算法。改進(jìn)算法用樣本方差來計算術(shù)語分布度,并結(jié)合最大術(shù)語頻率修正卡方統(tǒng)計評估函數(shù)。該算法將同時考慮術(shù)語頻率和術(shù)語分布對特征詞選擇的綜合貢獻(xiàn)度。通過在氣象文本數(shù)據(jù)集和經(jīng)典文本分類數(shù)據(jù)集中的實驗,驗證了本方法在分類效果上的提高。(2)設(shè)計實現(xiàn)了基于MapReduce的氣象文本分類方法。本文基于MapReduce并行計算框架,依托開源平臺Hadoop,對氣象文本分類進(jìn)行并行化處理。本文提出的方法不僅僅是對分類算法的并行化實現(xiàn),還包含了氣象文本預(yù)處理、TFDCHI算法、文本表示階段的分布式并行計算方案,盡可能的分隔計算任務(wù),并行執(zhí)行。通過實驗比較,驗證了分布式并行處理方法在分類效率上的提高。(3)通過氣象文本采集系統(tǒng),采集中國氣象局氣象服務(wù)網(wǎng)站、全國各大省級氣象局和市縣級氣象局氣象服務(wù)網(wǎng)、氣象相關(guān)網(wǎng)站論壇微博等多個網(wǎng)站中的文本信息,并對采集到的文本信息進(jìn)行預(yù)處理,分析數(shù)據(jù)集結(jié)構(gòu),形成便于分類的氣象文本數(shù)據(jù)集。
【學(xué)位授予單位】:南京信息工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:P409;TP391.1
本文編號:2680697
【學(xué)位授予單位】:南京信息工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:P409;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 吳應(yīng)良,韋崗,李海洲;一種基于N-gram模型和機(jī)器學(xué)習(xí)的漢語分詞算法[J];電子與信息學(xué)報;2001年11期
2 馬暉男;吳江寧;潘東華;;一種修正的向量空間模型在信息檢索中的應(yīng)用[J];哈爾濱工業(yè)大學(xué)學(xué)報;2008年04期
3 宋彥;蔡東風(fēng);張桂平;趙海;;一種基于字詞聯(lián)合解碼的中文分詞方法[J];軟件學(xué)報;2009年09期
4 Lin Feng;Jing Wang;Shenglan Liu;Yao Xiao;;Multi-label dimensionality reduction and classification with extreme learning machines[J];Journal of Systems Engineering and Electronics;2014年03期
相關(guān)博士學(xué)位論文 前1條
1 譚松波;高性能文本分類算法研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2006年
,本文編號:2680697
本文鏈接:http://sikaile.net/projectlw/qxxlw/2680697.html
最近更新
教材專著