基于Hadoop的CM-Selection文本分類系統(tǒng)的技術(shù)研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-03-12 21:37
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)信息呈現(xiàn)出爆發(fā)式增長(zhǎng)。大量的廣告信息、有害信息以及無用的垃圾信息也隨之摻雜在巨大的數(shù)據(jù)流量之中,使得人們通過網(wǎng)絡(luò)輕松獲取可用信息的方式變得越來越難,網(wǎng)絡(luò)體驗(yàn)越來越差。為了提高獲取可用信息的速度,很多學(xué)者進(jìn)行了大量的研究,采取了很多卓有成效的辦法,文本分類技術(shù)就是其中的一個(gè)重要的手段。目前,常用的文本分類方法是基于有監(jiān)督學(xué)習(xí)算法提供的分類功能,其面對(duì)海量數(shù)據(jù),具有分類速度慢、準(zhǔn)確率低、分類功能單一的問題。針對(duì)這一亟待解決的問題,本文提出CTF(Chinese Text Fast,快速中文文本)分類算法、HA-SVM(High Accuracy Support Vector Machine,高準(zhǔn)確度支持向量機(jī))分類算法和CMSelection(Chinese Multiple Selection,中文多選擇)文本分類系統(tǒng)。論文主要工作如下:(1)依據(jù)文本標(biāo)題代表文本類別這一特點(diǎn),利用分詞、去停用詞、Word2Vec模型訓(xùn)練、類別隊(duì)列等技術(shù)提出CTF分類算法。該算法是一種快速分類算法,能夠滿足快速分類需求,可以在時(shí)間復(fù)雜度為O(n)的情況下完成分類,還可以將分類...
【文章來源】:武漢郵電科學(xué)研究院湖北省
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
NameNode運(yùn)行原理圖
MapReduce工作流程圖
MapReduce簡(jiǎn)單流程圖
【參考文獻(xiàn)】:
期刊論文
[1]基于云計(jì)算的Web數(shù)據(jù)挖掘Hadoop仿真平臺(tái)研究[J]. 王勃,徐靜. 電子設(shè)計(jì)工程. 2018(02)
[2]基于特征詞向量的短文本聚類算法[J]. 劉欣,佘賢棟,唐永旺,王波. 數(shù)據(jù)采集與處理. 2017(05)
[3]二次約束下的邊界約束非凸二次規(guī)劃問題的最優(yōu)化算法[J]. 韓艷娜,黃杰英. 科技通報(bào). 2017(05)
[4]中文自然語言處理與計(jì)算機(jī)的結(jié)合問題研究[J]. 鐘磊. 數(shù)字技術(shù)與應(yīng)用. 2017(02)
[5]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇. 信息網(wǎng)絡(luò)安全. 2017(01)
[6]基于SVM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張昭楠. 電子設(shè)計(jì)工程. 2016(16)
[7]基于WordNet的語義相似度算法改進(jìn)研究[J]. 沈國祥. 軟件導(dǎo)刊. 2016(05)
[8]中文維基百科的實(shí)體分類研究[J]. 徐志浩,惠浩添,錢龍華,朱巧明. 中文信息學(xué)報(bào). 2015(05)
[9]SVM核函數(shù)與選擇算法[J]. 趙丹. 數(shù)字技術(shù)與應(yīng)用. 2014(09)
[10]改進(jìn)的基于平衡二叉決策樹的SVM多分類算法[J]. 林志杰,余春艷. 小型微型計(jì)算機(jī)系統(tǒng). 2014(05)
碩士論文
[1]短文本相似度的關(guān)鍵技術(shù)研究[D]. 劉令強(qiáng).廣西師范大學(xué) 2016
[2]基于數(shù)據(jù)關(guān)系的SVM多分類方法研究[D]. 梁志.山西大學(xué) 2013
[3]開源中文分詞器的比較研究[D]. 黃翼彪.鄭州大學(xué) 2013
[4]關(guān)于凸二次規(guī)劃若干算法的研究[D]. 王建芳.大連海事大學(xué) 2008
本文編號(hào):3079021
【文章來源】:武漢郵電科學(xué)研究院湖北省
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
NameNode運(yùn)行原理圖
MapReduce工作流程圖
MapReduce簡(jiǎn)單流程圖
【參考文獻(xiàn)】:
期刊論文
[1]基于云計(jì)算的Web數(shù)據(jù)挖掘Hadoop仿真平臺(tái)研究[J]. 王勃,徐靜. 電子設(shè)計(jì)工程. 2018(02)
[2]基于特征詞向量的短文本聚類算法[J]. 劉欣,佘賢棟,唐永旺,王波. 數(shù)據(jù)采集與處理. 2017(05)
[3]二次約束下的邊界約束非凸二次規(guī)劃問題的最優(yōu)化算法[J]. 韓艷娜,黃杰英. 科技通報(bào). 2017(05)
[4]中文自然語言處理與計(jì)算機(jī)的結(jié)合問題研究[J]. 鐘磊. 數(shù)字技術(shù)與應(yīng)用. 2017(02)
[5]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇. 信息網(wǎng)絡(luò)安全. 2017(01)
[6]基于SVM的中文文本分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張昭楠. 電子設(shè)計(jì)工程. 2016(16)
[7]基于WordNet的語義相似度算法改進(jìn)研究[J]. 沈國祥. 軟件導(dǎo)刊. 2016(05)
[8]中文維基百科的實(shí)體分類研究[J]. 徐志浩,惠浩添,錢龍華,朱巧明. 中文信息學(xué)報(bào). 2015(05)
[9]SVM核函數(shù)與選擇算法[J]. 趙丹. 數(shù)字技術(shù)與應(yīng)用. 2014(09)
[10]改進(jìn)的基于平衡二叉決策樹的SVM多分類算法[J]. 林志杰,余春艷. 小型微型計(jì)算機(jī)系統(tǒng). 2014(05)
碩士論文
[1]短文本相似度的關(guān)鍵技術(shù)研究[D]. 劉令強(qiáng).廣西師范大學(xué) 2016
[2]基于數(shù)據(jù)關(guān)系的SVM多分類方法研究[D]. 梁志.山西大學(xué) 2013
[3]開源中文分詞器的比較研究[D]. 黃翼彪.鄭州大學(xué) 2013
[4]關(guān)于凸二次規(guī)劃若干算法的研究[D]. 王建芳.大連海事大學(xué) 2008
本文編號(hào):3079021
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3079021.html
最近更新
教材專著