基于Hadoop的CM-Selection文本分類系統(tǒng)的技術研究與實現(xiàn)
發(fā)布時間:2021-03-12 21:37
隨著互聯(lián)網(wǎng)技術的快速發(fā)展,網(wǎng)絡信息呈現(xiàn)出爆發(fā)式增長。大量的廣告信息、有害信息以及無用的垃圾信息也隨之摻雜在巨大的數(shù)據(jù)流量之中,使得人們通過網(wǎng)絡輕松獲取可用信息的方式變得越來越難,網(wǎng)絡體驗越來越差。為了提高獲取可用信息的速度,很多學者進行了大量的研究,采取了很多卓有成效的辦法,文本分類技術就是其中的一個重要的手段。目前,常用的文本分類方法是基于有監(jiān)督學習算法提供的分類功能,其面對海量數(shù)據(jù),具有分類速度慢、準確率低、分類功能單一的問題。針對這一亟待解決的問題,本文提出CTF(Chinese Text Fast,快速中文文本)分類算法、HA-SVM(High Accuracy Support Vector Machine,高準確度支持向量機)分類算法和CMSelection(Chinese Multiple Selection,中文多選擇)文本分類系統(tǒng)。論文主要工作如下:(1)依據(jù)文本標題代表文本類別這一特點,利用分詞、去停用詞、Word2Vec模型訓練、類別隊列等技術提出CTF分類算法。該算法是一種快速分類算法,能夠滿足快速分類需求,可以在時間復雜度為O(n)的情況下完成分類,還可以將分類...
【文章來源】:武漢郵電科學研究院湖北省
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
NameNode運行原理圖
MapReduce工作流程圖
MapReduce簡單流程圖
【參考文獻】:
期刊論文
[1]基于云計算的Web數(shù)據(jù)挖掘Hadoop仿真平臺研究[J]. 王勃,徐靜. 電子設計工程. 2018(02)
[2]基于特征詞向量的短文本聚類算法[J]. 劉欣,佘賢棟,唐永旺,王波. 數(shù)據(jù)采集與處理. 2017(05)
[3]二次約束下的邊界約束非凸二次規(guī)劃問題的最優(yōu)化算法[J]. 韓艷娜,黃杰英. 科技通報. 2017(05)
[4]中文自然語言處理與計算機的結合問題研究[J]. 鐘磊. 數(shù)字技術與應用. 2017(02)
[5]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇. 信息網(wǎng)絡安全. 2017(01)
[6]基于SVM的中文文本分類系統(tǒng)的設計與實現(xiàn)[J]. 張昭楠. 電子設計工程. 2016(16)
[7]基于WordNet的語義相似度算法改進研究[J]. 沈國祥. 軟件導刊. 2016(05)
[8]中文維基百科的實體分類研究[J]. 徐志浩,惠浩添,錢龍華,朱巧明. 中文信息學報. 2015(05)
[9]SVM核函數(shù)與選擇算法[J]. 趙丹. 數(shù)字技術與應用. 2014(09)
[10]改進的基于平衡二叉決策樹的SVM多分類算法[J]. 林志杰,余春艷. 小型微型計算機系統(tǒng). 2014(05)
碩士論文
[1]短文本相似度的關鍵技術研究[D]. 劉令強.廣西師范大學 2016
[2]基于數(shù)據(jù)關系的SVM多分類方法研究[D]. 梁志.山西大學 2013
[3]開源中文分詞器的比較研究[D]. 黃翼彪.鄭州大學 2013
[4]關于凸二次規(guī)劃若干算法的研究[D]. 王建芳.大連海事大學 2008
本文編號:3079021
【文章來源】:武漢郵電科學研究院湖北省
【文章頁數(shù)】:66 頁
【學位級別】:碩士
【部分圖文】:
NameNode運行原理圖
MapReduce工作流程圖
MapReduce簡單流程圖
【參考文獻】:
期刊論文
[1]基于云計算的Web數(shù)據(jù)挖掘Hadoop仿真平臺研究[J]. 王勃,徐靜. 電子設計工程. 2018(02)
[2]基于特征詞向量的短文本聚類算法[J]. 劉欣,佘賢棟,唐永旺,王波. 數(shù)據(jù)采集與處理. 2017(05)
[3]二次約束下的邊界約束非凸二次規(guī)劃問題的最優(yōu)化算法[J]. 韓艷娜,黃杰英. 科技通報. 2017(05)
[4]中文自然語言處理與計算機的結合問題研究[J]. 鐘磊. 數(shù)字技術與應用. 2017(02)
[5]基于Word2vec的微博短文本分類研究[J]. 張謙,高章敏,劉嘉勇. 信息網(wǎng)絡安全. 2017(01)
[6]基于SVM的中文文本分類系統(tǒng)的設計與實現(xiàn)[J]. 張昭楠. 電子設計工程. 2016(16)
[7]基于WordNet的語義相似度算法改進研究[J]. 沈國祥. 軟件導刊. 2016(05)
[8]中文維基百科的實體分類研究[J]. 徐志浩,惠浩添,錢龍華,朱巧明. 中文信息學報. 2015(05)
[9]SVM核函數(shù)與選擇算法[J]. 趙丹. 數(shù)字技術與應用. 2014(09)
[10]改進的基于平衡二叉決策樹的SVM多分類算法[J]. 林志杰,余春艷. 小型微型計算機系統(tǒng). 2014(05)
碩士論文
[1]短文本相似度的關鍵技術研究[D]. 劉令強.廣西師范大學 2016
[2]基于數(shù)據(jù)關系的SVM多分類方法研究[D]. 梁志.山西大學 2013
[3]開源中文分詞器的比較研究[D]. 黃翼彪.鄭州大學 2013
[4]關于凸二次規(guī)劃若干算法的研究[D]. 王建芳.大連海事大學 2008
本文編號:3079021
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3079021.html
最近更新
教材專著