基于Hadoop的文本分類研究
發(fā)布時間:2019-07-18 15:16
【摘要】:隨著互聯(lián)網(wǎng)的不斷發(fā)展,社交網(wǎng)絡(luò)、電子商務、搜索引擎、移動計算等已經(jīng)深入到人們的日常生活中,各類數(shù)據(jù)呈現(xiàn)出爆發(fā)式的增長,但是人們對信息的要求卻更加精細化、個性化。如何對海量的非結(jié)構(gòu)化文本數(shù)據(jù)進行分類的研究有著十分重要的意義,而云計算為海量數(shù)據(jù)的處理提供了強有力的工具,為此本文研究了基于云計算平臺Hadoop的文本分類,主要做了以下工作: (1)研究了云計算中的存儲、計算、虛擬化等關(guān)鍵技術(shù)。Hadoop作為一個開源的并行計算平臺,已經(jīng)逐步成為海量數(shù)據(jù)處理中最有力的工具,本文從設(shè)計理念、實現(xiàn)方法等多方面對其分布式文件系統(tǒng)HDFS和并行化編程范式MapReduce做了深入研究。 (2)將Hadoop平臺應用到文本分類領(lǐng)域,在通用文本分類流程的基礎(chǔ)上,設(shè)計了一套基于MapReduce的并行化文本分類框架,在本地虛擬機環(huán)境下搭建了一個小型的Hadoop集群,編程實現(xiàn)了并行化文本分類算法,實驗的運行結(jié)果證明了該框架的有效性。 (3)在并行化文本分類框架的基礎(chǔ)上,研究了基于近鄰元分析的分類算法。不再僅僅將近鄰元分析作為一種距離測度學習算法,而是將其思想引入到分類中,結(jié)合局部近鄰思想,提出了一種K近鄰元分析分類算法(K-NCA),在文本分類的實驗仿真取得了良好的效果,最后分析了算法的可并行性,提出了算法的并行化實現(xiàn)策略。
文內(nèi)圖片:
圖片說明: value。最終得到結(jié)果。圖2-1 MapReduce架構(gòu)Fig.2-1 Architecture of MapReduceMapReduce不僅是一種編程模型,同時也是一種高效的任務調(diào)度模型,它在多核多處理器也有良好的性能。
文內(nèi)圖片:
圖片說明: 上海交通大學碩士學位論文客戶端,應用虛擬化把應用對低層的系統(tǒng)和可能沖突,可以運行一個程序的多個版本。的桌面環(huán)境與其使用的終端設(shè)備解耦,桌面,用戶可以通過任何設(shè)備,在任何地點,任面系統(tǒng)。付模式計算可以分為三個層次:基礎(chǔ)設(shè)施即服務(服務(Platform as a Service, PaaS)、軟件即服個層次由底到上,也體現(xiàn)出了云計算的交付的產(chǎn)業(yè)鏈,,一個完整的可交付的云平臺如下圖
【學位授予單位】:上海交通大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1
本文編號:2515940
文內(nèi)圖片:
圖片說明: value。最終得到結(jié)果。圖2-1 MapReduce架構(gòu)Fig.2-1 Architecture of MapReduceMapReduce不僅是一種編程模型,同時也是一種高效的任務調(diào)度模型,它在多核多處理器也有良好的性能。
文內(nèi)圖片:
圖片說明: 上海交通大學碩士學位論文客戶端,應用虛擬化把應用對低層的系統(tǒng)和可能沖突,可以運行一個程序的多個版本。的桌面環(huán)境與其使用的終端設(shè)備解耦,桌面,用戶可以通過任何設(shè)備,在任何地點,任面系統(tǒng)。付模式計算可以分為三個層次:基礎(chǔ)設(shè)施即服務(服務(Platform as a Service, PaaS)、軟件即服個層次由底到上,也體現(xiàn)出了云計算的交付的產(chǎn)業(yè)鏈,,一個完整的可交付的云平臺如下圖
【學位授予單位】:上海交通大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前10條
1 吳應良,韋崗,李海洲;一種基于N-gram模型和機器學習的漢語分詞算法[J];電子與信息學報;2001年11期
2 孫鐵利;劉延吉;;中文分詞技術(shù)的研究現(xiàn)狀與困難[J];信息技術(shù);2009年07期
3 張寧,賈自艷,史忠植;使用KNN算法的文本分類[J];計算機工程;2005年08期
4 王自強;錢旭;;基于流形學習和SVM的Web文檔分類算法[J];計算機工程;2009年15期
5 楊延嬌;王治和;;基于樹樁網(wǎng)絡(luò)的貝葉斯文本分類算法[J];計算機工程;2009年16期
6 林小俊;張猛;暴筱;李軍;吳璽宏;;基于概念網(wǎng)絡(luò)的短文本分類方法[J];計算機工程;2010年21期
7 孫榮宗;苗奪謙;衛(wèi)志華;李文;;基于粗糙集的快速KNN文本分類算法[J];計算機工程;2010年24期
8 程苗;陳華平;;基于Hadoop的Web日志挖掘[J];計算機工程;2011年11期
9 李伯虎;張霖;王時龍;陶飛;曹軍威;姜曉丹;宋曉;柴旭東;;云制造——面向服務的網(wǎng)絡(luò)化制造新模式[J];計算機集成制造系統(tǒng);2010年01期
10 王振宇;郭力;;基于Hadoop的搜索引擎用戶行為分析[J];計算機工程與科學;2011年04期
本文編號:2515940
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/2515940.html
最近更新
教材專著