基于MapReduce的網絡書寫紋識別關鍵技術研究
本文關鍵詞:基于MapReduce的網絡書寫紋識別關鍵技術研究,由筆耕文化傳播整理發(fā)布。
【摘要】:網絡書寫紋是指用戶在網絡文字中留下的具有獨特寫作風格(如用詞習慣、語法結構等)的特征集合。網絡書寫紋就像人的指紋一樣,是可以標記作者寫作特征的獨一無二的標識符。隨著研究的深入,作者數(shù)量增加,需要處理的總體數(shù)據(jù)規(guī)模也相應增加,另外,研究中還發(fā)現(xiàn),在程序運行過程中,計算機的內存、CPU等資源并沒有得到充分的利用。本文嘗試對網絡書寫紋識別研究中的數(shù)據(jù)處理關鍵算法并行化,以期能夠充分利用計算機資源,提高數(shù)據(jù)處理的效率。 Ngram是指給定一個序列的文本,根據(jù)N值選擇等長或變長的連續(xù)子序列。研究證明,基于Ngram特征的抽取是構建網絡書寫紋個體特征集的重要技術,提高數(shù)據(jù)處理效率是Ngram特征抽取過程需要解決的重要內容。本文設計Hadoop-Ngram算法,并在Hadoop集群上實現(xiàn),實驗結果表明,相對未并行化的Ngram特征抽取,Hadoop-Ngram在文本數(shù)據(jù)的處理效率上有所提升,同時,CPU、內存等資源的利用率也有所提高,計算機資源得到較充分的使用。在實驗中,還通過配置Hadoop通用參數(shù)選項來比較數(shù)據(jù)的處理效率,實驗證明,根據(jù)處理任務的規(guī)模和特點靈活的配置Hadoop通用參數(shù),可以使算法的運行效率進一步提高。 基于特征選擇的集成學習(簡稱集成特征選擇),是構建網絡書寫紋分類模型的重要技術,它首先對特征集合進行選擇,去除冗余和無效特征,然后按照一定的劃分算法對特征集進行劃分,將劃分好的特征子集分配到個體分類器,由個體分類器處理特征子集,最后將各個體分類器的結果匯總得到分類模型或分類結果。在利用集成特征選擇構建分類模型的過程中也面臨數(shù)據(jù)量增加,數(shù)據(jù)處理效率不理想的問題;诖,本文設計基于MapReduce的集成特征選擇算法Hadoop_F_Ensemble。實驗結果表明,Hadoop_F_Ensemble執(zhí)行時分類模型的構建效率也有所提高,系統(tǒng)資源也能得到較充分的利用,通過Hadoop通用參數(shù)選項的調整,實現(xiàn)的效果會更加良好。這說明,將MapReduce應用于網絡書寫紋識別研究是有意義的。
【關鍵詞】:網絡書寫紋 Ngram MapReduce 集成學習
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:G40-057
【目錄】:
- 摘要5-6
- Abstract6-10
- 第1章 緒論10-15
- 1.1 研究背景10-11
- 1.2 國內外研究現(xiàn)狀11-12
- 1.3 研究意義12-13
- 1.4 研究內容與組織結構13-15
- 第2章 MapReduce及相關技術介紹15-22
- 2.1 MapReduce相關技術介紹15-17
- 2.1.1 MapReduce編程模型15-16
- 2.1.2 MapReduce數(shù)據(jù)類型與控制節(jié)點數(shù)據(jù)結構16-17
- 2.1.3 容錯機制17
- 2.2 Hadoop分布式并行計算平臺17-21
- 2.2.1 Hadoop分布式文件系統(tǒng)17-19
- 2.2.2 Hadoop調度器19-20
- 2.2.3 Hadoop通用參數(shù)選項20-21
- 2.3 本章小結21-22
- 第3章 基于MapReduce的Ngram特征抽取22-40
- 3.1 網絡書寫紋特征抽取22-25
- 3.1.1 網絡書寫紋風格特征簡介22-23
- 3.1.2 網絡書寫紋特征集23-24
- 3.1.3 基于Ngram的特征抽取24-25
- 3.2 基于MapReduce的Ngram特征抽取25-34
- 3.2.1 Hadoop-Ngram設計思想與簡單實現(xiàn)26-29
- 3.2.2 Hadoop-Ngram工程的UML類圖29-30
- 3.2.3 Hadoop-Ngram具體實現(xiàn)30-34
- 3.3 實驗設計與結果分析34-39
- 3.3.1 實驗設計與性能指標34-36
- 3.3.2 實驗步驟與結果分析36-39
- 3.4 本章小結39-40
- 第4章 基于MapReduce的網絡書寫紋識別模型構建研究40-57
- 4.1 網絡書寫紋識別分類模型關鍵技術概述40-42
- 4.2 基于MapReduce的集成特征選擇42-51
- 4.2.1 基于MapReduce的集成特征選擇并行化設計42-45
- 4.2.2 基于MapReduce的Hadoop_F_Ensemble設計思想與簡單實現(xiàn)45-46
- 4.2.3 基于MapReduce的Ensemble核心實現(xiàn)46-51
- 4.3 實驗設計與結果分析51-56
- 4.3.1 實驗設計51-52
- 4.3.2 實驗步驟與結果分析52-56
- 4.4 本章小結56-57
- 第5章 總結和展望57-59
- 5.1 總結57-58
- 5.2 展望58-59
- 參考文獻59-63
- 在校期間所參與項目和發(fā)表的論文63-64
- 致謝64
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前8條
1 馮峰,逯貴禎,關亞林;二維FDTD算法的網絡并行運算實現(xiàn)[J];北京廣播學院學報(自然科學版);2005年02期
2 史曉霖,王菊,曹元大;語音合成服務器的設計與實現(xiàn)[J];北京理工大學學報;2004年01期
3 楊光億,陳孝威;基于PVM平臺的并行編程技術及其在圖像處理中的應用[J];計算機工程與科學;2005年09期
4 劉維峰,盧偉,許海燕;基于局域網和MPI的PC集群計算環(huán)境[J];計算機工程與設計;2005年05期
5 羅俊,雷詠梅;基于集群SPMD算法及演化計算并行研究[J];計算機工程與設計;2005年10期
6 鐘輝;點對點通信接口的并行實現(xiàn)[J];沈陽建筑大學學報(自然科學版);2005年01期
7 李濤,羅瑜;遺傳算法的并行處理分析[J];西南科技大學學報;2004年04期
8 伍湘君,黃麗萍;超級計算機上矩陣乘的并行計算與實現(xiàn)[J];應用氣象學報;2005年01期
中國博士學位論文全文數(shù)據(jù)庫 前4條
1 魏洪濤;基于網格計算的仿真任務管理與調度方法研究[D];國防科學技術大學;2005年
2 葛培明;改進的遺傳算法及其在工程優(yōu)化中的應用[D];西南交通大學;2006年
3 張傳富;仿真網格資源管理系統(tǒng)關鍵技術研究[D];國防科學技術大學;2006年
4 王學慧;并行與分布式仿真系統(tǒng)中的時間管理技術研究[D];國防科學技術大學;2006年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉艷;分布式網絡并行系統(tǒng)在艦載指控系統(tǒng)中的應用研究[D];哈爾濱工程大學;2003年
2 彭偉;基于DVM的可視化并行程序開發(fā)平臺設計[D];西北工業(yè)大學;2004年
3 韓光明;基于機群計算的熱物性反問題高效分布式并行算法設計[D];武漢理工大學;2006年
4 姜豪;并行處理技術在FDTD算法中的應用[D];南京理工大學;2006年
5 王菊芬;基于Linux的PC集群系統(tǒng)的研究與實現(xiàn)[D];四川大學;2006年
6 易建波;基于P2P技術的廣域網電力系統(tǒng)分布式并行計算平臺[D];電子科技大學;2007年
7 楊帆;面向核模擬的三維可視化技術研究與系統(tǒng)實現(xiàn)[D];國防科學技術大學;2006年
8 陳艷;熱傳導反問題的高效分布式并行算法研究[D];武漢理工大學;2007年
9 楊學猛;基于匹配濾波原理的衛(wèi)星干擾源定位分析與實現(xiàn)[D];北京郵電大學;2007年
10 黃玉東;合成孔徑雷達實時并行數(shù)據(jù)處理[D];中國海洋大學;2007年
本文關鍵詞:基于MapReduce的網絡書寫紋識別關鍵技術研究,由筆耕文化傳播整理發(fā)布。
,本文編號:380620
本文鏈接:http://sikaile.net/jiaoyulunwen/jiaoyugaigechuangxinlunwen/380620.html