基于支持向量機的海量文本分類并行化技術研究

發(fā)布時間：2017-06-14 10:13

本文關鍵詞：基于支持向量機的海量文本分類并行化技術研究，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡中的信息數(shù)據(jù)以前所未有的速度快速增加著。文本作為網(wǎng)絡數(shù)據(jù)的主要表現(xiàn)形式之一,蘊含著豐富的信息。文本分類技術是自然語言處理的重要部分,通過文本分類能挖掘到文本數(shù)據(jù)很多潛在的價值�；ヂ�(lián)網(wǎng)上的數(shù)據(jù)挖掘技術往往伴隨著海量規(guī)模的數(shù)據(jù)集。計算速度是這類問題重點優(yōu)化的因素之一。通過算法并行化可以提高計算速度。使用計算機集群或圖形處理器等硬件環(huán)境則可以提高算法的并行計算能力。本論文目的是提高海量文本分類的精度與速度,分析了文本分類技術與并行化技術。介紹了中文文本處理的分詞、去停用詞、文本向量表示、特征選擇、權重計算過程,對比了不同分類算法的特點,并介紹了人工智能優(yōu)化算法。本文選擇了GPU、Hadoop以及Spark的并行計算平臺進行介紹與分析。對文本分類精度的提高,本文提出了文本特征空間迭代優(yōu)化算法。算法針對每次生成的特征空間存在的如類別混淆等不足進行修正,以生成新的特征空間提高分類精度。此外,引入粒子群優(yōu)化算法用于徑向基核函數(shù)支持向量機的參數(shù)調優(yōu),以找到具有更高精度的徑向基核參數(shù)。對分類速度的提高,是通過算法并行化達到的。本文對文本的預處理、線性核與徑向基核函數(shù)的支持向量機均進行了并行實現(xiàn),通過將算法中迭代部分進行高并發(fā)計算、將算法中適合拆分的部分使用Map/Reduce進行計算等方式提高算法的并行化程度。使用GPU、Hadoop以及Spark提高了計算速度,擴展了算法處理的數(shù)據(jù)規(guī)模。在實驗的設計與實施上,本文進行了新聞文本分類與微博情感分類兩組實驗。兩組數(shù)據(jù)集具有各自的特點,分別代表了兩種文本分類的實際應用。文本特征空間迭代優(yōu)化算法對新聞分類效果顯著,妥善處理了類別之間的混淆情況。微博正文附加評論的方法擴展了文本內容,加上粒子群調優(yōu)的徑向基核支持向量機,微博情感分類也有較高的精度。數(shù)據(jù)集的規(guī)模從小到大,使用串行算法耗費很長時間的數(shù)據(jù)集,通過并行實現(xiàn)能夠達到生產環(huán)境中可以接受的較短時間。
【關鍵詞】：文本分類 支持向量機 并行計算 特征空間
【學位授予單位】：北京理工大學
【學位級別】：碩士
【學位授予年份】：2016
【分類號】：TP391.1
【目錄】：

摘要5-6
ABSTRACT6-10
第1章緒論10-15
1.1 研究背景與意義10
1.2 國內外研究發(fā)展現(xiàn)狀10-14
1.2.1 文本分類10-12
1.2.2 文本分類并行化12-13
1.2.3 情感分類13-14
1.3 研究的主要內容14
1.4 本文的內容組織14-15
第2章中文文本分類研究15-29
2.1 中文文本分類框架15-16
2.2 中文文本處理流程16-22
2.2.1 中文分詞16-17
2.2.2 去停用詞17-18
2.2.3 文本向量表示18
2.2.4 特征選擇18-21
2.2.5 權重計算21-22
2.3 文本分類算法22-26
2.3.1 K最近鄰分類算法22-23
2.3.2 樸素貝葉斯分類算法23-25
2.3.3 支持向量機分類算法25-26
2.4 優(yōu)化算法26-29
2.4.1 人工智能優(yōu)化算法26-27
2.4.2 粒子群優(yōu)化算法27-29
第3章并行化技術研究29-33
3.1 GPU并行計算框架29
3.2 Hadoop分布式計算系統(tǒng)29-31
3.2.1 HDFS分布式文件系統(tǒng)30
3.2.2 Map/Reduce計算模型30
3.2.3 Hive數(shù)據(jù)倉庫30-31
3.3 Spark分布式計算系統(tǒng)31-33
3.3.1 彈性分布式數(shù)據(jù)集31
3.3.2 Spark工作原理31-33
第4章改進的文本分類及并行化方法33-46
4.1 文本特征空間迭代算法33-37
4.1.1 特征空間優(yōu)化33-34
4.1.2 擴充詞典34
4.1.3 過濾混淆詞34-35
4.1.4 迭代優(yōu)化35-37
4.2 粒子群優(yōu)化的徑向基核SVM37-38
4.3 文本預處理的并行實現(xiàn)38-40
4.4 SVM的GPU并行實現(xiàn)40-43
4.4.1 數(shù)據(jù)加載40-41
4.4.2 GPU并行化的線性核支持向量機41-42
4.4.3 GPU并行化的徑向基核支持向量機42-43
4.5 Hadoop并行化的SVM43-44
4.6 Spark并行化的SVM44-46
第5章數(shù)據(jù)與實驗設計46-52
5.1 實驗設計46
5.2 數(shù)據(jù)采集46-49
5.2.1 新聞數(shù)據(jù)46-48
5.2.2 微博數(shù)據(jù)48-49
5.3 頁面凈化49-50
5.4 數(shù)據(jù)存取50
5.5 評價指標50-52
5.5.1 并行化加速比50-51
5.5.2 準確率和召回率51
5.5.3 F1分數(shù)51-52
第6章實驗部署與結果分析52-64
6.1 系統(tǒng)環(huán)境部署52
6.2 新聞文本分類52-60
6.2.1 新聞文本特征52-53
6.2.2 新聞文本預處理53-54
6.2.3 并行實驗部署54
6.2.4 分類精度效果54-58
6.2.5 運行性能對比58-60
6.3 微博情感分類60-64
6.3.1 微博文本特征60
6.3.2 微博文本預處理60-61
6.3.3 并行實驗部署61
6.3.4 分類精度效果61-62
6.3.5 運行性能對比62-64
結論64-66
參考文獻66-69
攻讀學位期間發(fā)表論文與研究成果清單69-70
致謝70

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 李盛瑜;何文;;一種對聊天文本進行特征選取的方法研究[J];計算機科學;2007年05期

2 蔣志方;祝翠玲;吳強;;一個對不帶類別標記文本進行分類的方法[J];計算機工程;2007年12期

3 趙鋼;;從復雜文本中導入數(shù)據(jù)的方法[J];中國審計;2007年18期

4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機科學;2002年08期

5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學學報;2004年09期

6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達式編程的Web文本分類研究[J];網(wǎng)絡安全技術與應用;2009年03期

7 諶志群;;文本趨勢挖掘綜述[J];情報科學;2010年02期

8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期

9 江偉;潘昊;;基于優(yōu)化的多核學習方法的Web文本分類的研究[J];計算機技術與發(fā)展;2013年10期

10 陳福海;C++中用>>和<<重載實現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機;1997年05期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復制文本檢測[A];第29屆中國數(shù)據(jù)庫學術會議論文集（B輯）（NDBC2012）[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學術年會論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關聯(lián)規(guī)則制導的遺傳算法在文本分類中的應用[A];第十九屆全國數(shù)據(jù)庫學術會議論文集（研究報告篇）[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內容安全學術會議論文集（上）[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集（技術報告篇）[C];2004年

9 勞錦明;韋崗;;文本壓縮技術研究的新進展[A];開創(chuàng)新世紀的通信技術——第七屆全國青年通信學術會議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年

中國重要報紙全文數(shù)據(jù)庫前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年

中國博士學位論文全文數(shù)據(jù)庫前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學;2014年

2 韓開旭;基于支持向量機的文本情感分析研究[D];東北石油大學;2014年

3 鄭立洲;短文本信息抽取若干技術研究[D];中國科學技術大學;2016年

4 胡明涵;面向領域的文本分類與挖掘關鍵技術研究[D];東北大學　;2009年

5 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關鍵問題研究[D];哈爾濱工程大學;2010年

6 尚文倩;文本分類及其相關技術研究[D];北京交通大學;2007年

7 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學;2010年

8 熊云波;文本信息處理的若干關鍵技術研究[D];復旦大學;2006年

9 李自強;大規(guī)模文本分類的若干問題研究[D];電子科技大學;2013年

10 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學;2007年

中國碩士學位論文全文數(shù)據(jù)庫前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內蒙古大學;2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學;2015年

3 李少卿;不良文本及其變體信息的檢測過濾技術研究[D];復旦大學;2014年

4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學;2015年

5 鐘文波;搜索引擎中關鍵詞分類方法評估及推薦應用[D];華南理工大學;2015年

6 黃晨;基于新詞識別和時間跨度的微博熱點研究[D];上海交通大學;2015年

7 陳紅陽;中文微博話題發(fā)現(xiàn)技術研究[D];重慶理工大學;2015年

8 王s

本文編號：449207

資料下載

論文發(fā)表

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/449207.html

上一篇：基于視覺的目標檢測與跟蹤綜述
下一篇：智慧云制造——一種互聯(lián)網(wǎng)與制造業(yè)深度融合的新模式深度融合的新模式、新手段和新業(yè)態(tài)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于支持向量機的海量文本分類并行化技術研究