基于支持向量機的海量文本分類并行化技術研究
本文關鍵詞:基于支持向量機的海量文本分類并行化技術研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡中的信息數(shù)據(jù)以前所未有的速度快速增加著。文本作為網(wǎng)絡數(shù)據(jù)的主要表現(xiàn)形式之一,蘊含著豐富的信息。文本分類技術是自然語言處理的重要部分,通過文本分類能挖掘到文本數(shù)據(jù)很多潛在的價值;ヂ(lián)網(wǎng)上的數(shù)據(jù)挖掘技術往往伴隨著海量規(guī)模的數(shù)據(jù)集。計算速度是這類問題重點優(yōu)化的因素之一。通過算法并行化可以提高計算速度。使用計算機集群或圖形處理器等硬件環(huán)境則可以提高算法的并行計算能力。本論文目的是提高海量文本分類的精度與速度,分析了文本分類技術與并行化技術。介紹了中文文本處理的分詞、去停用詞、文本向量表示、特征選擇、權重計算過程,對比了不同分類算法的特點,并介紹了人工智能優(yōu)化算法。本文選擇了GPU、Hadoop以及Spark的并行計算平臺進行介紹與分析。對文本分類精度的提高,本文提出了文本特征空間迭代優(yōu)化算法。算法針對每次生成的特征空間存在的如類別混淆等不足進行修正,以生成新的特征空間提高分類精度。此外,引入粒子群優(yōu)化算法用于徑向基核函數(shù)支持向量機的參數(shù)調優(yōu),以找到具有更高精度的徑向基核參數(shù)。對分類速度的提高,是通過算法并行化達到的。本文對文本的預處理、線性核與徑向基核函數(shù)的支持向量機均進行了并行實現(xiàn),通過將算法中迭代部分進行高并發(fā)計算、將算法中適合拆分的部分使用Map/Reduce進行計算等方式提高算法的并行化程度。使用GPU、Hadoop以及Spark提高了計算速度,擴展了算法處理的數(shù)據(jù)規(guī)模。在實驗的設計與實施上,本文進行了新聞文本分類與微博情感分類兩組實驗。兩組數(shù)據(jù)集具有各自的特點,分別代表了兩種文本分類的實際應用。文本特征空間迭代優(yōu)化算法對新聞分類效果顯著,妥善處理了類別之間的混淆情況。微博正文附加評論的方法擴展了文本內容,加上粒子群調優(yōu)的徑向基核支持向量機,微博情感分類也有較高的精度。數(shù)據(jù)集的規(guī)模從小到大,使用串行算法耗費很長時間的數(shù)據(jù)集,通過并行實現(xiàn)能夠達到生產(chǎn)環(huán)境中可以接受的較短時間。
【關鍵詞】:文本分類 支持向量機 并行計算 特征空間
【學位授予單位】:北京理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第1章 緒論10-15
- 1.1 研究背景與意義10
- 1.2 國內外研究發(fā)展現(xiàn)狀10-14
- 1.2.1 文本分類10-12
- 1.2.2 文本分類并行化12-13
- 1.2.3 情感分類13-14
- 1.3 研究的主要內容14
- 1.4 本文的內容組織14-15
- 第2章 中文文本分類研究15-29
- 2.1 中文文本分類框架15-16
- 2.2 中文文本處理流程16-22
- 2.2.1 中文分詞16-17
- 2.2.2 去停用詞17-18
- 2.2.3 文本向量表示18
- 2.2.4 特征選擇18-21
- 2.2.5 權重計算21-22
- 2.3 文本分類算法22-26
- 2.3.1 K最近鄰分類算法22-23
- 2.3.2 樸素貝葉斯分類算法23-25
- 2.3.3 支持向量機分類算法25-26
- 2.4 優(yōu)化算法26-29
- 2.4.1 人工智能優(yōu)化算法26-27
- 2.4.2 粒子群優(yōu)化算法27-29
- 第3章 并行化技術研究29-33
- 3.1 GPU并行計算框架29
- 3.2 Hadoop分布式計算系統(tǒng)29-31
- 3.2.1 HDFS分布式文件系統(tǒng)30
- 3.2.2 Map/Reduce計算模型30
- 3.2.3 Hive數(shù)據(jù)倉庫30-31
- 3.3 Spark分布式計算系統(tǒng)31-33
- 3.3.1 彈性分布式數(shù)據(jù)集31
- 3.3.2 Spark工作原理31-33
- 第4章 改進的文本分類及并行化方法33-46
- 4.1 文本特征空間迭代算法33-37
- 4.1.1 特征空間優(yōu)化33-34
- 4.1.2 擴充詞典34
- 4.1.3 過濾混淆詞34-35
- 4.1.4 迭代優(yōu)化35-37
- 4.2 粒子群優(yōu)化的徑向基核SVM37-38
- 4.3 文本預處理的并行實現(xiàn)38-40
- 4.4 SVM的GPU并行實現(xiàn)40-43
- 4.4.1 數(shù)據(jù)加載40-41
- 4.4.2 GPU并行化的線性核支持向量機41-42
- 4.4.3 GPU并行化的徑向基核支持向量機42-43
- 4.5 Hadoop并行化的SVM43-44
- 4.6 Spark并行化的SVM44-46
- 第5章 數(shù)據(jù)與實驗設計46-52
- 5.1 實驗設計46
- 5.2 數(shù)據(jù)采集46-49
- 5.2.1 新聞數(shù)據(jù)46-48
- 5.2.2 微博數(shù)據(jù)48-49
- 5.3 頁面凈化49-50
- 5.4 數(shù)據(jù)存取50
- 5.5 評價指標50-52
- 5.5.1 并行化加速比50-51
- 5.5.2 準確率和召回率51
- 5.5.3 F1分數(shù)51-52
- 第6章 實驗部署與結果分析52-64
- 6.1 系統(tǒng)環(huán)境部署52
- 6.2 新聞文本分類52-60
- 6.2.1 新聞文本特征52-53
- 6.2.2 新聞文本預處理53-54
- 6.2.3 并行實驗部署54
- 6.2.4 分類精度效果54-58
- 6.2.5 運行性能對比58-60
- 6.3 微博情感分類60-64
- 6.3.1 微博文本特征60
- 6.3.2 微博文本預處理60-61
- 6.3.3 并行實驗部署61
- 6.3.4 分類精度效果61-62
- 6.3.5 運行性能對比62-64
- 結論64-66
- 參考文獻66-69
- 攻讀學位期間發(fā)表論文與研究成果清單69-70
- 致謝70
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 李盛瑜;何文;;一種對聊天文本進行特征選取的方法研究[J];計算機科學;2007年05期
2 蔣志方;祝翠玲;吳強;;一個對不帶類別標記文本進行分類的方法[J];計算機工程;2007年12期
3 趙鋼;;從復雜文本中導入數(shù)據(jù)的方法[J];中國審計;2007年18期
4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機科學;2002年08期
5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學學報;2004年09期
6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達式編程的Web文本分類研究[J];網(wǎng)絡安全技術與應用;2009年03期
7 諶志群;;文本趨勢挖掘綜述[J];情報科學;2010年02期
8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期
9 江偉;潘昊;;基于優(yōu)化的多核學習方法的Web文本分類的研究[J];計算機技術與發(fā)展;2013年10期
10 陳福海;C++中用>>和<<重載實現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機;1997年05期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復制文本檢測[A];第29屆中國數(shù)據(jù)庫學術會議論文集(B輯)(NDBC2012)[C];2012年
2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學術年會論文集[C];1997年
3 胡蓉;唐常杰;陳敏敏;欒江;;關聯(lián)規(guī)則制導的遺傳算法在文本分類中的應用[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年
4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年
5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年
6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年
7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2010年
8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年
9 勞錦明;韋崗;;文本壓縮技術研究的新進展[A];開創(chuàng)新世紀的通信技術——第七屆全國青年通信學術會議論文集[C];2001年
10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前1條
1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學;2014年
2 韓開旭;基于支持向量機的文本情感分析研究[D];東北石油大學;2014年
3 鄭立洲;短文本信息抽取若干技術研究[D];中國科學技術大學;2016年
4 胡明涵;面向領域的文本分類與挖掘關鍵技術研究[D];東北大學 ;2009年
5 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關鍵問題研究[D];哈爾濱工程大學;2010年
6 尚文倩;文本分類及其相關技術研究[D];北京交通大學;2007年
7 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學;2010年
8 熊云波;文本信息處理的若干關鍵技術研究[D];復旦大學;2006年
9 李自強;大規(guī)模文本分類的若干問題研究[D];電子科技大學;2013年
10 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內蒙古大學;2015年
2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學;2015年
3 李少卿;不良文本及其變體信息的檢測過濾技術研究[D];復旦大學;2014年
4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學;2015年
5 鐘文波;搜索引擎中關鍵詞分類方法評估及推薦應用[D];華南理工大學;2015年
6 黃晨;基于新詞識別和時間跨度的微博熱點研究[D];上海交通大學;2015年
7 陳紅陽;中文微博話題發(fā)現(xiàn)技術研究[D];重慶理工大學;2015年
8 王s
本文編號:449207
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/449207.html