天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于支持向量機的海量文本分類并行化技術研究

發(fā)布時間:2017-06-14 10:13

  本文關鍵詞:基于支持向量機的海量文本分類并行化技術研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡中的信息數(shù)據(jù)以前所未有的速度快速增加著。文本作為網(wǎng)絡數(shù)據(jù)的主要表現(xiàn)形式之一,蘊含著豐富的信息。文本分類技術是自然語言處理的重要部分,通過文本分類能挖掘到文本數(shù)據(jù)很多潛在的價值;ヂ(lián)網(wǎng)上的數(shù)據(jù)挖掘技術往往伴隨著海量規(guī)模的數(shù)據(jù)集。計算速度是這類問題重點優(yōu)化的因素之一。通過算法并行化可以提高計算速度。使用計算機集群或圖形處理器等硬件環(huán)境則可以提高算法的并行計算能力。本論文目的是提高海量文本分類的精度與速度,分析了文本分類技術與并行化技術。介紹了中文文本處理的分詞、去停用詞、文本向量表示、特征選擇、權重計算過程,對比了不同分類算法的特點,并介紹了人工智能優(yōu)化算法。本文選擇了GPU、Hadoop以及Spark的并行計算平臺進行介紹與分析。對文本分類精度的提高,本文提出了文本特征空間迭代優(yōu)化算法。算法針對每次生成的特征空間存在的如類別混淆等不足進行修正,以生成新的特征空間提高分類精度。此外,引入粒子群優(yōu)化算法用于徑向基核函數(shù)支持向量機的參數(shù)調優(yōu),以找到具有更高精度的徑向基核參數(shù)。對分類速度的提高,是通過算法并行化達到的。本文對文本的預處理、線性核與徑向基核函數(shù)的支持向量機均進行了并行實現(xiàn),通過將算法中迭代部分進行高并發(fā)計算、將算法中適合拆分的部分使用Map/Reduce進行計算等方式提高算法的并行化程度。使用GPU、Hadoop以及Spark提高了計算速度,擴展了算法處理的數(shù)據(jù)規(guī)模。在實驗的設計與實施上,本文進行了新聞文本分類與微博情感分類兩組實驗。兩組數(shù)據(jù)集具有各自的特點,分別代表了兩種文本分類的實際應用。文本特征空間迭代優(yōu)化算法對新聞分類效果顯著,妥善處理了類別之間的混淆情況。微博正文附加評論的方法擴展了文本內容,加上粒子群調優(yōu)的徑向基核支持向量機,微博情感分類也有較高的精度。數(shù)據(jù)集的規(guī)模從小到大,使用串行算法耗費很長時間的數(shù)據(jù)集,通過并行實現(xiàn)能夠達到生產(chǎn)環(huán)境中可以接受的較短時間。
【關鍵詞】:文本分類 支持向量機 并行計算 特征空間
【學位授予單位】:北京理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 摘要5-6
  • ABSTRACT6-10
  • 第1章 緒論10-15
  • 1.1 研究背景與意義10
  • 1.2 國內外研究發(fā)展現(xiàn)狀10-14
  • 1.2.1 文本分類10-12
  • 1.2.2 文本分類并行化12-13
  • 1.2.3 情感分類13-14
  • 1.3 研究的主要內容14
  • 1.4 本文的內容組織14-15
  • 第2章 中文文本分類研究15-29
  • 2.1 中文文本分類框架15-16
  • 2.2 中文文本處理流程16-22
  • 2.2.1 中文分詞16-17
  • 2.2.2 去停用詞17-18
  • 2.2.3 文本向量表示18
  • 2.2.4 特征選擇18-21
  • 2.2.5 權重計算21-22
  • 2.3 文本分類算法22-26
  • 2.3.1 K最近鄰分類算法22-23
  • 2.3.2 樸素貝葉斯分類算法23-25
  • 2.3.3 支持向量機分類算法25-26
  • 2.4 優(yōu)化算法26-29
  • 2.4.1 人工智能優(yōu)化算法26-27
  • 2.4.2 粒子群優(yōu)化算法27-29
  • 第3章 并行化技術研究29-33
  • 3.1 GPU并行計算框架29
  • 3.2 Hadoop分布式計算系統(tǒng)29-31
  • 3.2.1 HDFS分布式文件系統(tǒng)30
  • 3.2.2 Map/Reduce計算模型30
  • 3.2.3 Hive數(shù)據(jù)倉庫30-31
  • 3.3 Spark分布式計算系統(tǒng)31-33
  • 3.3.1 彈性分布式數(shù)據(jù)集31
  • 3.3.2 Spark工作原理31-33
  • 第4章 改進的文本分類及并行化方法33-46
  • 4.1 文本特征空間迭代算法33-37
  • 4.1.1 特征空間優(yōu)化33-34
  • 4.1.2 擴充詞典34
  • 4.1.3 過濾混淆詞34-35
  • 4.1.4 迭代優(yōu)化35-37
  • 4.2 粒子群優(yōu)化的徑向基核SVM37-38
  • 4.3 文本預處理的并行實現(xiàn)38-40
  • 4.4 SVM的GPU并行實現(xiàn)40-43
  • 4.4.1 數(shù)據(jù)加載40-41
  • 4.4.2 GPU并行化的線性核支持向量機41-42
  • 4.4.3 GPU并行化的徑向基核支持向量機42-43
  • 4.5 Hadoop并行化的SVM43-44
  • 4.6 Spark并行化的SVM44-46
  • 第5章 數(shù)據(jù)與實驗設計46-52
  • 5.1 實驗設計46
  • 5.2 數(shù)據(jù)采集46-49
  • 5.2.1 新聞數(shù)據(jù)46-48
  • 5.2.2 微博數(shù)據(jù)48-49
  • 5.3 頁面凈化49-50
  • 5.4 數(shù)據(jù)存取50
  • 5.5 評價指標50-52
  • 5.5.1 并行化加速比50-51
  • 5.5.2 準確率和召回率51
  • 5.5.3 F1分數(shù)51-52
  • 第6章 實驗部署與結果分析52-64
  • 6.1 系統(tǒng)環(huán)境部署52
  • 6.2 新聞文本分類52-60
  • 6.2.1 新聞文本特征52-53
  • 6.2.2 新聞文本預處理53-54
  • 6.2.3 并行實驗部署54
  • 6.2.4 分類精度效果54-58
  • 6.2.5 運行性能對比58-60
  • 6.3 微博情感分類60-64
  • 6.3.1 微博文本特征60
  • 6.3.2 微博文本預處理60-61
  • 6.3.3 并行實驗部署61
  • 6.3.4 分類精度效果61-62
  • 6.3.5 運行性能對比62-64
  • 結論64-66
  • 參考文獻66-69
  • 攻讀學位期間發(fā)表論文與研究成果清單69-70
  • 致謝70

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李盛瑜;何文;;一種對聊天文本進行特征選取的方法研究[J];計算機科學;2007年05期

2 蔣志方;祝翠玲;吳強;;一個對不帶類別標記文本進行分類的方法[J];計算機工程;2007年12期

3 趙鋼;;從復雜文本中導入數(shù)據(jù)的方法[J];中國審計;2007年18期

4 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計算機科學;2002年08期

5 李建中,楊艷,張艷秋;并行文本管理原型系統(tǒng)PDoc的功能與總體框架[J];哈爾濱工業(yè)大學學報;2004年09期

6 覃曉;元昌安;彭昱忠;丁超;;基于基因表達式編程的Web文本分類研究[J];網(wǎng)絡安全技術與應用;2009年03期

7 諶志群;;文本趨勢挖掘綜述[J];情報科學;2010年02期

8 王亞民;劉洋;;含附件文本的分類算法研究[J];情報雜志;2012年08期

9 江偉;潘昊;;基于優(yōu)化的多核學習方法的Web文本分類的研究[J];計算機技術與發(fā)展;2013年10期

10 陳福海;C++中用>>和<<重載實現(xiàn)文本文件的方便存取[J];現(xiàn)代計算機;1997年05期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 許君;王朝坤;劉立超;王建民;劉璋;;云環(huán)境中的近似復制文本檢測[A];第29屆中國數(shù)據(jù)庫學術會議論文集(B輯)(NDBC2012)[C];2012年

2 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學術年會論文集[C];1997年

3 胡蓉;唐常杰;陳敏敏;欒江;;關聯(lián)規(guī)則制導的遺傳算法在文本分類中的應用[A];第十九屆全國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2002年

4 李文波;孫樂;黃瑞紅;馮元勇;張大鯤;;基于Labeled-LDA模型的文本分類新算法[A];第三屆全國信息檢索與內容安全學術會議論文集[C];2007年

5 黃云平;孫樂;李文波;;基于上下文圖模型文本表示的文本分類研究[A];第四屆全國信息檢索與內容安全學術會議論文集(上)[C];2008年

6 蔣勇;陳曉靜;;一種多方向手寫文本行提取方法[A];第二十七屆中國控制會議論文集[C];2008年

7 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數(shù)據(jù)庫學術會議論文集(B輯)[C];2010年

8 胡俊;黃厚寬;;一種基于SVM的可視化文本分類的方法[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2004年

9 勞錦明;韋崗;;文本壓縮技術研究的新進展[A];開創(chuàng)新世紀的通信技術——第七屆全國青年通信學術會議論文集[C];2001年

10 江荻;;藏語文本信息處理的歷程與進展[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年

中國重要報紙全文數(shù)據(jù)庫 前1條

1 戴洪玲;向Excel中快速輸入相同文本[N];中國電腦教育報;2004年

中國博士學位論文全文數(shù)據(jù)庫 前10條

1 宋歌;基于聚類森林的文本流分類方法研究[D];哈爾濱工業(yè)大學;2014年

2 韓開旭;基于支持向量機的文本情感分析研究[D];東北石油大學;2014年

3 鄭立洲;短文本信息抽取若干技術研究[D];中國科學技術大學;2016年

4 胡明涵;面向領域的文本分類與挖掘關鍵技術研究[D];東北大學 ;2009年

5 孫曉華;基于聚類的文本機會發(fā)現(xiàn)關鍵問題研究[D];哈爾濱工程大學;2010年

6 尚文倩;文本分類及其相關技術研究[D];北京交通大學;2007年

7 霍躍紅;典籍英譯譯者文體分析與文本的譯者識別[D];大連理工大學;2010年

8 熊云波;文本信息處理的若干關鍵技術研究[D];復旦大學;2006年

9 李自強;大規(guī)模文本分類的若干問題研究[D];電子科技大學;2013年

10 楊震;文本分類和聚類中若干問題的研究[D];北京郵電大學;2007年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 王軼霞;基于半監(jiān)督遞歸自編碼的情感分類研究[D];內蒙古大學;2015年

2 金傳鑫;氣象文本分類特征選擇方法及其在MapReduce上的實現(xiàn)[D];南京信息工程大學;2015年

3 李少卿;不良文本及其變體信息的檢測過濾技術研究[D];復旦大學;2014年

4 董秦濤;基于文本的個人情感狀態(tài)分析研究[D];蘭州大學;2015年

5 鐘文波;搜索引擎中關鍵詞分類方法評估及推薦應用[D];華南理工大學;2015年

6 黃晨;基于新詞識別和時間跨度的微博熱點研究[D];上海交通大學;2015年

7 陳紅陽;中文微博話題發(fā)現(xiàn)技術研究[D];重慶理工大學;2015年

8 王s

本文編號:449207


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/449207.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶ce5b8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
日本女人亚洲国产性高潮视频| 国产一区二区三区丝袜不卡| 国产一区欧美一区日本道| 真实国产乱子伦对白视频不卡| 免费一级欧美大片免费看| 国产精品亚洲一级av第二区| 亚洲欧美天堂精品在线| 中文字幕亚洲精品在线播放| 亚洲一区二区三区在线免费| 欧美一区二区黑人在线| 亚洲精品中文字幕一二三| 一区二区日韩欧美精品| 亚洲五月婷婷中文字幕| 日本午夜免费啪视频在线| 中文字幕一区二区三区大片| 亚洲国产精品久久精品成人| 国产一区二区三区香蕉av| 99久久精品一区二区国产| 日韩一区二区三区18| 欧美亚洲三级视频在线观看| 日韩一区欧美二区国产| 激情视频在线视频在线视频| 日韩高清一区二区三区四区| 中文字幕熟女人妻视频| 99久久精品午夜一区二区| 一区二区三区日韩经典| 国产一区二区三区草莓av| 一区二区三区在线不卡免费| 日本乱论一区二区三区| 日韩高清毛片免费观看| 91人妻人人精品人人爽| 99久久无色码中文字幕免费| 91精品国产品国语在线不卡| 亚洲欧美一二区日韩高清在线| 最近日韩在线免费黄片| 91久久精品国产一区蜜臀| 日韩一区二区三区在线欧洲| 丝袜破了有美女肉体免费观看 | 日系韩系还是欧美久久 | 国产高清一区二区不卡| 久久精品伊人一区二区|