天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于支持向量機的并行文本分類方法研究

發(fā)布時間:2021-04-23 17:12
  文本數(shù)據(jù)與其他數(shù)據(jù)類型相比較具有占用網(wǎng)絡資源少,更容易上傳和下載等優(yōu)點,這使得網(wǎng)絡資源中大部分數(shù)據(jù)信息以文本形式存在。由于互聯(lián)網(wǎng)與人們的生活緊密的聯(lián)系在一起,網(wǎng)絡對人們生活的影響也越來越大,如何在海量數(shù)據(jù)中快速分析網(wǎng)絡觀點、預測網(wǎng)絡情緒并正確引導網(wǎng)絡輿情成為當今人們急需解決的問題。文本數(shù)據(jù)分類技術是解決這一問題的關鍵技術之一!叭绾螌⑽谋緮(shù)據(jù)準確、快速、實時分類?”始終是文本數(shù)據(jù)分類問題的熱點研究內(nèi)容。針對文本分類問題,提出了精簡訓練數(shù)據(jù)集的SPO-SVM方法,給出了基于支持向量機的文本數(shù)據(jù)分類方法。主要內(nèi)容包括文本數(shù)據(jù)的預處理、SPO-SVM的訓練數(shù)據(jù)集精簡和文本數(shù)據(jù)集的分類方法。文本數(shù)據(jù)預處理主要包括分詞、特征詞提取、文本向量化。分詞及特征詞提取后形成特征詞向量,特征詞向量在多個類別文本之間具有一定的類別區(qū)分度。文本向量化后輸出量化的訓練樣本集文件,能夠滿足支持向量機訓練所需要的數(shù)據(jù)格式。精簡數(shù)據(jù)集的SPO-SVM方法是對支持向量機訓練數(shù)據(jù)集精簡的方法,采用超球面劃分的方法將訓練數(shù)據(jù)進行區(qū)域劃分。區(qū)域內(nèi)數(shù)據(jù)歸為一組數(shù)據(jù),組內(nèi)采用樣本類別異、同作為是否進行數(shù)據(jù)約簡的判斷條件,給出了S... 

【文章來源】:遼寧工業(yè)大學遼寧省

【文章頁數(shù)】:64 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 論文的選題背景及意義
    1.2 國內(nèi)外研究歷史及現(xiàn)狀
    1.3 論文的主要內(nèi)容
    1.4 本章小結(jié)
2 相關理論與技術
    2.1 文本數(shù)據(jù)預處理
        2.1.1 文本數(shù)據(jù)預處理概述
        2.1.2 文本數(shù)據(jù)分詞原理
        2.1.3 文本數(shù)據(jù)特征提取及向量化過程
    2.2 支持向量機
        2.2.1 支持向量機數(shù)學模型
        2.2.2 支持向量機核函數(shù)
        2.2.3 SMO算法
    2.3 分布式計算框架集群環(huán)境
        2.3.1 分布式文件存儲系統(tǒng)HDFS
        2.3.2 分布式計算框架Spark
        2.3.3 分布式協(xié)調(diào)服務系統(tǒng)ZooKeeper
        2.3.4 分布式數(shù)據(jù)倉庫Hive
        2.3.5 分布式數(shù)據(jù)庫Hbase
    2.4 本章小結(jié)
3 基于支持向量機的文本數(shù)據(jù)分類方法
    3.1 文本數(shù)據(jù)的特征提取方法
        3.1.1 文本數(shù)據(jù)分詞處理
        3.1.2 文本數(shù)據(jù)特征提取
        3.1.3 文本數(shù)據(jù)向量化
    3.2 精簡支持向量機訓練數(shù)據(jù)集的SPO-SVM方法
        3.2.1 SPO-SVM方法
        3.2.2 基于支持向量機訓練數(shù)據(jù)集的SPO-SVM算法設計
    3.3 基于支持向量機和SPO-SVM的文本分類方法設計
    3.4 實驗設計與結(jié)果分析
    3.5 本章小結(jié)
4 基于支持向量機算法的并行文本分類
    4.1 基于Spark并行計算框架的支持向量機分類方法及優(yōu)化
    4.2 實驗環(huán)境搭建
    4.3 基于HDFS、Hive的文本數(shù)據(jù)清洗
    4.4 實驗設計及結(jié)果分析
    4.5 本章小結(jié)
5 結(jié)論和展望
    5.1 總結(jié)
    5.2 展望
參考文獻
致謝


【參考文獻】:
期刊論文
[1]大數(shù)據(jù)環(huán)境下Hive訪問控制技術研究[J]. 陳嬌,朱焱,丁國富.  軟件導刊. 2018(12)
[2]基于異類近鄰的支持向量機加速算法[J]. 陳景年,胡順祥,徐力.  計算機工程. 2018(05)
[3]一種新的支持向量機核函數(shù)評估方法[J]. 楊朝,何明浩,韓俊,蔣瑩.  雷達科學與技術. 2017(06)
[4]基于SVM的高維混合特征短文本情感分類[J]. 王義真,鄭嘯,后盾,胡昊.  計算機技術與發(fā)展. 2018(02)
[5]基于TF-IDF和余弦相似度的文本分類方法[J]. 武永亮,趙書良,李長鏡,魏娜娣,王子晏.  中文信息學報. 2017(05)
[6]Hadoop平臺分布式SVM算法分類研究[J]. 滿蔚仕,吉元元.  計算機系統(tǒng)應用. 2017(08)
[7]典型半監(jiān)督分類算法的研究分析[J]. 孟巖,汪云云.  計算機技術與發(fā)展. 2017(10)
[8]一種混合核函數(shù)的支持向量機[J]. 劉高輝,楊星.  微型機與應用. 2017(11)
[9]基于改進TF-IDF特征提取的文本分類模型研究[J]. 周源,劉懷蘭,杜朋朋,廖嶺.  情報科學. 2017(05)
[10]基于Aho-Corasick自動機算法的概率模型中文分詞CPACA算法[J]. 徐懿彬.  電子科技大學學報. 2017(02)

碩士論文
[1]基于支持向量機的海量文本分類并行化技術研究[D]. 任倚天.北京理工大學 2016



本文編號:3155715

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3155715.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6eb2b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com