天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于深度學習理論和SVM技術的文本分類研究與實現(xiàn)

發(fā)布時間:2019-05-17 13:35
【摘要】:隨著互聯(lián)網(wǎng)技術高速發(fā)展,產(chǎn)生海量的數(shù)據(jù)信息。每天都有數(shù)以百萬計的網(wǎng)民通過互聯(lián)網(wǎng)獲取對自己有價值和意義的信息,如何能夠讓每一個人能快速、準確的從海量的數(shù)據(jù)中得到自己想要的知識、技能,已經(jīng)成為當前研究的熱點問題。要解決這類問題,研究者對數(shù)據(jù)進行獲取分析、挖掘、歸類,幫助人們提高信息檢索的效率。本文主要核心的工作是:利用深度學習進行特征提取和支持向量機相結合的方法對海量數(shù)據(jù)文本進行挖掘分類和分析,最后得到文本的本質(zhì)特征。傳統(tǒng)的文本分類算法都是采用期望交叉熵、信息增益和互信息等統(tǒng)計方法,通過設置閾值獲取特征集。如果訓練集的數(shù)據(jù)量較大,則容易出現(xiàn)特征項不明確、特征信息丟失等缺陷,針對這些問題,本文利用深度學習方法,結合現(xiàn)有的數(shù)據(jù)特點,提出將深度學習的兩種方法和支持向量機方法進行結合設計分類器,完成文本分類,本文主要的研究內(nèi)容和創(chuàng)新點如下:1.對國內(nèi)外現(xiàn)有的文本分類技術的研究現(xiàn)狀和研究意義進行了介紹,并且對文本分類重要性進行了闡述,最后指出了本論文要做的工作。2.首先研究了傳統(tǒng)的分類技術,從文本預處理,文本特征提取和文本分類三部分充分研究,然后對貝葉斯,KNN,SVM分類算法進行闡述,并且對三種算法的適用范圍和優(yōu)缺點進行了分析。3.介紹深度學習的相關理論知識,提出了利用稀疏自動編碼將原始數(shù)據(jù)進行高維空間映射,運用深度信念網(wǎng)絡對稀疏自動編碼的輸出進行投影獲取文本抽象特征。研究了深度學習中的稀疏自動編碼和深度信念網(wǎng)絡相結合進行文本特征提取的過程。4.本文結合深度學習和改進的多分類SVM方法,設計出由稀疏自動編碼和深度信念網(wǎng)絡,SVM分類相結合的分類器對文本進行分類。最后通過設計實驗,對本文提出的方法進行測試,并與傳統(tǒng)的文本分類方法進行了比較和分析。通過修改參數(shù)測試文本分類的準確率。
[Abstract]:With the rapid development of Internet technology, a large number of data and information are produced. Every day, millions of netizens get valuable and meaningful information through the Internet. How can everyone get the knowledge and skills they want from massive data quickly and accurately? It has become a hot issue in current research. In order to solve this kind of problem, researchers analyze, mine and classify the data to help people improve the efficiency of information retrieval. The main work of this paper is to use deep learning for feature extraction and support vector machine to mine and analyze the massive data text, and finally get the essential features of the text. Traditional text classification algorithms use statistical methods such as expected cross entropy, information gain and mutual information to obtain feature sets by setting threshold values. If the amount of data in the training set is large, it is easy to have some defects, such as unclear feature items and loss of feature information. In order to solve these problems, this paper uses the deep learning method to combine the existing data characteristics. Two methods of deep learning and support vector machine (SVM) are proposed to design classifiers to complete text classification. the main research contents and innovations of this paper are as follows: 1. This paper introduces the research status and significance of the existing text classification technology at home and abroad, and expounds the importance of text classification, and finally points out the work to be done in this paper. 2. Firstly, the traditional classification technology is studied, which is fully studied from three parts: text preprocessing, text feature extraction and text classification, and then the Bayesian and KNN,SVM classification algorithms are described. The applicable scope, advantages and disadvantages of the three algorithms are analyzed. This paper introduces the related theoretical knowledge of depth learning, and proposes to use sparse automatic coding to map the original data in high dimensional space, and to use depth belief network to project the output of sparse automatic coding to obtain text abstract features. The process of text feature extraction based on sparse automatic coding and depth belief network in depth learning is studied. 4. In this paper, based on the deep learning and improved multi-classification SVM method, a classifier based on sparse automatic coding, depth belief network and SVM classification is designed to classify the text. Finally, through the design experiment, the method proposed in this paper is tested, and compared and analyzed with the traditional text classification method. The accuracy of text classification is tested by modifying parameters.
【學位授予單位】:江蘇科技大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1

【參考文獻】

相關期刊論文 前10條

1 郭正斌;張仰森;蔣玉茹;;一種面向文本分類的特征向量優(yōu)化方法[J];計算機應用研究;2017年08期

2 肖江;王曉進;;基于SVM的在線商品評論的情感傾向性分析[J];信息技術;2016年07期

3 耿杰;范劍超;初佳蘭;王洪玉;;基于深度協(xié)同稀疏編碼網(wǎng)絡的海洋浮筏SAR圖像目標識別[J];自動化學報;2016年04期

4 常建秋;沈煒;;基于字符串匹配的中文分詞算法的研究[J];工業(yè)控制計算機;2016年02期

5 盧宏濤;張秦川;;深度卷積神經(jīng)網(wǎng)絡在計算機視覺中的應用研究綜述[J];數(shù)據(jù)采集與處理;2016年01期

6 曲建嶺;杜辰飛;邸亞洲;高峰;郭超然;;深度自動編碼器的研究與展望[J];計算機與現(xiàn)代化;2014年08期

7 袁琳琳;陳紅平;;漢語自動分詞系統(tǒng)的設計與實現(xiàn)[J];信息與電腦(理論版);2014年07期

8 梁勝;成衛(wèi)青;;基于組合型中文分詞技術的改進[J];南京郵電大學學報(自然科學版);2013年06期

9 單麗莉;劉秉權;孫承杰;;文本分類中特征選擇方法的比較與改進[J];哈爾濱工業(yè)大學學報;2011年S1期

10 姜鶴;陳麗亞;;SVM文本分類中一種新的特征提取方法[J];計算機技術與發(fā)展;2010年03期

相關碩士學位論文 前1條

1 馬冬梅;基于深度學習的圖像檢索研究[D];內(nèi)蒙古大學;2014年

,

本文編號:2479130

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2479130.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶1f9e5***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com