基于卷積神經網絡的中文文本分類研究

發(fā)布時間：2022-03-09 12:34

　　互聯網的快速發(fā)展,使得互聯網上的數據呈指數級的增長,人類社會正邁入大數據時代;如何有效的存儲、管理進而挖掘出數據中的價值,從而為人類社會服務,是當今學術界和工業(yè)界都極度重視的課題。文本數據作為信息的主要載體之一,相比于圖像、視頻等,在攜帶的信息量大致相同的情況下,占用的網絡資源最少,傳播更為方便、快捷,因此成為互聯網上主要的信息傳播載體。文本分類是文本數據管理、價值挖掘的最重要的部分,而傳統(tǒng)分類方法模型表達能力較弱,已無法應對文本分類領域海量數據、多類別等問題的挑戰(zhàn),尋找新的文本表示與分類方法變得十分緊迫。本文采用深度學習中的卷積神經網絡模型作為分類器,利用Word2vec模型提取文本特征,先將經過分詞后的文本庫中的每個詞語映射到一個固定長度的向量,再遍歷每篇文本,將文本中的詞語逐一轉換為向量,依次排列,得到文本的矩陣表示;文本庫中的單個文本最大長度決定了最終的文本矩陣行數,不足的部分補零,最后將文本矩陣輸入到卷積神經網絡模型中;針對原始文本庫中的詞語數量多、單個文本包含詞匯量較多,不利于后續(xù)分類處理的問題,本文采用LDA模型,先訓練提取所有文本的潛在主題,再由潛在的主題得到與每個主題...

【文章來源】：華中科技大學湖北省211工程院校985工程院校教育部直屬院校

【文章頁數】：62 頁

【學位級別】：碩士

【文章目錄】：
摘要
ABSTRACT
1 緒論
    1.1 課題背景與研究意義
    1.2 國內外研究現狀
    1.3 本文主要研究內容
    1.4 論文的結構安排
2 文本特征提取相關技術介紹
    2.1 中文分詞方法與常用工具
        2.1.1 基于字符串匹配的分詞方法
        2.1.2 基于理解的分詞方法
        2.1.3 基于統(tǒng)計的分詞方法
        2.1.4 常用分詞工具
    2.2 傳統(tǒng)的文本特征提取方法
        2.2.1 One-hot模型
        2.2.2 TF-IDF模型
        2.2.3 LDA模型
    2.3 分布式文本特征提取方法
    2.4 本章小結
3 常用文本分類算法
    3.1 支持向量機
        3.1.1 支持向量機原理
        3.1.2 支持向量機的優(yōu)缺點
    3.2 樸素貝葉斯
        3.2.1 樸素貝葉斯算法原理
        3.2.2 樸素貝葉斯算法的優(yōu)缺點
    3.3 隨機森林
        3.3.1 決策樹
        3.3.2 隨機森林
        3.3.3 隨機森林的優(yōu)缺點
    3.4 本章小結
4 基于卷積神經網絡的中文文本分類系統(tǒng)
    4.1 卷積神經網絡模型結構介紹
        4.1.1 卷積神經網絡輸入層
        4.1.2 卷積神經網絡卷積層
        4.1.3 卷積神經網絡的池化層
        4.1.4 卷積神經網絡全連接層
    4.2 卷積神經網絡模型的訓練方法
    4.3 本章小結
5 實驗過程與結果分析
    5.1 實驗環(huán)境
    5.2 數據描述
    5.3 文本分類性能評測指標
    5.4 傳統(tǒng)分類器實驗結果
        5.4.1 特征提取
        5.4.2 分類結果
    5.5 卷積神經網絡實驗結果
        5.5.1 LDA提取主題相關單詞
        5.5.2 卷積神經網絡分類結果
6 總結與展望
    6.1 論文總結
    6.2 工作展望
參考文獻
致謝
附錄

【參考文獻】：
期刊論文
[1]單詞嵌入——自然語言的連續(xù)空間表示[J]. 陳恩紅,邱思語,許暢,田飛,劉鐵巖.  數據采集與處理. 2014(01)
[2]深度學習的昨天、今天和明天[J]. 余凱,賈磊,陳雨強,徐偉.  計算機研究與發(fā)展. 2013(09)
[3]SVM及其在文本分類中的應用[J]. 羅玉華,左軍,李巖.  科技信息. 2010(03)
[4]漢語文本自動分詞算法的研究[J]. 何國斌,趙晶璐.  計算機工程與應用. 2010(03)
[5]中文分詞十年回顧[J]. 黃昌寧,趙海.  中文信息學報. 2007(03)
[6]文本的圖表示初探[J]. 周昭濤,卜東波,程學旗.  中文信息學報. 2005(02)
[7]基于N-最短路徑方法的中文詞語粗分模型[J]. 張華平,劉群.  中文信息學報. 2002(05)
[8]書面漢語的自動分詞與一個自動分詞系統(tǒng)—CDWS[J]. 梁南元.  北京航空學院學報. 1984(04)

博士論文
[1]基于深度學習的文本表示與分類方法研究[D]. 閆琰.北京科技大學 2016
[2]文本分類關鍵技術及應用研究[D]. 鳳麗洲.吉林大學 2015
[3]支持向量機算法及其應用研究[D]. 張國云.湖南大學 2006

碩士論文
[1]中文分詞技術在搜索引擎中的研究與應用[D]. 魏光澤.青島科技大學 2016
[2]中文分詞算法的研究與實現[D]. 秦贊.吉林大學 2016
[3]基于卷積神經網絡的句子分類算法[D]. 林榮華.浙江大學 2015
[4]隨機森林在文本分類中的應用[D]. 賀捷.華南理工大學 2015
[5]基于樸素貝葉斯方法的中文文本分類研究[D]. 李丹.河北大學 2011
[6]基于神經網絡的中文分詞算法的研究[D]. 張曉淼.大連理工大學 2006

本文編號：3645694

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/guanlilunwen/tongjijuecelunwen/3645694.html

上一篇：財經類專業(yè)《應用統(tǒng)計學》實踐教學質量改善探索
下一篇：淺析統(tǒng)計單位劃分中的問題與對策

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于卷積神經網絡的中文文本分類研究