基于卷積神經網絡的中文文本分類研究
發(fā)布時間:2022-03-09 12:34
互聯網的快速發(fā)展,使得互聯網上的數據呈指數級的增長,人類社會正邁入大數據時代;如何有效的存儲、管理進而挖掘出數據中的價值,從而為人類社會服務,是當今學術界和工業(yè)界都極度重視的課題。文本數據作為信息的主要載體之一,相比于圖像、視頻等,在攜帶的信息量大致相同的情況下,占用的網絡資源最少,傳播更為方便、快捷,因此成為互聯網上主要的信息傳播載體。文本分類是文本數據管理、價值挖掘的最重要的部分,而傳統(tǒng)分類方法模型表達能力較弱,已無法應對文本分類領域海量數據、多類別等問題的挑戰(zhàn),尋找新的文本表示與分類方法變得十分緊迫。本文采用深度學習中的卷積神經網絡模型作為分類器,利用Word2vec模型提取文本特征,先將經過分詞后的文本庫中的每個詞語映射到一個固定長度的向量,再遍歷每篇文本,將文本中的詞語逐一轉換為向量,依次排列,得到文本的矩陣表示;文本庫中的單個文本最大長度決定了最終的文本矩陣行數,不足的部分補零,最后將文本矩陣輸入到卷積神經網絡模型中;針對原始文本庫中的詞語數量多、單個文本包含詞匯量較多,不利于后續(xù)分類處理的問題,本文采用LDA模型,先訓練提取所有文本的潛在主題,再由潛在的主題得到與每個主題...
【文章來源】:華中科技大學湖北省211工程院校985工程院校教育部直屬院校
【文章頁數】:62 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 課題背景與研究意義
1.2 國內外研究現狀
1.3 本文主要研究內容
1.4 論文的結構安排
2 文本特征提取相關技術介紹
2.1 中文分詞方法與常用工具
2.1.1 基于字符串匹配的分詞方法
2.1.2 基于理解的分詞方法
2.1.3 基于統(tǒng)計的分詞方法
2.1.4 常用分詞工具
2.2 傳統(tǒng)的文本特征提取方法
2.2.1 One-hot模型
2.2.2 TF-IDF模型
2.2.3 LDA模型
2.3 分布式文本特征提取方法
2.4 本章小結
3 常用文本分類算法
3.1 支持向量機
3.1.1 支持向量機原理
3.1.2 支持向量機的優(yōu)缺點
3.2 樸素貝葉斯
3.2.1 樸素貝葉斯算法原理
3.2.2 樸素貝葉斯算法的優(yōu)缺點
3.3 隨機森林
3.3.1 決策樹
3.3.2 隨機森林
3.3.3 隨機森林的優(yōu)缺點
3.4 本章小結
4 基于卷積神經網絡的中文文本分類系統(tǒng)
4.1 卷積神經網絡模型結構介紹
4.1.1 卷積神經網絡輸入層
4.1.2 卷積神經網絡卷積層
4.1.3 卷積神經網絡的池化層
4.1.4 卷積神經網絡全連接層
4.2 卷積神經網絡模型的訓練方法
4.3 本章小結
5 實驗過程與結果分析
5.1 實驗環(huán)境
5.2 數據描述
5.3 文本分類性能評測指標
5.4 傳統(tǒng)分類器實驗結果
5.4.1 特征提取
5.4.2 分類結果
5.5 卷積神經網絡實驗結果
5.5.1 LDA提取主題相關單詞
5.5.2 卷積神經網絡分類結果
6 總結與展望
6.1 論文總結
6.2 工作展望
參考文獻
致謝
附錄
【參考文獻】:
期刊論文
[1]單詞嵌入——自然語言的連續(xù)空間表示[J]. 陳恩紅,邱思語,許暢,田飛,劉鐵巖. 數據采集與處理. 2014(01)
[2]深度學習的昨天、今天和明天[J]. 余凱,賈磊,陳雨強,徐偉. 計算機研究與發(fā)展. 2013(09)
[3]SVM及其在文本分類中的應用[J]. 羅玉華,左軍,李巖. 科技信息. 2010(03)
[4]漢語文本自動分詞算法的研究[J]. 何國斌,趙晶璐. 計算機工程與應用. 2010(03)
[5]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學報. 2007(03)
[6]文本的圖表示初探[J]. 周昭濤,卜東波,程學旗. 中文信息學報. 2005(02)
[7]基于N-最短路徑方法的中文詞語粗分模型[J]. 張華平,劉群. 中文信息學報. 2002(05)
[8]書面漢語的自動分詞與一個自動分詞系統(tǒng)—CDWS[J]. 梁南元. 北京航空學院學報. 1984(04)
博士論文
[1]基于深度學習的文本表示與分類方法研究[D]. 閆琰.北京科技大學 2016
[2]文本分類關鍵技術及應用研究[D]. 鳳麗洲.吉林大學 2015
[3]支持向量機算法及其應用研究[D]. 張國云.湖南大學 2006
碩士論文
[1]中文分詞技術在搜索引擎中的研究與應用[D]. 魏光澤.青島科技大學 2016
[2]中文分詞算法的研究與實現[D]. 秦贊.吉林大學 2016
[3]基于卷積神經網絡的句子分類算法[D]. 林榮華.浙江大學 2015
[4]隨機森林在文本分類中的應用[D]. 賀捷.華南理工大學 2015
[5]基于樸素貝葉斯方法的中文文本分類研究[D]. 李丹.河北大學 2011
[6]基于神經網絡的中文分詞算法的研究[D]. 張曉淼.大連理工大學 2006
本文編號:3645694
【文章來源】:華中科技大學湖北省211工程院校985工程院校教育部直屬院校
【文章頁數】:62 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 課題背景與研究意義
1.2 國內外研究現狀
1.3 本文主要研究內容
1.4 論文的結構安排
2 文本特征提取相關技術介紹
2.1 中文分詞方法與常用工具
2.1.1 基于字符串匹配的分詞方法
2.1.2 基于理解的分詞方法
2.1.3 基于統(tǒng)計的分詞方法
2.1.4 常用分詞工具
2.2 傳統(tǒng)的文本特征提取方法
2.2.1 One-hot模型
2.2.2 TF-IDF模型
2.2.3 LDA模型
2.3 分布式文本特征提取方法
2.4 本章小結
3 常用文本分類算法
3.1 支持向量機
3.1.1 支持向量機原理
3.1.2 支持向量機的優(yōu)缺點
3.2 樸素貝葉斯
3.2.1 樸素貝葉斯算法原理
3.2.2 樸素貝葉斯算法的優(yōu)缺點
3.3 隨機森林
3.3.1 決策樹
3.3.2 隨機森林
3.3.3 隨機森林的優(yōu)缺點
3.4 本章小結
4 基于卷積神經網絡的中文文本分類系統(tǒng)
4.1 卷積神經網絡模型結構介紹
4.1.1 卷積神經網絡輸入層
4.1.2 卷積神經網絡卷積層
4.1.3 卷積神經網絡的池化層
4.1.4 卷積神經網絡全連接層
4.2 卷積神經網絡模型的訓練方法
4.3 本章小結
5 實驗過程與結果分析
5.1 實驗環(huán)境
5.2 數據描述
5.3 文本分類性能評測指標
5.4 傳統(tǒng)分類器實驗結果
5.4.1 特征提取
5.4.2 分類結果
5.5 卷積神經網絡實驗結果
5.5.1 LDA提取主題相關單詞
5.5.2 卷積神經網絡分類結果
6 總結與展望
6.1 論文總結
6.2 工作展望
參考文獻
致謝
附錄
【參考文獻】:
期刊論文
[1]單詞嵌入——自然語言的連續(xù)空間表示[J]. 陳恩紅,邱思語,許暢,田飛,劉鐵巖. 數據采集與處理. 2014(01)
[2]深度學習的昨天、今天和明天[J]. 余凱,賈磊,陳雨強,徐偉. 計算機研究與發(fā)展. 2013(09)
[3]SVM及其在文本分類中的應用[J]. 羅玉華,左軍,李巖. 科技信息. 2010(03)
[4]漢語文本自動分詞算法的研究[J]. 何國斌,趙晶璐. 計算機工程與應用. 2010(03)
[5]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學報. 2007(03)
[6]文本的圖表示初探[J]. 周昭濤,卜東波,程學旗. 中文信息學報. 2005(02)
[7]基于N-最短路徑方法的中文詞語粗分模型[J]. 張華平,劉群. 中文信息學報. 2002(05)
[8]書面漢語的自動分詞與一個自動分詞系統(tǒng)—CDWS[J]. 梁南元. 北京航空學院學報. 1984(04)
博士論文
[1]基于深度學習的文本表示與分類方法研究[D]. 閆琰.北京科技大學 2016
[2]文本分類關鍵技術及應用研究[D]. 鳳麗洲.吉林大學 2015
[3]支持向量機算法及其應用研究[D]. 張國云.湖南大學 2006
碩士論文
[1]中文分詞技術在搜索引擎中的研究與應用[D]. 魏光澤.青島科技大學 2016
[2]中文分詞算法的研究與實現[D]. 秦贊.吉林大學 2016
[3]基于卷積神經網絡的句子分類算法[D]. 林榮華.浙江大學 2015
[4]隨機森林在文本分類中的應用[D]. 賀捷.華南理工大學 2015
[5]基于樸素貝葉斯方法的中文文本分類研究[D]. 李丹.河北大學 2011
[6]基于神經網絡的中文分詞算法的研究[D]. 張曉淼.大連理工大學 2006
本文編號:3645694
本文鏈接:http://sikaile.net/guanlilunwen/tongjijuecelunwen/3645694.html