基于深度學習理論的中文文本分類技術研究
發(fā)布時間:2021-03-04 22:57
文本分類是信息挖掘的關鍵技術之一,在新聞分類、情感類別分析和輿情監(jiān)督中都有廣泛的應用。傳統(tǒng)的基于詞袋模型和向量空間模型的文本表示方法存在特征提取能力不足和特征信息損失大的問題,而在面對較復雜的文本結(jié)構(gòu)以及多分類、數(shù)據(jù)不均衡等問題時,這些基于傳統(tǒng)的統(tǒng)計學習和機器學習的分類算法的分類性能和模型泛化能力都將受到限制。本文主要在文本的表示方法和深度學習模型兩方面研究中文文本的分類技術,將中文文本表示方法和優(yōu)秀的深度學習算法相結(jié)合,在文本分類任務中實現(xiàn)理想的分類效果。本文的研究工作包含以下幾個方面:1.基于字符級卷積神經(jīng)網(wǎng)絡的中文文本分類研究。針對中文文本中的多分類問題,提出一種基于字符級文本表示和卷積神經(jīng)網(wǎng)絡的分類方法。首先基于該任務構(gòu)建了規(guī)模達到575000的漢字字符數(shù)據(jù)集及其對應的三種拼音格式數(shù)據(jù)集。對于漢字字符數(shù)據(jù)集,以漢字字符和標點符號構(gòu)建字符字典;對于三種拼音格式的數(shù)據(jù)集,以拼音字母、數(shù)字以及標點符號分別構(gòu)建字符字典。然后基于四種字符字典,分別建立相應的字符級文本表示作為模型的輸入。最后在漢字字符及其對應的三種拼音格式數(shù)據(jù)集上進行模型的訓練測試。實驗結(jié)果表明,模型在漢字字符數(shù)據(jù)集上的...
【文章來源】:華南理工大學廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學位級別】:碩士
【部分圖文】:
系統(tǒng)登錄界面(a)和注冊界面(b)
圖 5-5 導入數(shù)據(jù)積神經(jīng)網(wǎng)絡模型的數(shù)據(jù),首先要建立字典,然列表示,再對數(shù)據(jù)設設置固定的序列長度,對部分,對不足固定值的序列用全零向量填充。力機制和雙向獨立循環(huán)神經(jīng)網(wǎng)絡模型的數(shù)據(jù),特殊符號,形成格式統(tǒng)一的文本。然后用分詞中所有對情感類別分析無意義的停用詞。最后結(jié)合訓練所有詞語的詞向量。務需求,選擇應該使用的算法模型。如果還沒訓練操作,在訓練集和驗證集上進行訓練;接
使用字符級卷積神經(jīng)網(wǎng)絡模型的數(shù)據(jù),首先要建立字典,然后依據(jù)字典將ne-hot 向量序列表示,再對數(shù)據(jù)設設置固定的序列長度,對超出固定值的且忽略超出的部分,對不足固定值的序列用全零向量填充。使用基于注意力機制和雙向獨立循環(huán)神經(jīng)網(wǎng)絡模型的數(shù)據(jù),首先要清洗中的標點以及特殊符號,形成格式統(tǒng)一的文本。然后用分詞工具對所有文接著去除文本中所有對情感類別分析無意義的停用詞。最后利用大型的中傳的數(shù)據(jù)集相結(jié)合訓練所有詞語的詞向量。型分類根據(jù)自己的任務需求,選擇應該使用的算法模型。如果還沒有利用模型對則應首先選擇訓練操作,在訓練集和驗證集上進行訓練;接著選擇測試操試集上測試;完成模型的訓練測試后,就可以對無標簽的預測集或者單個操作判斷文本或情感類別。算法和數(shù)據(jù)操作選擇界面如圖 5-6 所示。
本文編號:3064080
【文章來源】:華南理工大學廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學位級別】:碩士
【部分圖文】:
系統(tǒng)登錄界面(a)和注冊界面(b)
圖 5-5 導入數(shù)據(jù)積神經(jīng)網(wǎng)絡模型的數(shù)據(jù),首先要建立字典,然列表示,再對數(shù)據(jù)設設置固定的序列長度,對部分,對不足固定值的序列用全零向量填充。力機制和雙向獨立循環(huán)神經(jīng)網(wǎng)絡模型的數(shù)據(jù),特殊符號,形成格式統(tǒng)一的文本。然后用分詞中所有對情感類別分析無意義的停用詞。最后結(jié)合訓練所有詞語的詞向量。務需求,選擇應該使用的算法模型。如果還沒訓練操作,在訓練集和驗證集上進行訓練;接
使用字符級卷積神經(jīng)網(wǎng)絡模型的數(shù)據(jù),首先要建立字典,然后依據(jù)字典將ne-hot 向量序列表示,再對數(shù)據(jù)設設置固定的序列長度,對超出固定值的且忽略超出的部分,對不足固定值的序列用全零向量填充。使用基于注意力機制和雙向獨立循環(huán)神經(jīng)網(wǎng)絡模型的數(shù)據(jù),首先要清洗中的標點以及特殊符號,形成格式統(tǒng)一的文本。然后用分詞工具對所有文接著去除文本中所有對情感類別分析無意義的停用詞。最后利用大型的中傳的數(shù)據(jù)集相結(jié)合訓練所有詞語的詞向量。型分類根據(jù)自己的任務需求,選擇應該使用的算法模型。如果還沒有利用模型對則應首先選擇訓練操作,在訓練集和驗證集上進行訓練;接著選擇測試操試集上測試;完成模型的訓練測試后,就可以對無標簽的預測集或者單個操作判斷文本或情感類別。算法和數(shù)據(jù)操作選擇界面如圖 5-6 所示。
本文編號:3064080
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3064080.html
最近更新
教材專著