基于深度學(xué)習(xí)理論的中文文本分類技術(shù)研究
發(fā)布時(shí)間:2021-03-04 22:57
文本分類是信息挖掘的關(guān)鍵技術(shù)之一,在新聞分類、情感類別分析和輿情監(jiān)督中都有廣泛的應(yīng)用。傳統(tǒng)的基于詞袋模型和向量空間模型的文本表示方法存在特征提取能力不足和特征信息損失大的問題,而在面對(duì)較復(fù)雜的文本結(jié)構(gòu)以及多分類、數(shù)據(jù)不均衡等問題時(shí),這些基于傳統(tǒng)的統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)的分類算法的分類性能和模型泛化能力都將受到限制。本文主要在文本的表示方法和深度學(xué)習(xí)模型兩方面研究中文文本的分類技術(shù),將中文文本表示方法和優(yōu)秀的深度學(xué)習(xí)算法相結(jié)合,在文本分類任務(wù)中實(shí)現(xiàn)理想的分類效果。本文的研究工作包含以下幾個(gè)方面:1.基于字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)的中文文本分類研究。針對(duì)中文文本中的多分類問題,提出一種基于字符級(jí)文本表示和卷積神經(jīng)網(wǎng)絡(luò)的分類方法。首先基于該任務(wù)構(gòu)建了規(guī)模達(dá)到575000的漢字字符數(shù)據(jù)集及其對(duì)應(yīng)的三種拼音格式數(shù)據(jù)集。對(duì)于漢字字符數(shù)據(jù)集,以漢字字符和標(biāo)點(diǎn)符號(hào)構(gòu)建字符字典;對(duì)于三種拼音格式的數(shù)據(jù)集,以拼音字母、數(shù)字以及標(biāo)點(diǎn)符號(hào)分別構(gòu)建字符字典。然后基于四種字符字典,分別建立相應(yīng)的字符級(jí)文本表示作為模型的輸入。最后在漢字字符及其對(duì)應(yīng)的三種拼音格式數(shù)據(jù)集上進(jìn)行模型的訓(xùn)練測(cè)試。實(shí)驗(yàn)結(jié)果表明,模型在漢字字符數(shù)據(jù)集上的...
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
系統(tǒng)登錄界面(a)和注冊(cè)界面(b)
圖 5-5 導(dǎo)入數(shù)據(jù)積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù),首先要建立字典,然列表示,再對(duì)數(shù)據(jù)設(shè)設(shè)置固定的序列長(zhǎng)度,對(duì)部分,對(duì)不足固定值的序列用全零向量填充。力機(jī)制和雙向獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù),特殊符號(hào),形成格式統(tǒng)一的文本。然后用分詞中所有對(duì)情感類別分析無意義的停用詞。最后結(jié)合訓(xùn)練所有詞語的詞向量。務(wù)需求,選擇應(yīng)該使用的算法模型。如果還沒訓(xùn)練操作,在訓(xùn)練集和驗(yàn)證集上進(jìn)行訓(xùn)練;接
使用字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù),首先要建立字典,然后依據(jù)字典將ne-hot 向量序列表示,再對(duì)數(shù)據(jù)設(shè)設(shè)置固定的序列長(zhǎng)度,對(duì)超出固定值的且忽略超出的部分,對(duì)不足固定值的序列用全零向量填充。使用基于注意力機(jī)制和雙向獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù),首先要清洗中的標(biāo)點(diǎn)以及特殊符號(hào),形成格式統(tǒng)一的文本。然后用分詞工具對(duì)所有文接著去除文本中所有對(duì)情感類別分析無意義的停用詞。最后利用大型的中傳的數(shù)據(jù)集相結(jié)合訓(xùn)練所有詞語的詞向量。型分類根據(jù)自己的任務(wù)需求,選擇應(yīng)該使用的算法模型。如果還沒有利用模型對(duì)則應(yīng)首先選擇訓(xùn)練操作,在訓(xùn)練集和驗(yàn)證集上進(jìn)行訓(xùn)練;接著選擇測(cè)試操試集上測(cè)試;完成模型的訓(xùn)練測(cè)試后,就可以對(duì)無標(biāo)簽的預(yù)測(cè)集或者單個(gè)操作判斷文本或情感類別。算法和數(shù)據(jù)操作選擇界面如圖 5-6 所示。
本文編號(hào):3064080
【文章來源】:華南理工大學(xué)廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
系統(tǒng)登錄界面(a)和注冊(cè)界面(b)
圖 5-5 導(dǎo)入數(shù)據(jù)積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù),首先要建立字典,然列表示,再對(duì)數(shù)據(jù)設(shè)設(shè)置固定的序列長(zhǎng)度,對(duì)部分,對(duì)不足固定值的序列用全零向量填充。力機(jī)制和雙向獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù),特殊符號(hào),形成格式統(tǒng)一的文本。然后用分詞中所有對(duì)情感類別分析無意義的停用詞。最后結(jié)合訓(xùn)練所有詞語的詞向量。務(wù)需求,選擇應(yīng)該使用的算法模型。如果還沒訓(xùn)練操作,在訓(xùn)練集和驗(yàn)證集上進(jìn)行訓(xùn)練;接
使用字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù),首先要建立字典,然后依據(jù)字典將ne-hot 向量序列表示,再對(duì)數(shù)據(jù)設(shè)設(shè)置固定的序列長(zhǎng)度,對(duì)超出固定值的且忽略超出的部分,對(duì)不足固定值的序列用全零向量填充。使用基于注意力機(jī)制和雙向獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù),首先要清洗中的標(biāo)點(diǎn)以及特殊符號(hào),形成格式統(tǒng)一的文本。然后用分詞工具對(duì)所有文接著去除文本中所有對(duì)情感類別分析無意義的停用詞。最后利用大型的中傳的數(shù)據(jù)集相結(jié)合訓(xùn)練所有詞語的詞向量。型分類根據(jù)自己的任務(wù)需求,選擇應(yīng)該使用的算法模型。如果還沒有利用模型對(duì)則應(yīng)首先選擇訓(xùn)練操作,在訓(xùn)練集和驗(yàn)證集上進(jìn)行訓(xùn)練;接著選擇測(cè)試操試集上測(cè)試;完成模型的訓(xùn)練測(cè)試后,就可以對(duì)無標(biāo)簽的預(yù)測(cè)集或者單個(gè)操作判斷文本或情感類別。算法和數(shù)據(jù)操作選擇界面如圖 5-6 所示。
本文編號(hào):3064080
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3064080.html
最近更新
教材專著