基于深度學(xué)習(xí)混合模型的文本分類研究
本文關(guān)鍵詞:基于深度學(xué)習(xí)混合模型的文本分類研究
更多相關(guān)文章: 文本分類 深度學(xué)習(xí) 稀疏自動(dòng)編碼器 深度置信網(wǎng)絡(luò) Softmax
【摘要】:互聯(lián)網(wǎng)的飛速發(fā)展使得文本分類成為大數(shù)據(jù)時(shí)代下的一種關(guān)鍵技術(shù)。文本信息中包含著大量的有價(jià)值信息,如何有效的管理這些文本信息并且有效的獲取有價(jià)值的信息成為信息科學(xué)面臨的挑戰(zhàn)。文本分類是文本信息處理當(dāng)中的關(guān)鍵點(diǎn),在文本信息處理中有著重要地位。目前深度學(xué)習(xí)已廣泛應(yīng)用與手寫體識(shí)別、圖像識(shí)別以及語(yǔ)音識(shí)別等各種領(lǐng)域,但是應(yīng)用于文本分類方面的研究仍然比較少。本文充分利用了深度學(xué)習(xí)良好的學(xué)習(xí)特征能力,提出了一種基于深度學(xué)習(xí)的混合模型,并且設(shè)計(jì)出一種基于該混合模型的文本分類器。該混合模型使用了稀疏自動(dòng)編碼器和深度置信網(wǎng)絡(luò)兩種常見的深度學(xué)習(xí)模型進(jìn)行混合。混合模型主要由三部分組成,前兩層使用稀疏自動(dòng)編碼器來(lái)構(gòu)造,中間使用一個(gè)三層的深度置信網(wǎng)絡(luò),最后用Softmax回歸作為分類層。為了測(cè)試本文基于深度學(xué)習(xí)混合模型的分類器的分類性能,分別在英文數(shù)據(jù)集20Newsgroup和中文數(shù)據(jù)集復(fù)旦大學(xué)中文語(yǔ)料庫(kù)上進(jìn)行了相關(guān)實(shí)驗(yàn)。在英文文本分類實(shí)驗(yàn)中,使用基于深度學(xué)習(xí)混合模型的分類器進(jìn)行分類,得到了比較高的分類正確率。為進(jìn)一步驗(yàn)證其性能的優(yōu)越性,與樸素貝葉斯分類器、KNN分類器、支持向量機(jī)分類器進(jìn)行對(duì)比實(shí)驗(yàn),基于深度學(xué)習(xí)混合模型的分類器的分類效果要好于樸素貝葉斯分類器、KNN分類器和支持向量機(jī)分類器的分類效果。在中文文本分類實(shí)驗(yàn)中,對(duì)復(fù)旦大學(xué)中文語(yǔ)料庫(kù)進(jìn)行了實(shí)驗(yàn),得到很好的分類效果,并且討論了不同的參數(shù)設(shè)置對(duì)分類正確率的影響。
【關(guān)鍵詞】:文本分類 深度學(xué)習(xí) 稀疏自動(dòng)編碼器 深度置信網(wǎng)絡(luò) Softmax
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
- 中文摘要3-4
- Abstract4-8
- 第一章 緒論8-15
- 1.1 數(shù)據(jù)挖掘領(lǐng)域相關(guān)介紹8-10
- 1.1.1 數(shù)據(jù)挖掘的技術(shù)分類8-9
- 1.1.2 數(shù)據(jù)挖掘的挖掘過程9
- 1.1.3 數(shù)據(jù)挖掘的研究熱點(diǎn)問題9-10
- 1.2 文本分類研究背景及意義10-11
- 1.3 文本分類的研究現(xiàn)狀11-13
- 1.4 論文的主要工作及組織結(jié)構(gòu)13-15
- 第二章 文本分類中的相關(guān)技術(shù)15-24
- 2.1 文本分類概述15-16
- 2.2 文本預(yù)處理16
- 2.3 文本表示16-17
- 2.4 文本特征選擇17-19
- 2.5 文本分類算法19-22
- 2.5.1 樸素貝葉斯19-20
- 2.5.2 決策樹20-21
- 2.5.3 KNN21
- 2.5.4 支持向量機(jī)21-22
- 2.6 本章小結(jié)22-24
- 第三章 深度學(xué)習(xí)24-33
- 3.1 深度學(xué)習(xí)簡(jiǎn)介24-27
- 3.1.1 深度學(xué)習(xí)基本思想25-26
- 3.1.2 深度學(xué)習(xí)的訓(xùn)練過程26-27
- 3.2 深度學(xué)習(xí)的常用模型27-28
- 3.2.1 自動(dòng)編碼器27
- 3.2.2 卷積神經(jīng)網(wǎng)絡(luò)27-28
- 3.3 受限玻爾茲曼機(jī)28-32
- 3.3.1 受限玻爾茲曼機(jī)原理28-30
- 3.3.2 受限玻爾茲曼機(jī)的能量模型30-31
- 3.3.3 受限玻爾茲曼機(jī)的訓(xùn)練算法31-32
- 3.4 本章小結(jié)32-33
- 第四章 基于深度學(xué)習(xí)混合模型的文本分類33-44
- 4.1 混合模型的設(shè)計(jì)33-34
- 4.2 文本分類器的設(shè)計(jì)34-43
- 4.2.1 文本預(yù)處理模塊35-37
- 4.2.2 特征學(xué)習(xí)模塊37-42
- 4.2.3 分類識(shí)別模塊42-43
- 4.3 本章小結(jié)43-44
- 第五章 實(shí)驗(yàn)及結(jié)果分析44-50
- 5.1 分類的評(píng)價(jià)標(biāo)準(zhǔn)44
- 5.2 實(shí)驗(yàn)數(shù)據(jù)集44-45
- 5.3 實(shí)驗(yàn)的軟硬件環(huán)境45
- 5.4 英文文本分類實(shí)驗(yàn)45-47
- 5.5 中文文本分類實(shí)驗(yàn)47-50
- 第六章 總結(jié)與展望50-52
- 6.1 研究工作總結(jié)50-51
- 6.2 展望51-52
- 參考文獻(xiàn)52-54
- 在學(xué)期間的研究成果54-55
- 致謝55
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 楊春德;張磊;;基于自適應(yīng)深度置信網(wǎng)絡(luò)的圖像分類方法[J];計(jì)算機(jī)工程與設(shè)計(jì);2015年10期
2 陳翠平;;基于深度信念網(wǎng)絡(luò)的文本分類算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2015年02期
3 劉勘;袁蘊(yùn)英;;基于自動(dòng)編碼器的短文本特征提取及聚類研究[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2015年02期
4 雷成;葉小勇;李小波;;深度學(xué)習(xí)技術(shù)及其在腫瘤分類中的應(yīng)用[J];智能計(jì)算機(jī)與應(yīng)用;2014年06期
5 曲建嶺;杜辰飛;邸亞洲;高峰;郭超然;;深度自動(dòng)編碼器的研究與展望[J];計(jì)算機(jī)與現(xiàn)代化;2014年08期
6 張開旭;周昌樂;;基于自動(dòng)編碼器的中文詞匯特征無(wú)監(jiān)督學(xué)習(xí)[J];中文信息學(xué)報(bào);2013年05期
7 戚孝銘;施亮;;基于模擬退火及蜂群算法的優(yōu)化特征選擇算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2013年08期
8 張培穎;王雷全;;基于語(yǔ)義距離的文本分類方法[J];計(jì)算機(jī)技術(shù)與發(fā)展;2013年01期
9 孫志軍;薛磊;許陽(yáng)明;王正;;深度學(xué)習(xí)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2012年08期
10 郭亞維;劉曉霞;;文本分類中信息增益特征選擇方法的研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年27期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前1條
1 陸璐;張旭東;趙瑩;高雋;;基于卷積神經(jīng)網(wǎng)絡(luò)的車牌照字符識(shí)別研究[A];第十二屆全國(guó)圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2005年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 馬冬梅;基于深度學(xué)習(xí)的圖像檢索研究[D];內(nèi)蒙古大學(xué);2014年
2 王海麟;通過信息幾何方法挖掘玻爾茲曼機(jī)的不變性[D];天津大學(xué);2014年
3 姜鶴;SVM文本分類中基于法向量的特征選擇算法研究[D];上海交通大學(xué);2010年
,本文編號(hào):768478
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/768478.html