基于深度學(xué)習(xí)的文本信息分析
發(fā)布時(shí)間:2021-04-20 02:13
隨著互聯(lián)網(wǎng)的信息量快速增長(zhǎng)和信息類別不斷多樣化和碎片化,快速、準(zhǔn)確地獲取有用信息變得更加困難,如何有效地抽取和表示文本的信息已成為亟待解決的問(wèn)題。另一方面,隨著網(wǎng)絡(luò)新媒體的蓬勃發(fā)展,如何將原創(chuàng)內(nèi)容有條理地分門別類且清楚地展示,以及進(jìn)行興趣推薦,已是急需解決的難題。為此,本文圍繞文本分詞、文本向量化的表示、文本的特征融合和文本分類展開(kāi)方法性研究。研究工作不僅有助于推進(jìn)深度學(xué)習(xí)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用研究,而且也為網(wǎng)絡(luò)新媒體的精準(zhǔn)推薦提供技術(shù)參考。主要工作和取得的成果概述如下:1.比較分析具有代表性的最大匹配法、隱馬爾可夫模型在文本分詞應(yīng)用中的優(yōu)勢(shì)、適用范圍和存在的問(wèn)題。進(jìn)而,在最大匹配分詞法基礎(chǔ)上,利用隱馬爾可夫模型的詞性標(biāo)注思想對(duì)分詞結(jié)果進(jìn)行評(píng)估,獲得一種集此兩種方法優(yōu)點(diǎn)的改進(jìn)型分詞算法。比較性的數(shù)值實(shí)驗(yàn)表明,最大匹配法的切分準(zhǔn)確率嚴(yán)重依賴詞典內(nèi)容的豐富性,隱馬爾可夫模型的運(yùn)行速度慢,而改進(jìn)型分詞方法消耗資源少且詞劃分的正確率高,能有效切分歧義詞。2.針對(duì)文本向量化和文本分類問(wèn)題,利用TF-IDF算法獲得的詞頻特征量將TextRank關(guān)鍵詞抽取算法與word2vec獲得的關(guān)鍵詞向量進(jìn)...
【文章來(lái)源】:貴州大學(xué)貴州省 211工程院校
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 研究目的及意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.3.1 文本預(yù)處理
1.3.2 文本表示
1.3.3 文本分類算法
1.3.4 基于深度學(xué)習(xí)的語(yǔ)義分析
1.4 內(nèi)容結(jié)構(gòu)安排
1.5 本章小結(jié)
第二章 文本分析基礎(chǔ)
2.1 文本預(yù)處理
2.1.1 TF-IDF算法
2.1.2 Doc2vec文本向量化
2.2 文本分類算法
2.2.1 樸素貝葉斯
2.2.2 k近鄰算法
2.2.3 支持向量機(jī)
2.3 深度學(xué)習(xí)網(wǎng)絡(luò)
2.3.1 卷積神經(jīng)網(wǎng)絡(luò)
2.4 本章小結(jié)
第三章 改進(jìn)型文本預(yù)處理方法
3.1 文本分詞
3.1.1 最大匹配法
3.1.2 隱馬爾可夫模型
3.2 改進(jìn)型分詞方法
3.3 數(shù)值實(shí)驗(yàn)與分析
3.4 本章小結(jié)
第四章 文本向量化及改進(jìn)型分類算法
4.1 文本向量化算法簡(jiǎn)述
4.2 改進(jìn)型文本向量化算法
4.3 改進(jìn)型k近鄰算法
4.4 改進(jìn)的文本向量化及分類算法
4.5 數(shù)值實(shí)驗(yàn)
4.6 本章小結(jié)
第五章 基于深度學(xué)習(xí)網(wǎng)絡(luò)的文本分析
5.1 基于深度學(xué)習(xí)的文本分析簡(jiǎn)述
5.2 基于主題詞的TextRNN循環(huán)神經(jīng)網(wǎng)絡(luò)文本分析
5.3 基于主題詞的卷積神經(jīng)網(wǎng)絡(luò)文本表示與分類算法
5.4 數(shù)值實(shí)驗(yàn)與結(jié)果分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 進(jìn)一步的工作
致謝
參考文獻(xiàn)
附錄:攻讀碩士學(xué)位期間的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于宏特征融合的文本分類[J]. 王丹丹,陳清財(cái),王曉龍,湯步洲. 中文信息學(xué)報(bào). 2017(02)
[2]基于LDA主題模型的短文本分類[J]. 楊萌萌,黃浩,程露紅,馬平,包武杰. 計(jì)算機(jī)工程與設(shè)計(jì). 2016(12)
[3]一種分布式語(yǔ)義增強(qiáng)的詞匯鏈文本表示模型構(gòu)建方法[J]. 曲云鵬,王文玲. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2016(09)
[4]隱馬爾可夫模型在中文文本分詞中應(yīng)用研究[J]. 王慶福. 無(wú)線互聯(lián)科技. 2016(13)
[5]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
[6]基于文檔分布式表達(dá)的新浪微博情感分類研究[J]. 楊宇婷,王名揚(yáng),田憲允,李鵬宇. 情報(bào)雜志. 2016(02)
[7]生物醫(yī)學(xué)文本挖掘研究熱點(diǎn)分析[J]. 史航,高雯珺,崔雷. 中華醫(yī)學(xué)圖書(shū)情報(bào)雜志. 2016(02)
[8]基于SVM與RNN的文本情感關(guān)鍵句判定與抽取[J]. 劉銘,昝紅英,原慧斌. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2014(11)
[9]基于改進(jìn)最大匹配算法的中文分詞粗分方法[J]. 周俊,鄭中華,張煒. 計(jì)算機(jī)工程與應(yīng)用. 2014(02)
[10]詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 夏天. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2013(09)
博士論文
[1]基于深度學(xué)習(xí)的文本向量化研究與應(yīng)用[D]. 于政.華東師范大學(xué) 2016
[2]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學(xué) 2013
碩士論文
[1]Twitter事件檢測(cè)中的語(yǔ)義和情感分析[D]. 胡馨月.電子科技大學(xué) 2017
[2]基于深度學(xué)習(xí)的短文本分類及信息抽取研究[D]. 李超.鄭州大學(xué) 2017
[3]基于神經(jīng)網(wǎng)絡(luò)模型的漢語(yǔ)框架語(yǔ)義角色識(shí)別[D]. 楊耀文.山西大學(xué) 2016
[4]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[5]基于條件隨機(jī)場(chǎng)模型的中文分詞系統(tǒng)研究與實(shí)現(xiàn)[D]. 楊淦.重慶大學(xué) 2015
[6]文本分類停用詞處理和特征選擇技術(shù)研究[D]. 馬治濤.西安電子科技大學(xué) 2014
[7]基于SVM的文本分類應(yīng)用研究[D]. 伍岳.電子科技大學(xué) 2014
[8]基于距離度量學(xué)習(xí)的文本分類研究[D]. 彭凱.上海交通大學(xué) 2013
[9]詞性標(biāo)注體系對(duì)中文分詞的影響[D]. 劉金寧.大連理工大學(xué) 2010
[10]基于規(guī)則與統(tǒng)計(jì)的漢語(yǔ)自動(dòng)分詞研究[D]. 李丹.長(zhǎng)春工業(yè)大學(xué) 2010
本文編號(hào):3148773
【文章來(lái)源】:貴州大學(xué)貴州省 211工程院校
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景
1.2 研究目的及意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.3.1 文本預(yù)處理
1.3.2 文本表示
1.3.3 文本分類算法
1.3.4 基于深度學(xué)習(xí)的語(yǔ)義分析
1.4 內(nèi)容結(jié)構(gòu)安排
1.5 本章小結(jié)
第二章 文本分析基礎(chǔ)
2.1 文本預(yù)處理
2.1.1 TF-IDF算法
2.1.2 Doc2vec文本向量化
2.2 文本分類算法
2.2.1 樸素貝葉斯
2.2.2 k近鄰算法
2.2.3 支持向量機(jī)
2.3 深度學(xué)習(xí)網(wǎng)絡(luò)
2.3.1 卷積神經(jīng)網(wǎng)絡(luò)
2.4 本章小結(jié)
第三章 改進(jìn)型文本預(yù)處理方法
3.1 文本分詞
3.1.1 最大匹配法
3.1.2 隱馬爾可夫模型
3.2 改進(jìn)型分詞方法
3.3 數(shù)值實(shí)驗(yàn)與分析
3.4 本章小結(jié)
第四章 文本向量化及改進(jìn)型分類算法
4.1 文本向量化算法簡(jiǎn)述
4.2 改進(jìn)型文本向量化算法
4.3 改進(jìn)型k近鄰算法
4.4 改進(jìn)的文本向量化及分類算法
4.5 數(shù)值實(shí)驗(yàn)
4.6 本章小結(jié)
第五章 基于深度學(xué)習(xí)網(wǎng)絡(luò)的文本分析
5.1 基于深度學(xué)習(xí)的文本分析簡(jiǎn)述
5.2 基于主題詞的TextRNN循環(huán)神經(jīng)網(wǎng)絡(luò)文本分析
5.3 基于主題詞的卷積神經(jīng)網(wǎng)絡(luò)文本表示與分類算法
5.4 數(shù)值實(shí)驗(yàn)與結(jié)果分析
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 工作總結(jié)
6.2 進(jìn)一步的工作
致謝
參考文獻(xiàn)
附錄:攻讀碩士學(xué)位期間的研究成果
【參考文獻(xiàn)】:
期刊論文
[1]基于宏特征融合的文本分類[J]. 王丹丹,陳清財(cái),王曉龍,湯步洲. 中文信息學(xué)報(bào). 2017(02)
[2]基于LDA主題模型的短文本分類[J]. 楊萌萌,黃浩,程露紅,馬平,包武杰. 計(jì)算機(jī)工程與設(shè)計(jì). 2016(12)
[3]一種分布式語(yǔ)義增強(qiáng)的詞匯鏈文本表示模型構(gòu)建方法[J]. 曲云鵬,王文玲. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2016(09)
[4]隱馬爾可夫模型在中文文本分詞中應(yīng)用研究[J]. 王慶福. 無(wú)線互聯(lián)科技. 2016(13)
[5]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計(jì)算機(jī)科學(xué). 2016(06)
[6]基于文檔分布式表達(dá)的新浪微博情感分類研究[J]. 楊宇婷,王名揚(yáng),田憲允,李鵬宇. 情報(bào)雜志. 2016(02)
[7]生物醫(yī)學(xué)文本挖掘研究熱點(diǎn)分析[J]. 史航,高雯珺,崔雷. 中華醫(yī)學(xué)圖書(shū)情報(bào)雜志. 2016(02)
[8]基于SVM與RNN的文本情感關(guān)鍵句判定與抽取[J]. 劉銘,昝紅英,原慧斌. 山東大學(xué)學(xué)報(bào)(理學(xué)版). 2014(11)
[9]基于改進(jìn)最大匹配算法的中文分詞粗分方法[J]. 周俊,鄭中華,張煒. 計(jì)算機(jī)工程與應(yīng)用. 2014(02)
[10]詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 夏天. 現(xiàn)代圖書(shū)情報(bào)技術(shù). 2013(09)
博士論文
[1]基于深度學(xué)習(xí)的文本向量化研究與應(yīng)用[D]. 于政.華東師范大學(xué) 2016
[2]文本分類中文本表示模型和特征選擇算法研究[D]. 楊杰明.吉林大學(xué) 2013
碩士論文
[1]Twitter事件檢測(cè)中的語(yǔ)義和情感分析[D]. 胡馨月.電子科技大學(xué) 2017
[2]基于深度學(xué)習(xí)的短文本分類及信息抽取研究[D]. 李超.鄭州大學(xué) 2017
[3]基于神經(jīng)網(wǎng)絡(luò)模型的漢語(yǔ)框架語(yǔ)義角色識(shí)別[D]. 楊耀文.山西大學(xué) 2016
[4]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[5]基于條件隨機(jī)場(chǎng)模型的中文分詞系統(tǒng)研究與實(shí)現(xiàn)[D]. 楊淦.重慶大學(xué) 2015
[6]文本分類停用詞處理和特征選擇技術(shù)研究[D]. 馬治濤.西安電子科技大學(xué) 2014
[7]基于SVM的文本分類應(yīng)用研究[D]. 伍岳.電子科技大學(xué) 2014
[8]基于距離度量學(xué)習(xí)的文本分類研究[D]. 彭凱.上海交通大學(xué) 2013
[9]詞性標(biāo)注體系對(duì)中文分詞的影響[D]. 劉金寧.大連理工大學(xué) 2010
[10]基于規(guī)則與統(tǒng)計(jì)的漢語(yǔ)自動(dòng)分詞研究[D]. 李丹.長(zhǎng)春工業(yè)大學(xué) 2010
本文編號(hào):3148773
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3148773.html
最近更新
教材專著