融合深度學(xué)習(xí)特征與淺層機器學(xué)習(xí)特征的中文分詞關(guān)鍵技術(shù)研究
發(fā)布時間:2022-02-18 23:26
近些年來,隨著互聯(lián)網(wǎng)時代的到來,我國互聯(lián)網(wǎng)技術(shù)不斷發(fā)展。在日常生活中,企業(yè)和用戶都希望能夠從計算機數(shù)據(jù)中獲得快速精確的文本數(shù)據(jù)。對于很多自然語言處理任務(wù)來說,分詞往往是任務(wù)實施的第一步,分詞效果的好壞可能會直接影響相關(guān)任務(wù)的準確性。中文分詞中也存在著一些問題制約著分詞準確率的提升,如未登錄詞和歧義詞的出現(xiàn)。通過研究,學(xué)者們提出了一系列試圖解決這些問題的方法,這些方法主要有三種:基于概率統(tǒng)計模型的分詞方法,基于詞典匹配技術(shù)的分詞方法和基于字標注的技術(shù)的分詞方法。隨著大量機器學(xué)習(xí)的方法被運用到自然語言處理領(lǐng)域,學(xué)者們提出了基于隱馬爾可夫和基于條件隨機場的分詞模型。當標記數(shù)據(jù)量增大時,基于機器學(xué)習(xí)的中文分詞方法相對于傳統(tǒng)的方法會有大幅的提升。目前深度學(xué)習(xí)在圖像處理領(lǐng)域被廣泛運用,也取得了可喜的成績,同時在自然語言領(lǐng)域也有不錯的效果。本文將機器學(xué)習(xí)和深度學(xué)習(xí)的方法運用到中文分詞領(lǐng)域,對傳統(tǒng)的基于機器學(xué)習(xí)中文分詞方法進行改進,提升分詞效果。本文將標記語料按字向量化后,注入LSTM將語言中上下文關(guān)系添加到向量中,為接下來的條件隨機場分詞提供了充足的上下文信息,從而提升分詞的準確率。LSTM相比于卷...
【文章來源】:華中師范大學(xué)湖北省211工程院校教育部直屬院校
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.1.1 中文分詞的研究現(xiàn)狀
1.1.2 中文分詞的技術(shù)發(fā)展
1.1.3 中文分詞與機器學(xué)習(xí)
1.1.4 中文分詞與深度學(xué)習(xí)
1.2 論文主要工作和貢獻
1.3 論文組織
第二章 深度學(xué)習(xí)與淺層機器學(xué)習(xí)理論基礎(chǔ)
2.1 機器學(xué)習(xí)理論基礎(chǔ)
2.1.1 隱馬爾可夫模型
2.1.2 條件隨機場模型
2.2 深度學(xué)習(xí)理論基礎(chǔ)
2.2.1 神經(jīng)網(wǎng)絡(luò)模型
2.2.2 神經(jīng)網(wǎng)絡(luò)參數(shù)的訓(xùn)練方式
2.3 RNN和LSTM神經(jīng)網(wǎng)絡(luò)
2.4 本章小結(jié)
第三章 CRF與詞向量的分詞方法的優(yōu)化
3.1 引出問題
3.2 基于條件隨機場與word2vec的中文分詞方法結(jié)合的優(yōu)化
3.2.1 條件隨機場的中文分詞方法
3.2.2 word2vec的中文分詞方法
3.2.3 條件隨機場與word2vec結(jié)合的中文分詞方法
3.2.4 模型整體框架
3.3 實驗分析
3.3.1 實驗數(shù)據(jù)集
3.3.2 實驗環(huán)境
3.3.3 實驗評價標準
3.3.4 實驗的步驟
3.4 本章小結(jié)
第四章 雙向LSTM模型中文分詞模型的優(yōu)化
4.1 問題概述
4.2 基于深度學(xué)習(xí)的中文分詞方法
4.2.1 基于BP的中文分詞方法
4.2.2 基于RNN的中文分詞方法
4.2.3 基于LSTM的中文分詞方法
4.2.4 雙向LSTM模型的中文分詞方法的優(yōu)化
4.3 實驗分析
4.3.1 實驗數(shù)據(jù)集
4.3.2 實驗環(huán)境
4.3.3 實驗評價標準
4.3.4 實驗的步驟
4.3.5 實驗結(jié)果
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 工作展望
參考文獻
攻讀碩士期間發(fā)表的論文和科研項目
致謝
【參考文獻】:
期刊論文
[1]基于高斯詞長特征的中文分詞方法[J]. 張義,李治江. 中文信息學(xué)報. 2016(05)
[2]基于LSTM網(wǎng)絡(luò)的序列標注中文分詞法[J]. 任智慧,徐浩煜,封松林,周晗,施俊. 計算機應(yīng)用研究. 2017(05)
[3]中文分詞算法研究與分析[J]. 江華麗. 物聯(lián)網(wǎng)技術(shù). 2016(01)
[4]基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿. 北京大學(xué)學(xué)報(自然科學(xué)版). 2016(01)
[5]基于感知器的中文分詞增量訓(xùn)練方法研究[J]. 韓冰,劉一佳,車萬翔,劉挺. 中文信息學(xué)報. 2015(05)
[6]基于Active Learning的中文分詞領(lǐng)域自適應(yīng)[J]. 許華婷,張玉潔,楊曉暉,單華,徐金安,陳鈺楓. 中文信息學(xué)報. 2015(05)
[7]基于表示學(xué)習(xí)的中文分詞算法探索[J]. 來斯惟,徐立恒,陳玉博,劉康,趙軍. 中文信息學(xué)報. 2013(05)
[8]基于序列標注的中文分詞、詞性標注模型比較分析[J]. 劉一佳,車萬翔,劉挺,張梅山. 中文信息學(xué)報. 2013(04)
[9]基于BP神經(jīng)網(wǎng)絡(luò)的中文分詞算法研究[J]. 吳建源. 佛山科學(xué)技術(shù)學(xué)院學(xué)報(自然科學(xué)版). 2012(02)
[10]統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 張梅山,鄧知龍,車萬翔,劉挺. 中文信息學(xué)報. 2012(02)
碩士論文
[1]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[2]中文Web文本自動分類的研究與實現(xiàn)[D]. 劉磊.長春理工大學(xué) 2007
[3]中文信息處理中命名實體識別問題的研究[D]. 朱江濤.沈陽航空工業(yè)學(xué)院 2006
本文編號:3631744
【文章來源】:華中師范大學(xué)湖北省211工程院校教育部直屬院校
【文章頁數(shù)】:56 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.1.1 中文分詞的研究現(xiàn)狀
1.1.2 中文分詞的技術(shù)發(fā)展
1.1.3 中文分詞與機器學(xué)習(xí)
1.1.4 中文分詞與深度學(xué)習(xí)
1.2 論文主要工作和貢獻
1.3 論文組織
第二章 深度學(xué)習(xí)與淺層機器學(xué)習(xí)理論基礎(chǔ)
2.1 機器學(xué)習(xí)理論基礎(chǔ)
2.1.1 隱馬爾可夫模型
2.1.2 條件隨機場模型
2.2 深度學(xué)習(xí)理論基礎(chǔ)
2.2.1 神經(jīng)網(wǎng)絡(luò)模型
2.2.2 神經(jīng)網(wǎng)絡(luò)參數(shù)的訓(xùn)練方式
2.3 RNN和LSTM神經(jīng)網(wǎng)絡(luò)
2.4 本章小結(jié)
第三章 CRF與詞向量的分詞方法的優(yōu)化
3.1 引出問題
3.2 基于條件隨機場與word2vec的中文分詞方法結(jié)合的優(yōu)化
3.2.1 條件隨機場的中文分詞方法
3.2.2 word2vec的中文分詞方法
3.2.3 條件隨機場與word2vec結(jié)合的中文分詞方法
3.2.4 模型整體框架
3.3 實驗分析
3.3.1 實驗數(shù)據(jù)集
3.3.2 實驗環(huán)境
3.3.3 實驗評價標準
3.3.4 實驗的步驟
3.4 本章小結(jié)
第四章 雙向LSTM模型中文分詞模型的優(yōu)化
4.1 問題概述
4.2 基于深度學(xué)習(xí)的中文分詞方法
4.2.1 基于BP的中文分詞方法
4.2.2 基于RNN的中文分詞方法
4.2.3 基于LSTM的中文分詞方法
4.2.4 雙向LSTM模型的中文分詞方法的優(yōu)化
4.3 實驗分析
4.3.1 實驗數(shù)據(jù)集
4.3.2 實驗環(huán)境
4.3.3 實驗評價標準
4.3.4 實驗的步驟
4.3.5 實驗結(jié)果
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 全文總結(jié)
5.2 工作展望
參考文獻
攻讀碩士期間發(fā)表的論文和科研項目
致謝
【參考文獻】:
期刊論文
[1]基于高斯詞長特征的中文分詞方法[J]. 張義,李治江. 中文信息學(xué)報. 2016(05)
[2]基于LSTM網(wǎng)絡(luò)的序列標注中文分詞法[J]. 任智慧,徐浩煜,封松林,周晗,施俊. 計算機應(yīng)用研究. 2017(05)
[3]中文分詞算法研究與分析[J]. 江華麗. 物聯(lián)網(wǎng)技術(shù). 2016(01)
[4]基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿. 北京大學(xué)學(xué)報(自然科學(xué)版). 2016(01)
[5]基于感知器的中文分詞增量訓(xùn)練方法研究[J]. 韓冰,劉一佳,車萬翔,劉挺. 中文信息學(xué)報. 2015(05)
[6]基于Active Learning的中文分詞領(lǐng)域自適應(yīng)[J]. 許華婷,張玉潔,楊曉暉,單華,徐金安,陳鈺楓. 中文信息學(xué)報. 2015(05)
[7]基于表示學(xué)習(xí)的中文分詞算法探索[J]. 來斯惟,徐立恒,陳玉博,劉康,趙軍. 中文信息學(xué)報. 2013(05)
[8]基于序列標注的中文分詞、詞性標注模型比較分析[J]. 劉一佳,車萬翔,劉挺,張梅山. 中文信息學(xué)報. 2013(04)
[9]基于BP神經(jīng)網(wǎng)絡(luò)的中文分詞算法研究[J]. 吳建源. 佛山科學(xué)技術(shù)學(xué)院學(xué)報(自然科學(xué)版). 2012(02)
[10]統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 張梅山,鄧知龍,車萬翔,劉挺. 中文信息學(xué)報. 2012(02)
碩士論文
[1]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[2]中文Web文本自動分類的研究與實現(xiàn)[D]. 劉磊.長春理工大學(xué) 2007
[3]中文信息處理中命名實體識別問題的研究[D]. 朱江濤.沈陽航空工業(yè)學(xué)院 2006
本文編號:3631744
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3631744.html
最近更新
教材專著