融合深度學(xué)習(xí)特征與淺層機(jī)器學(xué)習(xí)特征的中文分詞關(guān)鍵技術(shù)研究

發(fā)布時間：2022-02-18 23:26

　　近些年來,隨著互聯(lián)網(wǎng)時代的到來,我國互聯(lián)網(wǎng)技術(shù)不斷發(fā)展。在日常生活中,企業(yè)和用戶都希望能夠從計算機(jī)數(shù)據(jù)中獲得快速精確的文本數(shù)據(jù)。對于很多自然語言處理任務(wù)來說,分詞往往是任務(wù)實施的第一步,分詞效果的好壞可能會直接影響相關(guān)任務(wù)的準(zhǔn)確性。中文分詞中也存在著一些問題制約著分詞準(zhǔn)確率的提升,如未登錄詞和歧義詞的出現(xiàn)。通過研究,學(xué)者們提出了一系列試圖解決這些問題的方法,這些方法主要有三種:基于概率統(tǒng)計模型的分詞方法,基于詞典匹配技術(shù)的分詞方法和基于字標(biāo)注的技術(shù)的分詞方法。隨著大量機(jī)器學(xué)習(xí)的方法被運(yùn)用到自然語言處理領(lǐng)域,學(xué)者們提出了基于隱馬爾可夫和基于條件隨機(jī)場的分詞模型。當(dāng)標(biāo)記數(shù)據(jù)量增大時,基于機(jī)器學(xué)習(xí)的中文分詞方法相對于傳統(tǒng)的方法會有大幅的提升。目前深度學(xué)習(xí)在圖像處理領(lǐng)域被廣泛運(yùn)用,也取得了可喜的成績,同時在自然語言領(lǐng)域也有不錯的效果。本文將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法運(yùn)用到中文分詞領(lǐng)域,對傳統(tǒng)的基于機(jī)器學(xué)習(xí)中文分詞方法進(jìn)行改進(jìn),提升分詞效果。本文將標(biāo)記語料按字向量化后,注入LSTM將語言中上下文關(guān)系添加到向量中,為接下來的條件隨機(jī)場分詞提供了充足的上下文信息,從而提升分詞的準(zhǔn)確率。LSTM相比于卷...

【文章來源】：華中師范大學(xué)湖北省211工程院校教育部直屬院校

【文章頁數(shù)】：56 頁

【學(xué)位級別】：碩士

【文章目錄】：
摘要
Abstract
第一章緒論
    1.1 研究背景和意義
        1.1.1 中文分詞的研究現(xiàn)狀
        1.1.2 中文分詞的技術(shù)發(fā)展
        1.1.3 中文分詞與機(jī)器學(xué)習(xí)
        1.1.4 中文分詞與深度學(xué)習(xí)
    1.2 論文主要工作和貢獻(xiàn)
    1.3 論文組織
第二章深度學(xué)習(xí)與淺層機(jī)器學(xué)習(xí)理論基礎(chǔ)
    2.1 機(jī)器學(xué)習(xí)理論基礎(chǔ)
        2.1.1 隱馬爾可夫模型
        2.1.2 條件隨機(jī)場模型
    2.2 深度學(xué)習(xí)理論基礎(chǔ)
        2.2.1 神經(jīng)網(wǎng)絡(luò)模型
        2.2.2 神經(jīng)網(wǎng)絡(luò)參數(shù)的訓(xùn)練方式
    2.3 RNN和LSTM神經(jīng)網(wǎng)絡(luò)
    2.4 本章小結(jié)
第三章 CRF與詞向量的分詞方法的優(yōu)化
    3.1 引出問題
    3.2 基于條件隨機(jī)場與word2vec的中文分詞方法結(jié)合的優(yōu)化
        3.2.1 條件隨機(jī)場的中文分詞方法
        3.2.2 word2vec的中文分詞方法
        3.2.3 條件隨機(jī)場與word2vec結(jié)合的中文分詞方法
        3.2.4 模型整體框架
    3.3 實驗分析
        3.3.1 實驗數(shù)據(jù)集
        3.3.2 實驗環(huán)境
        3.3.3 實驗評價標(biāo)準(zhǔn)
        3.3.4 實驗的步驟
    3.4 本章小結(jié)
第四章雙向LSTM模型中文分詞模型的優(yōu)化
    4.1 問題概述
    4.2 基于深度學(xué)習(xí)的中文分詞方法
        4.2.1 基于BP的中文分詞方法
        4.2.2 基于RNN的中文分詞方法
        4.2.3 基于LSTM的中文分詞方法
        4.2.4 雙向LSTM模型的中文分詞方法的優(yōu)化
    4.3 實驗分析
        4.3.1 實驗數(shù)據(jù)集
        4.3.2 實驗環(huán)境
        4.3.3 實驗評價標(biāo)準(zhǔn)
        4.3.4 實驗的步驟
        4.3.5 實驗結(jié)果
    4.4 本章小結(jié)
第五章總結(jié)與展望
    5.1 全文總結(jié)
    5.2 工作展望
參考文獻(xiàn)
攻讀碩士期間發(fā)表的論文和科研項目
致謝

【參考文獻(xiàn)】：
期刊論文
[1]基于高斯詞長特征的中文分詞方法[J]. 張義,李治江.  中文信息學(xué)報. 2016(05)
[2]基于LSTM網(wǎng)絡(luò)的序列標(biāo)注中文分詞法[J]. 任智慧,徐浩煜,封松林,周晗,施俊.  計算機(jī)應(yīng)用研究. 2017(05)
[3]中文分詞算法研究與分析[J]. 江華麗.  物聯(lián)網(wǎng)技術(shù). 2016(01)
[4]基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進(jìn)[J]. 杜麗萍,李曉戈,于根,劉春麗,劉睿.  北京大學(xué)學(xué)報(自然科學(xué)版). 2016(01)
[5]基于感知器的中文分詞增量訓(xùn)練方法研究[J]. 韓冰,劉一佳,車萬翔,劉挺.  中文信息學(xué)報. 2015(05)
[6]基于Active Learning的中文分詞領(lǐng)域自適應(yīng)[J]. 許華婷,張玉潔,楊曉暉,單華,徐金安,陳鈺楓.  中文信息學(xué)報. 2015(05)
[7]基于表示學(xué)習(xí)的中文分詞算法探索[J]. 來斯惟,徐立恒,陳玉博,劉康,趙軍.  中文信息學(xué)報. 2013(05)
[8]基于序列標(biāo)注的中文分詞、詞性標(biāo)注模型比較分析[J]. 劉一佳,車萬翔,劉挺,張梅山.  中文信息學(xué)報. 2013(04)
[9]基于BP神經(jīng)網(wǎng)絡(luò)的中文分詞算法研究[J]. 吳建源.  佛山科學(xué)技術(shù)學(xué)院學(xué)報(自然科學(xué)版). 2012(02)
[10]統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 張梅山,鄧知龍,車萬翔,劉挺.  中文信息學(xué)報. 2012(02)

碩士論文
[1]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[2]中文Web文本自動分類的研究與實現(xiàn)[D]. 劉磊.長春理工大學(xué) 2007
[3]中文信息處理中命名實體識別問題的研究[D]. 朱江濤.沈陽航空工業(yè)學(xué)院 2006

本文編號：3631744

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3631744.html

上一篇：基于LSTM網(wǎng)絡(luò)的政策挖掘研究與應(yīng)用
下一篇：生物3D打印制備SA/Ge凝膠支架探究淫羊藿苷對軟骨細(xì)胞增殖、分泌的影響

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

融合深度學(xué)習(xí)特征與淺層機(jī)器學(xué)習(xí)特征的中文分詞關(guān)鍵技術(shù)研究