面向中文文本的命名實(shí)體識(shí)別算法研究
發(fā)布時(shí)間:2022-11-01 19:50
命名實(shí)體識(shí)別是自然語言處理中一個(gè)重要的基礎(chǔ)任務(wù),旨在自動(dòng)識(shí)別文本中具有特定意義的實(shí)體名詞,通常包括人名、地名、機(jī)構(gòu)名等。命名實(shí)體識(shí)別能夠?qū)⒎墙Y(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù),使計(jì)算機(jī)像人類一樣對(duì)文本信息進(jìn)行理解,在知識(shí)圖譜、問答系統(tǒng)、搜索引擎等領(lǐng)域有著重要的應(yīng)用價(jià)值。但在中文領(lǐng)域的命名實(shí)體識(shí)別中,由于漢語自身的特性,仍存在許多難題,主要包括:(1)漢語文本的詞語之間沒有邊界,因此命名實(shí)體的識(shí)別效果嚴(yán)重依賴于分詞的準(zhǔn)確率。(2)中文命名實(shí)體缺少明顯的詞形變換特征,比如英文單詞中的大小寫、前后綴等。(3)多維度、跨領(lǐng)域的海量中文文本數(shù)據(jù)對(duì)命名實(shí)體識(shí)別的準(zhǔn)確性提出了更大的挑戰(zhàn)。(4)中文命名實(shí)體中存在大量縮寫、中英文混用、實(shí)體互相嵌套等現(xiàn)象,導(dǎo)致命名實(shí)體的識(shí)別問題變得更加復(fù)雜。針對(duì)中文命名實(shí)體識(shí)別中的難點(diǎn),本文對(duì)國(guó)內(nèi)外命名實(shí)體識(shí)別技術(shù)的發(fā)展進(jìn)行了大量調(diào)研。在對(duì)主流的統(tǒng)計(jì)學(xué)方法進(jìn)行詳細(xì)的分析之后,結(jié)合當(dāng)前深度學(xué)習(xí)的技術(shù)特點(diǎn)與優(yōu)勢(shì),指出利用深度學(xué)習(xí)與統(tǒng)計(jì)學(xué)方法構(gòu)建混合模型來解決中文命名實(shí)體識(shí)別問題的改進(jìn)方向。本文的研究?jī)?nèi)容主要包括如下兩方面:(1)提出了基于多源嵌入與混合模型的中文命名實(shí)體識(shí)別方法。為...
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 研究概況
1.2.1 國(guó)外研究現(xiàn)狀
1.2.2 國(guó)內(nèi)研究現(xiàn)狀
1.2.3 中文命名實(shí)體識(shí)別的研究難點(diǎn)
1.3 本文研究?jī)?nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 命名實(shí)體識(shí)別相關(guān)理論與方法
2.1 隱馬爾可夫模型
2.1.1 模型簡(jiǎn)介
2.1.2 形式化描述
2.2 最大熵模型
2.2.1 模型簡(jiǎn)介
2.2.2 形式化描述
2.3 條件隨機(jī)場(chǎng)
2.3.1 模型簡(jiǎn)介
2.3.2 概率無向圖模型
2.3.3 形式化描述
2.4 深度學(xué)習(xí)
2.4.1 神經(jīng)網(wǎng)絡(luò)
2.4.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.4.3 卷積神經(jīng)網(wǎng)絡(luò)
2.5 本章小結(jié)
第3章 基于多源嵌入與混合模型的中文命名實(shí)體識(shí)別
3.1 多源嵌入思想
3.1.1 獨(dú)熱碼
3.1.2 Word2vec
3.1.3 多源嵌入
3.2 混合模型方法
3.2.1 單一模型弊端
3.2.2 混合模型定義
3.3 基于多源嵌入與混合模型的中文命名實(shí)體識(shí)別
3.4 實(shí)驗(yàn)設(shè)計(jì)
3.4.1 數(shù)據(jù)集介紹
3.4.2 評(píng)價(jià)指標(biāo)
3.4.3 相關(guān)參數(shù)設(shè)置
3.4.4 實(shí)驗(yàn)結(jié)果與分析
3.5 本章小結(jié)
第4章 引入字符增強(qiáng)及注意力機(jī)制的中文命名實(shí)體識(shí)別
4.1 字符增強(qiáng)思想
4.1.1 英文字符增強(qiáng)
4.1.2 中文字符增強(qiáng)
4.1.3 改進(jìn)后的中文字符增強(qiáng)
4.2 注意力機(jī)制
4.3 引入字符增強(qiáng)及注意力機(jī)制的中文命名實(shí)體識(shí)別
4.4 實(shí)驗(yàn)結(jié)果與分析
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別[J]. 王蕾,謝云,周俊生,顧彥慧,曲維光. 中文信息學(xué)報(bào). 2018(03)
[2]基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才. 通信學(xué)報(bào). 2006(02)
[3]中文金融新聞中公司名的識(shí)別[J]. 王寧,葛瑞芳,苑春法,黃錦輝,李文捷. 中文信息學(xué)報(bào). 2002(02)
[4]HMM連續(xù)語音識(shí)別中Viterbi算法的優(yōu)化及應(yīng)用[J]. 袁俊. 電子技術(shù). 2001(02)
[5]基于分解與動(dòng)態(tài)規(guī)劃策略的漢語未登錄詞識(shí)別[J]. 呂雅娟,趙鐵軍,楊沐昀,于浩,李生. 中文信息學(xué)報(bào). 2001(01)
碩士論文
[1]基于隱馬爾可夫模型的自動(dòng)化伴奏系統(tǒng)[D]. 蔡斯凡.貴州師范大學(xué) 2018
[2]基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別研究[D]. 王國(guó)昱.北京工業(yè)大學(xué) 2015
[3]基于規(guī)則的命名實(shí)體識(shí)別研究[D]. 周昆.合肥工業(yè)大學(xué) 2010
本文編號(hào):3699993
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 研究概況
1.2.1 國(guó)外研究現(xiàn)狀
1.2.2 國(guó)內(nèi)研究現(xiàn)狀
1.2.3 中文命名實(shí)體識(shí)別的研究難點(diǎn)
1.3 本文研究?jī)?nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 命名實(shí)體識(shí)別相關(guān)理論與方法
2.1 隱馬爾可夫模型
2.1.1 模型簡(jiǎn)介
2.1.2 形式化描述
2.2 最大熵模型
2.2.1 模型簡(jiǎn)介
2.2.2 形式化描述
2.3 條件隨機(jī)場(chǎng)
2.3.1 模型簡(jiǎn)介
2.3.2 概率無向圖模型
2.3.3 形式化描述
2.4 深度學(xué)習(xí)
2.4.1 神經(jīng)網(wǎng)絡(luò)
2.4.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.4.3 卷積神經(jīng)網(wǎng)絡(luò)
2.5 本章小結(jié)
第3章 基于多源嵌入與混合模型的中文命名實(shí)體識(shí)別
3.1 多源嵌入思想
3.1.1 獨(dú)熱碼
3.1.2 Word2vec
3.1.3 多源嵌入
3.2 混合模型方法
3.2.1 單一模型弊端
3.2.2 混合模型定義
3.3 基于多源嵌入與混合模型的中文命名實(shí)體識(shí)別
3.4 實(shí)驗(yàn)設(shè)計(jì)
3.4.1 數(shù)據(jù)集介紹
3.4.2 評(píng)價(jià)指標(biāo)
3.4.3 相關(guān)參數(shù)設(shè)置
3.4.4 實(shí)驗(yàn)結(jié)果與分析
3.5 本章小結(jié)
第4章 引入字符增強(qiáng)及注意力機(jī)制的中文命名實(shí)體識(shí)別
4.1 字符增強(qiáng)思想
4.1.1 英文字符增強(qiáng)
4.1.2 中文字符增強(qiáng)
4.1.3 改進(jìn)后的中文字符增強(qiáng)
4.2 注意力機(jī)制
4.3 引入字符增強(qiáng)及注意力機(jī)制的中文命名實(shí)體識(shí)別
4.4 實(shí)驗(yàn)結(jié)果與分析
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的片段級(jí)中文命名實(shí)體識(shí)別[J]. 王蕾,謝云,周俊生,顧彥慧,曲維光. 中文信息學(xué)報(bào). 2018(03)
[2]基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才. 通信學(xué)報(bào). 2006(02)
[3]中文金融新聞中公司名的識(shí)別[J]. 王寧,葛瑞芳,苑春法,黃錦輝,李文捷. 中文信息學(xué)報(bào). 2002(02)
[4]HMM連續(xù)語音識(shí)別中Viterbi算法的優(yōu)化及應(yīng)用[J]. 袁俊. 電子技術(shù). 2001(02)
[5]基于分解與動(dòng)態(tài)規(guī)劃策略的漢語未登錄詞識(shí)別[J]. 呂雅娟,趙鐵軍,楊沐昀,于浩,李生. 中文信息學(xué)報(bào). 2001(01)
碩士論文
[1]基于隱馬爾可夫模型的自動(dòng)化伴奏系統(tǒng)[D]. 蔡斯凡.貴州師范大學(xué) 2018
[2]基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別研究[D]. 王國(guó)昱.北京工業(yè)大學(xué) 2015
[3]基于規(guī)則的命名實(shí)體識(shí)別研究[D]. 周昆.合肥工業(yè)大學(xué) 2010
本文編號(hào):3699993
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3699993.html
最近更新
教材專著