Chinese Named Entity Recognition Based on Bidirectional LSTM
發(fā)布時間:2021-12-30 22:04
命名實體識別是文本信息處理中一項關(guān)鍵且基礎(chǔ)的工作,其任務是識別出待處理文本中具有實際意義的實體。它在自然語言處理中是一項基礎(chǔ)性的工作,在信息抽取,機器翻譯,自動問答等領(lǐng)域有著廣泛的應用。評價一個命名實體是否被正確識別包括兩點:實體的邊界是否正確;實體的類型是否標注正確。本文在時間和精力有限的情況下主要是識別出數(shù)據(jù)庫中的人名、地名、組織名這三類命名實體,而且這三類也是最難而且最重要的三類命名實體。命名實體識別的準確度對后續(xù)相關(guān)的工作有深刻的影響。目前已經(jīng)有研究這方面內(nèi)容的專門機構(gòu),Conll-2002就有專門的命名實體識別專題。目前中文的命名實體識別與英文的相比,中文的命名實體識別更加的困難,主要是因為英語的命名實體具有一些明顯的區(qū)分標志,比如英文中的首字母要大寫以及英文單詞之間要空格,所以它的實體邊界比較容易確定,剩下的任務只需要去確定實體的類別。和英文相比,中文命名實體識別任務更加復雜,中文實體邊界的確定更加的困難。漢語命名實體識別的難點主要存在于:中文文本中沒有像英文那樣很明顯的空格之類的邊界標示符;中文中存在外國人名譯名和地名譯名這些特殊實體類型;中文中不可能用一個統(tǒng)一的模型來描...
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【文章目錄】:
Acknowledgements
abstract
1 Introduction
1.1 Research Background and Significance of the Subject
1.1.1 Research Background
1.1.2 Research Significance
1.2 Analysis of Research Status at Home and Abroad
1.2.1 Status of Foreign Research
1.2.2 Status of Chinese Research
1.3 Problems and Analysis of Named Entity Recognition
1.4 Main Work of This Thesis
1.5 Structure of Thesis
2 Related Work
2.1 Method of Named Entity Recognition
2.1.1 Hidden Markov Model
2.1.2 Conditional Random Field Model
2.2 Basic Neural Network
2.2.1 Neurons
2.2.2 Perceptron and Multilayer Network
2.2.3 Recurrent Neural Network
2.3 Tensorflow Framework
2.4 Summary of This Chapter
3 BiLSTM-CRF Models for Chinese Named Entity Recognition
3.1 LSTM Networks
3.2 Bidirectional LSTM Networks
3.3 Conditional Random Field Networks
3.4 BiLSTM-CRF Networks
3.4.1 Chinese Data Preprocessing
3.4.2 Word Vector Layer
3.4.3 BiLSTM Layer
3.4.4 CRF layer
4 Experiments
4.1 Experimental Environment
4.2 Data Sets
4.2.1 MSRA Corpus
4.2.2 People's Daily Corpus
4.3 Evaluation Methods
4.4 Experimental Results
5 Conclusion and Future Work
5.1 Conclusion
5.2 Future Work
References
Appendix A 摘要
【參考文獻】:
期刊論文
[1]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[2]基于BI-LSTM-CRF模型的中文分詞法[J]. 張子睿,劉云清. 長春理工大學學報(自然科學版). 2017(04)
[3]命名實體識別研究[J]. 張曉艷,王挺,陳火旺. 計算機科學. 2005(04)
[4]基于層疊隱馬模型的漢語詞法分析[J]. 劉群,張華平,俞鴻魁,程學旗. 計算機研究與發(fā)展. 2004(08)
本文編號:3559046
【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【文章目錄】:
Acknowledgements
abstract
1 Introduction
1.1 Research Background and Significance of the Subject
1.1.1 Research Background
1.1.2 Research Significance
1.2 Analysis of Research Status at Home and Abroad
1.2.1 Status of Foreign Research
1.2.2 Status of Chinese Research
1.3 Problems and Analysis of Named Entity Recognition
1.4 Main Work of This Thesis
1.5 Structure of Thesis
2 Related Work
2.1 Method of Named Entity Recognition
2.1.1 Hidden Markov Model
2.1.2 Conditional Random Field Model
2.2 Basic Neural Network
2.2.1 Neurons
2.2.2 Perceptron and Multilayer Network
2.2.3 Recurrent Neural Network
2.3 Tensorflow Framework
2.4 Summary of This Chapter
3 BiLSTM-CRF Models for Chinese Named Entity Recognition
3.1 LSTM Networks
3.2 Bidirectional LSTM Networks
3.3 Conditional Random Field Networks
3.4 BiLSTM-CRF Networks
3.4.1 Chinese Data Preprocessing
3.4.2 Word Vector Layer
3.4.3 BiLSTM Layer
3.4.4 CRF layer
4 Experiments
4.1 Experimental Environment
4.2 Data Sets
4.2.1 MSRA Corpus
4.2.2 People's Daily Corpus
4.3 Evaluation Methods
4.4 Experimental Results
5 Conclusion and Future Work
5.1 Conclusion
5.2 Future Work
References
Appendix A 摘要
【參考文獻】:
期刊論文
[1]Research of Clinical Named Entity Recognition Based on Bi-LSTM-CRF[J]. 秦穎,曾穎菲. Journal of Shanghai Jiaotong University(Science). 2018(03)
[2]基于BI-LSTM-CRF模型的中文分詞法[J]. 張子睿,劉云清. 長春理工大學學報(自然科學版). 2017(04)
[3]命名實體識別研究[J]. 張曉艷,王挺,陳火旺. 計算機科學. 2005(04)
[4]基于層疊隱馬模型的漢語詞法分析[J]. 劉群,張華平,俞鴻魁,程學旗. 計算機研究與發(fā)展. 2004(08)
本文編號:3559046
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3559046.html
最近更新
教材專著