基于SVM和HMM算法的中文機(jī)構(gòu)名稱(chēng)識(shí)別
本文選題:自然語(yǔ)言處理 + 命名實(shí)體識(shí)別; 參考:《吉林大學(xué)》2017年碩士論文
【摘要】:命名實(shí)體識(shí)別(Named Entity Recognition,NER)技術(shù)是信息抽取、信息檢索、機(jī)器翻譯、在線快速問(wèn)答系統(tǒng)等多種自然語(yǔ)言處理(Natural Language Processing,NLP)技術(shù)不可缺少的組成部分。中文命名實(shí)體識(shí)別主要用來(lái)在一篇中文自然語(yǔ)言文本中識(shí)別中文人名、地名、機(jī)構(gòu)名稱(chēng)、時(shí)間的表示、數(shù)量的表示、貨幣值的表示和百分比表示等命名實(shí)體。中文機(jī)構(gòu)名稱(chēng)相比于其他中文命名實(shí)體,有結(jié)構(gòu)復(fù)雜、組成多樣等特點(diǎn),是中文命名實(shí)體識(shí)別當(dāng)中一個(gè)較為困難的部分。本文主要采用基于機(jī)器學(xué)習(xí)的方法,利用支持向量機(jī)(Support Vector Machine,SVM)和隱馬爾可夫模型(Hidden Markov Model,HMM),并采用基于規(guī)則的方法加以輔助,完成對(duì)中文機(jī)構(gòu)名稱(chēng)的識(shí)別。根據(jù)中文機(jī)構(gòu)名稱(chēng)的構(gòu)詞特點(diǎn),將中文機(jī)構(gòu)名稱(chēng)分為機(jī)構(gòu)名稱(chēng)后綴詞和機(jī)構(gòu)名稱(chēng)前綴詞兩部分。首先人工將所有機(jī)構(gòu)名稱(chēng)后綴詞提取出來(lái),形成一個(gè)特征詞典;然后判斷收錄在特征詞典中的詞出現(xiàn)在文本中時(shí),是否是一個(gè)機(jī)構(gòu)名稱(chēng)后綴詞,即確定一個(gè)機(jī)構(gòu)名稱(chēng)的后界。由此可見(jiàn),可以將上述過(guò)程抽象成一個(gè)二分類(lèi)的問(wèn)題,而SVM模型在解決二分類(lèi)問(wèn)題上有著明顯的優(yōu)勢(shì),所以本文使用SVM模型來(lái)確定中文機(jī)構(gòu)名稱(chēng)的后界。由于中文機(jī)構(gòu)名稱(chēng)前綴詞有結(jié)構(gòu)復(fù)雜、組成多樣、長(zhǎng)短不一等多個(gè)特點(diǎn),所以在識(shí)別過(guò)程中有較大的難度,但是在已經(jīng)確定文本中機(jī)構(gòu)名稱(chēng)后綴詞的情況下,再識(shí)別前綴詞恰好符合HMM模型,所以本文提出使用HMM模型來(lái)識(shí)別中文機(jī)構(gòu)名的各個(gè)前綴詞,即確定中文機(jī)構(gòu)名稱(chēng)的前界。在確定中文機(jī)構(gòu)名稱(chēng)前界和后界之后,中文機(jī)構(gòu)名稱(chēng)就被正確識(shí)別。實(shí)驗(yàn)表明,運(yùn)用SVM模型和HMM模型相結(jié)合的方法是有效的,并取得了較好的識(shí)別效果。在封閉測(cè)試中,精確率、召回率和F值最高能夠達(dá)到96.29%、88.70%、92.34%;在開(kāi)放測(cè)試中,精確率、召回率和F值最高能夠達(dá)到90.17%、81.94%、85.61%。
[Abstract]:Named Entity recognition (ner) technology is an indispensable part of many natural language processing technologies, such as information extraction, information retrieval, machine translation, online quick question and answer system, etc. Chinese nomenclature entity identification is mainly used to identify Chinese names, place names, organization names, time, quantity, currency value and percentage in a Chinese natural language text. Compared with other Chinese named entities, Chinese institutional names have the characteristics of complex structure and diverse composition, which is a difficult part of Chinese named entity recognition. This paper mainly adopts the method of machine learning, using support vector machine (SVM) and Hidden Markov Model (HMMM) and Hidden Markov Model (HMMM), and using rule-based method to complete the recognition of the names of Chinese institutions. According to the word-formation characteristics of the Chinese organization name, the Chinese organization name is divided into two parts: the institution name suffix and the institution name prefix word. First, all the suffixes of institutional names are extracted artificially to form a feature dictionary; then, when the words included in the feature dictionary appear in the text, whether they are a suffix word of the name of an organization is determined, that is, the latter bound of the name of an organization is determined. Thus, the process can be abstracted into a two-classification problem, and the SVM model has obvious advantages in solving the two-classification problem, so this paper uses the SVM model to determine the back bound of the name of the Chinese institution. Because of the complex structure, diverse composition, different length and other characteristics of the Chinese institutional name prefix, it is more difficult in the recognition process, but in the case that the suffix word of the organization name has been determined in the text, The recognition of prefixes coincides with the HMM model, so this paper proposes to use the HMM model to identify the prefixes of Chinese institutional names, that is, to determine the front bounds of the names of Chinese institutions. After determining the front and back bounds of the Chinese organization name, the Chinese organization name is correctly recognized. The experimental results show that the combination of SVM model and HMM model is effective and the recognition effect is good. In the closed test, the highest accuracy rate, recall rate and F value can reach 96.299.78.70 and 92.34; in open test, the highest accuracy rate, recall rate and F value can reach 90.170.94 and 85.61.
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前5條
1 高星;戴瑋;黃利輝;李軍蓮;任慧玲;吳英杰;;中文生物醫(yī)學(xué)文獻(xiàn)機(jī)構(gòu)名稱(chēng)規(guī)范化研究[J];醫(yī)學(xué)信息學(xué)雜志;2010年12期
2 張小衡,王玲玲;中文機(jī)構(gòu)名稱(chēng)的識(shí)別與分析[J];中文信息學(xué)報(bào);1997年04期
3 ;(二)與清洗有關(guān)的組織機(jī)構(gòu)名稱(chēng)[J];洗凈技術(shù);2004年03期
4 沈嘉懿;李芳;徐飛玉;Hans Uszkoreit;;中文組織機(jī)構(gòu)名稱(chēng)與簡(jiǎn)稱(chēng)的識(shí)別[J];中文信息學(xué)報(bào);2007年06期
5 文英;將“猜”網(wǎng)進(jìn)行到底[J];網(wǎng)絡(luò)與信息;2003年02期
相關(guān)會(huì)議論文 前1條
1 張艷麗;黃德根;張麗靜;楊元生;;統(tǒng)計(jì)和規(guī)則相結(jié)合的中文機(jī)構(gòu)名稱(chēng)識(shí)別[A];自然語(yǔ)言理解與機(jī)器翻譯——全國(guó)第六屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2001年
相關(guān)重要報(bào)紙文章 前10條
1 記者 錢(qián)峰;醫(yī)療機(jī)構(gòu)命名有關(guān)問(wèn)題明確[N];健康報(bào);2009年
2 ;規(guī)范落實(shí)十二縣(市、區(qū))政協(xié)內(nèi)設(shè)機(jī)構(gòu)名稱(chēng)[N];三明日?qǐng)?bào);2011年
3 黃錦軍;我省規(guī)范醫(yī)療機(jī)構(gòu)名稱(chēng)[N];江西日?qǐng)?bào);2006年
4 記者 徐揚(yáng) 許曉青 馬揚(yáng) 參與采寫(xiě) 王曉潔;“關(guān)心機(jī)構(gòu)名稱(chēng)的變化,更關(guān)心火車(chē)票價(jià)”[N];新華每日電訊;2013年
5 本報(bào)記者 王萌邋實(shí)習(xí)生 王愛(ài)喜;機(jī)構(gòu)應(yīng)隨路名而改名[N];新鄉(xiāng)日?qǐng)?bào);2007年
6 鄭明;醫(yī)療機(jī)構(gòu)名稱(chēng)使用不規(guī)范應(yīng)引起重視[N];中國(guó)消費(fèi)者報(bào);2010年
7 梁堅(jiān)義 王忠高;陽(yáng)新全面推行財(cái)政與編制政務(wù)公開(kāi)[N];黃石日?qǐng)?bào);2006年
8 記者 尤婷婷;用3年時(shí)間創(chuàng)建規(guī)范化司法所[N];甘肅日?qǐng)?bào);2006年
9 記者 趙承;國(guó)家發(fā)展和改革委員會(huì)昨日正式掛牌 這次改組是個(gè)化學(xué)變化[N];新華每日電訊;2003年
10 本報(bào)記者 范又;小門(mén)診部掛大招牌 該管管了[N];光明日?qǐng)?bào);2002年
相關(guān)碩士學(xué)位論文 前3條
1 祝繼鋒;基于SVM和HMM算法的中文機(jī)構(gòu)名稱(chēng)識(shí)別[D];吉林大學(xué);2017年
2 張艷麗;中文機(jī)構(gòu)名稱(chēng)的自動(dòng)識(shí)別[D];大連理工大學(xué);2003年
3 劉莎莎;大規(guī)模中文機(jī)構(gòu)名稱(chēng)與機(jī)構(gòu)地址自動(dòng)翻譯研究[D];哈爾濱工業(yè)大學(xué);2010年
,本文編號(hào):1776475
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1776475.html