基于SVM和HMM算法的中文機構(gòu)名稱識別
本文選題:自然語言處理 + 命名實體識別; 參考:《吉林大學(xué)》2017年碩士論文
【摘要】:命名實體識別(Named Entity Recognition,NER)技術(shù)是信息抽取、信息檢索、機器翻譯、在線快速問答系統(tǒng)等多種自然語言處理(Natural Language Processing,NLP)技術(shù)不可缺少的組成部分。中文命名實體識別主要用來在一篇中文自然語言文本中識別中文人名、地名、機構(gòu)名稱、時間的表示、數(shù)量的表示、貨幣值的表示和百分比表示等命名實體。中文機構(gòu)名稱相比于其他中文命名實體,有結(jié)構(gòu)復(fù)雜、組成多樣等特點,是中文命名實體識別當(dāng)中一個較為困難的部分。本文主要采用基于機器學(xué)習(xí)的方法,利用支持向量機(Support Vector Machine,SVM)和隱馬爾可夫模型(Hidden Markov Model,HMM),并采用基于規(guī)則的方法加以輔助,完成對中文機構(gòu)名稱的識別。根據(jù)中文機構(gòu)名稱的構(gòu)詞特點,將中文機構(gòu)名稱分為機構(gòu)名稱后綴詞和機構(gòu)名稱前綴詞兩部分。首先人工將所有機構(gòu)名稱后綴詞提取出來,形成一個特征詞典;然后判斷收錄在特征詞典中的詞出現(xiàn)在文本中時,是否是一個機構(gòu)名稱后綴詞,即確定一個機構(gòu)名稱的后界。由此可見,可以將上述過程抽象成一個二分類的問題,而SVM模型在解決二分類問題上有著明顯的優(yōu)勢,所以本文使用SVM模型來確定中文機構(gòu)名稱的后界。由于中文機構(gòu)名稱前綴詞有結(jié)構(gòu)復(fù)雜、組成多樣、長短不一等多個特點,所以在識別過程中有較大的難度,但是在已經(jīng)確定文本中機構(gòu)名稱后綴詞的情況下,再識別前綴詞恰好符合HMM模型,所以本文提出使用HMM模型來識別中文機構(gòu)名的各個前綴詞,即確定中文機構(gòu)名稱的前界。在確定中文機構(gòu)名稱前界和后界之后,中文機構(gòu)名稱就被正確識別。實驗表明,運用SVM模型和HMM模型相結(jié)合的方法是有效的,并取得了較好的識別效果。在封閉測試中,精確率、召回率和F值最高能夠達到96.29%、88.70%、92.34%;在開放測試中,精確率、召回率和F值最高能夠達到90.17%、81.94%、85.61%。
[Abstract]:Named Entity recognition (ner) technology is an indispensable part of many natural language processing technologies, such as information extraction, information retrieval, machine translation, online quick question and answer system, etc. Chinese nomenclature entity identification is mainly used to identify Chinese names, place names, organization names, time, quantity, currency value and percentage in a Chinese natural language text. Compared with other Chinese named entities, Chinese institutional names have the characteristics of complex structure and diverse composition, which is a difficult part of Chinese named entity recognition. This paper mainly adopts the method of machine learning, using support vector machine (SVM) and Hidden Markov Model (HMMM) and Hidden Markov Model (HMMM), and using rule-based method to complete the recognition of the names of Chinese institutions. According to the word-formation characteristics of the Chinese organization name, the Chinese organization name is divided into two parts: the institution name suffix and the institution name prefix word. First, all the suffixes of institutional names are extracted artificially to form a feature dictionary; then, when the words included in the feature dictionary appear in the text, whether they are a suffix word of the name of an organization is determined, that is, the latter bound of the name of an organization is determined. Thus, the process can be abstracted into a two-classification problem, and the SVM model has obvious advantages in solving the two-classification problem, so this paper uses the SVM model to determine the back bound of the name of the Chinese institution. Because of the complex structure, diverse composition, different length and other characteristics of the Chinese institutional name prefix, it is more difficult in the recognition process, but in the case that the suffix word of the organization name has been determined in the text, The recognition of prefixes coincides with the HMM model, so this paper proposes to use the HMM model to identify the prefixes of Chinese institutional names, that is, to determine the front bounds of the names of Chinese institutions. After determining the front and back bounds of the Chinese organization name, the Chinese organization name is correctly recognized. The experimental results show that the combination of SVM model and HMM model is effective and the recognition effect is good. In the closed test, the highest accuracy rate, recall rate and F value can reach 96.299.78.70 and 92.34; in open test, the highest accuracy rate, recall rate and F value can reach 90.170.94 and 85.61.
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前5條
1 高星;戴瑋;黃利輝;李軍蓮;任慧玲;吳英杰;;中文生物醫(yī)學(xué)文獻機構(gòu)名稱規(guī)范化研究[J];醫(yī)學(xué)信息學(xué)雜志;2010年12期
2 張小衡,王玲玲;中文機構(gòu)名稱的識別與分析[J];中文信息學(xué)報;1997年04期
3 ;(二)與清洗有關(guān)的組織機構(gòu)名稱[J];洗凈技術(shù);2004年03期
4 沈嘉懿;李芳;徐飛玉;Hans Uszkoreit;;中文組織機構(gòu)名稱與簡稱的識別[J];中文信息學(xué)報;2007年06期
5 文英;將“猜”網(wǎng)進行到底[J];網(wǎng)絡(luò)與信息;2003年02期
相關(guān)會議論文 前1條
1 張艷麗;黃德根;張麗靜;楊元生;;統(tǒng)計和規(guī)則相結(jié)合的中文機構(gòu)名稱識別[A];自然語言理解與機器翻譯——全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2001年
相關(guān)重要報紙文章 前10條
1 記者 錢峰;醫(yī)療機構(gòu)命名有關(guān)問題明確[N];健康報;2009年
2 ;規(guī)范落實十二縣(市、區(qū))政協(xié)內(nèi)設(shè)機構(gòu)名稱[N];三明日報;2011年
3 黃錦軍;我省規(guī)范醫(yī)療機構(gòu)名稱[N];江西日報;2006年
4 記者 徐揚 許曉青 馬揚 參與采寫 王曉潔;“關(guān)心機構(gòu)名稱的變化,更關(guān)心火車票價”[N];新華每日電訊;2013年
5 本報記者 王萌邋實習(xí)生 王愛喜;機構(gòu)應(yīng)隨路名而改名[N];新鄉(xiāng)日報;2007年
6 鄭明;醫(yī)療機構(gòu)名稱使用不規(guī)范應(yīng)引起重視[N];中國消費者報;2010年
7 梁堅義 王忠高;陽新全面推行財政與編制政務(wù)公開[N];黃石日報;2006年
8 記者 尤婷婷;用3年時間創(chuàng)建規(guī)范化司法所[N];甘肅日報;2006年
9 記者 趙承;國家發(fā)展和改革委員會昨日正式掛牌 這次改組是個化學(xué)變化[N];新華每日電訊;2003年
10 本報記者 范又;小門診部掛大招牌 該管管了[N];光明日報;2002年
相關(guān)碩士學(xué)位論文 前3條
1 祝繼鋒;基于SVM和HMM算法的中文機構(gòu)名稱識別[D];吉林大學(xué);2017年
2 張艷麗;中文機構(gòu)名稱的自動識別[D];大連理工大學(xué);2003年
3 劉莎莎;大規(guī)模中文機構(gòu)名稱與機構(gòu)地址自動翻譯研究[D];哈爾濱工業(yè)大學(xué);2010年
,本文編號:1776475
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1776475.html