面向招標(biāo)數(shù)據(jù)的命名實體識別方法研究及應(yīng)用
本文選題:招標(biāo)數(shù)據(jù) + 命名實體識別; 參考:《北京交通大學(xué)》2017年碩士論文
【摘要】:命名實體識別是自然語言處理和數(shù)據(jù)挖掘領(lǐng)域的熱點研究課題之一,隨著網(wǎng)絡(luò)數(shù)據(jù)的爆發(fā)式增長,人們對如何在海量數(shù)據(jù)中快速準確獲取有意義信息的需求不斷增加。命名實體識別是關(guān)鍵信息提取的一項核心技術(shù),在信息抽取、信息檢索、文本分類等多種自然語言處理的領(lǐng)域中都起著關(guān)鍵性的作用,受到研究人員的極大重視。本文從中文命名實體識別的理論研究出發(fā),針對在招標(biāo)數(shù)據(jù)中對命名實體提取和識別的迫切需求,重點研究在招標(biāo)數(shù)據(jù)集中命名實體提取規(guī)則的設(shè)計以及基于混合模型的命名實體識別方法。構(gòu)建全國招投標(biāo)網(wǎng)絡(luò)平臺數(shù)據(jù)集,通過實驗充分驗證了提出方法的有效性,能夠滿足招標(biāo)數(shù)據(jù)中評審專家名、項目聯(lián)系人、聯(lián)系地址、招標(biāo)機構(gòu)名、代理機構(gòu)名和中標(biāo)機構(gòu)名六種命名實體提取的實際需求。本文的主要工作及研究成果包括:(1)深入分析招標(biāo)數(shù)據(jù)中實體的構(gòu)成規(guī)則以及文本特征,構(gòu)建適用于識別招標(biāo)數(shù)據(jù)中命名實體的邊界規(guī)則庫和實體規(guī)則庫,采用基于規(guī)則的方法對其中的命名實體進行識別研究。(2)提出了一種基于混合模型的命名實體識別方法。該方法采用二階隱馬爾可夫模型作為統(tǒng)計模型,根據(jù)模型優(yōu)化了 Viterbi算法,充分利用上下文信息進行命名實體識別。同時根據(jù)招標(biāo)數(shù)據(jù)的特點,在統(tǒng)計模型的基礎(chǔ)上加入基于規(guī)則的前期處理和后期校正處理,提高了命名實體識別效果。(3)針對構(gòu)建的全國招投標(biāo)網(wǎng)絡(luò)平臺數(shù)據(jù),通過三組實驗對本文提出的基于規(guī)則的方法、基于混合模型的方法和哈工大的LTP系統(tǒng)以及中科院的NLPIR系統(tǒng)對數(shù)據(jù)集中六種命名實體的識別效果進行驗證。實驗結(jié)果表明,基于混合模型的方法在針對招標(biāo)數(shù)據(jù)的命名實體識別方面具有更好的識別效果。以上研究表明,針對招標(biāo)數(shù)據(jù)中的命名實體識別問題,本文提出的基于混合模型的識別方法識別效果良好,可以作為構(gòu)建一種適用于招標(biāo)數(shù)據(jù)的命名實體識別系統(tǒng)的基礎(chǔ)方法。運用該方法可以有效提高相關(guān)機構(gòu)在獲取招投標(biāo)信息時的搜索效率和準確度。
[Abstract]:Named entity recognition is one of the hot topics in the field of Natural Language Processing and data mining. With the explosive growth of network data, the demand for how to quickly and accurately obtain meaningful information in massive data is increasing. Named entity recognition is a key technology for key information extraction, information extraction and information inspection. According to the theoretical research of the Chinese named entity recognition, this paper aims at the urgent need to extract and identify the named entities in the bidding data, and focuses on the research on the extraction rules of the named entity in the bid data centralization. The design and the method of naming entity recognition based on the mixed model. Construct the data set of the national bidding network platform. Through the experiment, the validity of the proposed method is fully verified. It can meet the name of the evaluation expert, the contact person, the contact address, the name of the bidding organization, the name of the agency, the name of the agency and the name of the bid agency. The main work and research results of this paper include: (1) in-depth analysis of the constitution rules and textual features of the entity in the bidding data, constructing the boundary rule base and the entity rule base suitable for identifying the named entities in the bidding data, and using the rule based method to identify the named entities. (2) proposed A named entity recognition method based on mixed model is used in this method. The two order hidden Markov model is used as the statistical model, the Viterbi algorithm is optimized according to the model, and the context information is fully used to identify the named entity. Later correction processing improves the effect of named entity recognition. (3) according to the construction of the national bidding network platform data, through three groups of experiments on the rule based method, the hybrid model based method and the LTP system of Harbin Industrial University and the NLPIR system of CAS on the identification of six named entities in the data set. The experimental results show that the hybrid model based method has a better recognition effect on the named entity recognition of the bidding data. The above research shows that the recognition method based on the mixed model proposed in this paper has good recognition effect for the named entity recognition problem in the bidding data, and it can be used as a construction method. The basic method of the named entity recognition system for bidding data, which can effectively improve the search efficiency and accuracy of the relevant agencies when obtaining bidding information.
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前8條
1 陳基;;命名實體識別綜述[J];現(xiàn)代計算機(專業(yè)版);2016年03期
2 郭喜躍;何婷婷;;信息抽取研究綜述[J];計算機科學(xué);2015年02期
3 梁喜濤;顧磊;;中文分詞與詞性標(biāo)注研究[J];計算機技術(shù)與發(fā)展;2015年02期
4 吳偉成;周俊生;曲維光;;基于統(tǒng)計學(xué)習(xí)模型的句法分析方法綜述[J];中文信息學(xué)報;2013年03期
5 鄭逢強;林磊;劉秉權(quán);孫承杰;;《知網(wǎng)》在命名實體識別中的應(yīng)用研究[J];中文信息學(xué)報;2008年05期
6 馮元勇;孫樂;李文波;張大鯤;;基于單字提示特征的中文命名實體識別快速算法[J];中文信息學(xué)報;2008年01期
7 張小衡,王玲玲;中文機構(gòu)名稱的識別與分析[J];中文信息學(xué)報;1997年04期
8 孫茂松,黃昌寧,高海燕,,方捷;中文姓名的自動辨識[J];中文信息學(xué)報;1995年02期
相關(guān)碩士學(xué)位論文 前5條
1 王國昱;基于深度學(xué)習(xí)的中文命名實體識別研究[D];北京工業(yè)大學(xué);2015年
2 何紅磊;基于詞表示方法的生物醫(yī)學(xué)命名實體識別[D];大連理工大學(xué);2015年
3 闞琪;基于條件隨機場的命名實體識別及實體關(guān)系識別的研究與應(yīng)用[D];北京交通大學(xué);2015年
4 張學(xué)清;規(guī)則與統(tǒng)計相結(jié)合的音樂領(lǐng)域命名實體識別[D];電子科技大學(xué);2010年
5 趙琳瑛;基于隱馬爾科夫模型的中文命名實體識別研究[D];西安電子科技大學(xué);2008年
本文編號:1889493
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1889493.html