古漢語編年體的人名實體識別與詞性標(biāo)注
本文選題:古漢語編年體 + 條件隨機場 ; 參考:《復(fù)旦大學(xué)》2012年碩士論文
【摘要】:自然語言處理是人工智能中的重要領(lǐng)域,不但能夠幫助人們從龐大的語言數(shù)據(jù)中提取出需要的信息,甚至能夠理解語法語義并對其做出合理的應(yīng)答。隨著近十年來現(xiàn)代漢語的語言處理研究逐步進展,研究者們已經(jīng)逐漸能夠從現(xiàn)代漢語中抽提出有效的實體信息并進行簡單的語法解析。然而古漢語作為中國的傳統(tǒng)語言,同樣有著智能處理的需要,古漢語文獻中蘊藏著大量的歷史資料需要被結(jié)構(gòu)化的整理出來。本文以編年體《明史本紀》為范例,首次制作了詳細詞性標(biāo)注的古漢語語料,并分別從基于統(tǒng)計與基于規(guī)則的角度嘗試對其進行名詞實體識別與詞性標(biāo)注實驗。首先使用了在現(xiàn)代漢語中效率最高的序列模型條件隨機場作為統(tǒng)計模型,并且根據(jù)古漢語的詞法特征設(shè)計了多套標(biāo)簽?zāi)0逡约皥D模型對語料分別進行了實體識別與詞性標(biāo)注實驗。在實驗中大部分詞性的判斷有著良好的結(jié)果,而且詞性的標(biāo)注對實體識別的效率有著很好的幫助。從實驗結(jié)果中,還發(fā)現(xiàn)了未登錄人名的判斷效率要明顯高于其他未登錄詞,從而暗示著編年體人名周圍有著很強的規(guī)則。隨后使用了基于規(guī)則的方法嘗試對相同的語料進行人名識別。通過觀察,發(fā)現(xiàn)了編年體裁中人物與官職的關(guān)聯(lián),并設(shè)計了所有含有官職與姓名的句式規(guī)則。通過這些規(guī)則實現(xiàn)的算法在測試結(jié)果中有著良好的表現(xiàn),最后分析了漏檢與錯判的姓名的原因和規(guī)則中的不足。詞性標(biāo)注實驗結(jié)果表明古漢語的信息處理不需要進行分詞就可以達到較好的效果,但語料庫與專有名詞庫的完整性對結(jié)果有著重要的影響。而人名識別的實驗反映出編年體中的人名句式十分規(guī)則,能夠精確的提取出絕大多數(shù)姓名,但對于其他體裁的處理則需要更深入的研究。
[Abstract]:Natural language processing is an important field in artificial intelligence. It can not only help people extract the necessary information from the huge language data, but also understand the syntax and semantics and make a reasonable response to it. With the development of language processing in modern Chinese in the past ten years, researchers have been able to extract effective entity information from modern Chinese and make simple grammar analysis. However, as the traditional language of China, ancient Chinese also has the need of intelligent processing. There are a large number of historical materials in ancient Chinese literature that need to be structured out. Taking chronological style Ming Shi Ben Ji as an example, this paper for the first time makes detailed ancient Chinese corpus of part of speech tagging, and tries to carry on the experiment of noun entity recognition and part of speech tagging from the point of view of statistics and rule. Firstly, the conditional random field, which is the most efficient sequential model in modern Chinese, is used as the statistical model. According to the lexical features of ancient Chinese, several sets of tag templates and graph models are designed to carry out entity recognition and part of speech tagging experiments respectively. In the experiment, most of the judgments of part of speech have good results, and the tagging of part of speech is very helpful to the efficiency of entity recognition. From the experimental results it is also found that the judgment efficiency of unrecorded names is obviously higher than that of other unrecorded words which implies that there are strong rules around chronological names. Then a rule-based approach is used to identify the same corpus. Through observation, we find out the relationship between characters and official posts in chronological genre, and design all sentence rules containing official posts and names. The algorithm realized by these rules has a good performance in the test results. Finally, the reasons of missing and wrong names and the shortcomings of the rules are analyzed. The experimental results of part of speech tagging show that the information processing of ancient Chinese can achieve better results without the need of word segmentation, but the integrity of corpus and proper noun database has an important impact on the results. The experiment of human name recognition shows that the name sentence pattern in chronology is very regular, and can extract most names accurately, but the processing of other genres needs more in-depth research.
【學(xué)位授予單位】:復(fù)旦大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:H109.2
【共引文獻】
相關(guān)期刊論文 前10條
1 張鋒,樊孝忠;基于最大熵模型的交集型切分歧義消解[J];北京理工大學(xué)學(xué)報;2005年07期
2 陳曉明;梁雄友;;一種實用的PCFG多階段全局尋優(yōu)句法分析算法[J];長春理工大學(xué)學(xué)報(自然科學(xué)版);2010年02期
3 馬照亭;李志剛;孫偉;印潔;;一種基于地址分詞的自動地理編碼算法[J];測繪通報;2011年02期
4 王海靜;;俗語語料庫與語典編纂相關(guān)問題的思考[J];辭書研究;2011年04期
5 馬創(chuàng)新;李斌;;基于VC++的人工分詞及詞性標(biāo)注輔助程序設(shè)計與實現(xiàn)[J];電腦編程技巧與維護;2011年01期
6 杜永萍,鄭家恒;分詞及詞性標(biāo)注一致性校對系統(tǒng)的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2001年10期
7 張輝,徐健;中國組織機構(gòu)名自動識別系統(tǒng)的設(shè)計與實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2002年01期
8 錢揖麗,鄭家恒;中文文本詞性自動校對系統(tǒng)的實現(xiàn)[J];電腦開發(fā)與應(yīng)用;2004年01期
9 陳宏彥;陳俊杰;;規(guī)則與統(tǒng)計相結(jié)合的分詞算法[J];電腦開發(fā)與應(yīng)用;2006年08期
10 梁曉弘;楊文安;;分詞技術(shù)在信息處理中的研究綜述[J];電腦知識與技術(shù)(學(xué)術(shù)交流);2007年22期
相關(guān)會議論文 前10條
1 曾華琳;史曉東;李堂秋;;基于上下文信息提取的概率分詞算法[A];第六屆漢語詞匯語義學(xué)研討會論文集[C];2005年
2 靳光瑾;郭曙綸;肖航;章云帆;;語料庫加工中的規(guī)范問題——談《信息處理用現(xiàn)代漢語詞類標(biāo)記集規(guī)范》[A];語言文字應(yīng)用研究論文集(Ⅱ)[C];2004年
3 戴祖旭;洪帆;;基于詞性標(biāo)記文法的文本信息隱藏算法[A];第四屆中國軟件工程大會論文集[C];2007年
4 張霄軍;;“長安”的同名地名自動識別與指代消解[A];陜西省社會科學(xué)界第二屆(2008)學(xué)術(shù)年會——青年博士論壇“陜西新起點:創(chuàng)新·發(fā)展·民生”專題獲獎?wù)撐倪x編[C];2008年
5 程月;季娜;洪鹿平;;基于語料統(tǒng)計的以“不”開頭雙字分詞不一致研究[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
6 杜超華;沈威;姚雙云;;基于復(fù)句語料庫的分詞系統(tǒng)的研究[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
7 朱麗麗;鄭家恒;;一種基于實例學(xué)習(xí)的人名識別方法[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
8 吐爾根·依不拉音;阿里甫·庫爾班;阿不都熱依木;;基于詞典的現(xiàn)代維吾爾語詞性自動標(biāo)注系統(tǒng)的研究[A];中文信息處理前沿進展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
9 張霄軍;董宇;陳小荷;;基于語料考察的“組合型歧義”與“切分變異”辨析[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
10 錢小飛;侯敏;;中文基本地名識別[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
相關(guān)博士學(xué)位論文 前10條
1 陳曦;基于子串的文本分割與主題標(biāo)注研究[D];武漢大學(xué);2009年
2 吳戈;基于數(shù)字水印的文本信息隱藏方法的研究[D];長春理工大學(xué);2011年
3 邸書靈;Agent聯(lián)盟和流形學(xué)習(xí)在中文問答系統(tǒng)中的應(yīng)用研究[D];天津大學(xué);2010年
4 張蕾;概念結(jié)構(gòu)及其應(yīng)用[D];西北工業(yè)大學(xué);2001年
5 劉忠;性質(zhì)語意理論的提出與自然語言理解及其實現(xiàn)的研究[D];華東師范大學(xué);2004年
6 隋巖;基于“動態(tài)流通語料庫”的“有效字符串”提取研究[D];北京語言大學(xué);2004年
7 鄭逢斌;關(guān)于計算機理解自然查詢語言的研究[D];西南交通大學(xué);2004年
8 鄭澤芝;基于動態(tài)流通語料庫(DCC)的漢語字母詞語識別及考察研究[D];北京語言大學(xué);2005年
9 劉偉;現(xiàn)代漢語代詞隱現(xiàn)的動態(tài)研究[D];北京語言大學(xué);2005年
10 楊爾弘;突發(fā)事件信息提取研究[D];北京語言大學(xué);2005年
相關(guān)碩士學(xué)位論文 前10條
1 馮海瑛;《萬歷野獲編》分詞理論與實踐[D];廣西師范學(xué)院;2010年
2 劉婧一;元代筆記分詞理論與實踐[D];廣西師范學(xué)院;2010年
3 王東亮;基于條件隨機場模型的中文人名識別的研究[D];大連理工大學(xué);2010年
4 廖文平;基于CRF的中文地名識別研究[D];大連理工大學(xué);2010年
5 潘正高;基于內(nèi)容的Web新聞文本自動分類問題研究[D];合肥工業(yè)大學(xué);2010年
6 王有權(quán);基于Web的智能答疑技術(shù)研究與實現(xiàn)[D];南京財經(jīng)大學(xué);2010年
7 蘇俊峰;基于HMM的藏語語料庫詞性自動標(biāo)注研究[D];西北民族大學(xué);2010年
8 李丹;基于規(guī)則與統(tǒng)計的漢語自動分詞研究[D];長春工業(yè)大學(xué);2010年
9 蔡蕊;一種新的搜索引擎分詞詞典的研究[D];山東大學(xué);2010年
10 郭茜;搜索引擎結(jié)果冗余信息消解算法的研究與應(yīng)用[D];東華大學(xué);2011年
,本文編號:2052232
本文鏈接:http://sikaile.net/wenyilunwen/hanyulw/2052232.html