命名實(shí)體與基本名詞短語(yǔ)識(shí)別研究
發(fā)布時(shí)間:2021-12-16 22:02
命名實(shí)體識(shí)別任務(wù)是確定文檔中的人名、地名和機(jī)構(gòu)名等文本片段及其類型的過程,而基本名詞短語(yǔ)識(shí)別的目的是找出篇章中非遞歸、無(wú)后修飾成分的名詞短語(yǔ)。二者是文本理解的基礎(chǔ)步驟,在很大程度上影響著指代消解等自然語(yǔ)言處理系統(tǒng)的性能。指代消解是自然語(yǔ)言處理的重點(diǎn)和難點(diǎn)之一,涉及機(jī)器翻譯、信息提取等諸多應(yīng)用,它的解決依賴于命名實(shí)體識(shí)別、詞性標(biāo)注等相關(guān)技術(shù)。本文在深入分析命名實(shí)體識(shí)別和基本名詞短語(yǔ)識(shí)別現(xiàn)有技術(shù)的基礎(chǔ)上,以命名實(shí)體識(shí)別和基本名詞短語(yǔ)識(shí)別為研究對(duì)象,進(jìn)行了以下幾個(gè)方面的工作:首先,本文針對(duì)部分地名、機(jī)構(gòu)名嵌套其他命名實(shí)體結(jié)構(gòu)的特點(diǎn),采用層疊條件隨機(jī)域模型來(lái)進(jìn)行命名實(shí)體識(shí)別。該方法利用底層模型對(duì)簡(jiǎn)單的命名實(shí)體進(jìn)行初步識(shí)別,挑選其中若干個(gè)最好識(shí)別結(jié)果傳遞到高層條件隨機(jī)域模型中,進(jìn)一步對(duì)復(fù)雜地名和組織機(jī)構(gòu)名進(jìn)行識(shí)別,提高命名實(shí)體識(shí)別的性能。其次,本文對(duì)中文基本名詞短語(yǔ)識(shí)別采用基于錯(cuò)誤驅(qū)動(dòng)的層次模型方法,初步提取包含上下文環(huán)境信息的原子特征并進(jìn)行組合,通過實(shí)驗(yàn)選定有效特征,再經(jīng)過訓(xùn)練生成兩層結(jié)構(gòu)的組合分類器,與單純使用一種分類器的結(jié)果相比,層次組合策略能有效提高系統(tǒng)性能。最后,本文將命名實(shí)體識(shí)別和基...
【文章來(lái)源】:蘇州大學(xué)江蘇省 211工程院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
鏈結(jié)構(gòu)CRF無(wú)向圖模型
圖 2-3 多層條件隨機(jī)域模型件隨機(jī)域模型框架模型主要有兩種方法:第一種方法是層次模型,采用遞個(gè)子模型嵌入到高層模型中;第二種方法是層疊模型,型之間呈線性組合[52]。由于前者采用遞歸方式,其數(shù)學(xué)解碼復(fù)雜度也遠(yuǎn)大于后者;而在層疊模型中,各層模型的模型間是一種松耦合關(guān)系,整個(gè)模型的復(fù)雜度與句子低層模型產(chǎn)生的錯(cuò)誤可以經(jīng)過適當(dāng)?shù)倪^濾,從而避免錯(cuò)層疊條件隨機(jī)域模型來(lái)進(jìn)行命名實(shí)體識(shí)別,具體步驟如中文文本進(jìn)行原子切分,基于“字”原始序列衍生觀察層 CRF 模型中,根據(jù)觀察序列的取值建立針對(duì)人名地
圖2-4層疊條件隨機(jī)域模型流程
本文編號(hào):3538891
【文章來(lái)源】:蘇州大學(xué)江蘇省 211工程院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
鏈結(jié)構(gòu)CRF無(wú)向圖模型
圖 2-3 多層條件隨機(jī)域模型件隨機(jī)域模型框架模型主要有兩種方法:第一種方法是層次模型,采用遞個(gè)子模型嵌入到高層模型中;第二種方法是層疊模型,型之間呈線性組合[52]。由于前者采用遞歸方式,其數(shù)學(xué)解碼復(fù)雜度也遠(yuǎn)大于后者;而在層疊模型中,各層模型的模型間是一種松耦合關(guān)系,整個(gè)模型的復(fù)雜度與句子低層模型產(chǎn)生的錯(cuò)誤可以經(jīng)過適當(dāng)?shù)倪^濾,從而避免錯(cuò)層疊條件隨機(jī)域模型來(lái)進(jìn)行命名實(shí)體識(shí)別,具體步驟如中文文本進(jìn)行原子切分,基于“字”原始序列衍生觀察層 CRF 模型中,根據(jù)觀察序列的取值建立針對(duì)人名地
圖2-4層疊條件隨機(jī)域模型流程
本文編號(hào):3538891
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/3538891.html
最近更新
教材專著