基于混合神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識別研究
發(fā)布時(shí)間:2022-01-13 08:55
命名實(shí)體識別(Name Entity Recognition,NER)是自然語言處理的基礎(chǔ)任務(wù),目的是在未處理過的原始文本中標(biāo)注出所需的具有特定意義的實(shí)體。命名實(shí)體識別是將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的關(guān)鍵步驟和技術(shù)手段之一,在自動(dòng)問答、信息檢索和關(guān)系抽取等任務(wù)中都有關(guān)鍵作用。因此對命名實(shí)體識別的研究有著重要的意義。隨著深度學(xué)習(xí)的發(fā)展,英文命名實(shí)體識別技術(shù)近幾年有著顯著的進(jìn)步。但中文有著自身的特點(diǎn),相對于英文文本也更為復(fù)雜。因此,中文命名實(shí)體識別還有著一些尚未解決的難點(diǎn),其主要包括為:(1)中文句式結(jié)構(gòu)復(fù)雜且經(jīng)常存在一詞多義的情況,同樣的漢字和詞語在不同位置和語句中有不同的意義,現(xiàn)有的以英文命名實(shí)體識別模型為基礎(chǔ)所改進(jìn)的中文命名實(shí)體識別模型無法有效的針對全局上下文進(jìn)行建模和特征提取,從而對同型不同義的詞區(qū)分。(2)中文文本缺少詞分隔符,基于詞級別輸入的模型需要解決中文分詞問題,基于字級別的輸入則會(huì)缺少單詞的邊界信息及詞義信息,這增加實(shí)體識別的難度。(3)在網(wǎng)絡(luò)文本為主的一些語料數(shù)據(jù)中,存在著一些未登錄詞,這給命名實(shí)體識別任務(wù)增加了不小難度。此外,目前的命名實(shí)體識別模型在解碼層大多...
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:90 頁
【學(xué)位級別】:碩士
【部分圖文】:
四種機(jī)器學(xué)習(xí)模型對比
上海師范大學(xué)碩士學(xué)位論文第1章引言7無監(jiān)督學(xué)習(xí)的典型方法為聚類。在命名實(shí)體識別中,通常根據(jù)上下文的相似性從聚類組中收集命名實(shí)體。這類技術(shù)基本上依賴于詞匯資源,比如WordNet英語詞典。半監(jiān)督方法和無監(jiān)督方法可以在特征性較為明顯的封閉域語料中一定程度上的減少標(biāo)識數(shù)據(jù)的需求,通過尋找句子特征達(dá)到實(shí)體識別分類效果。但在開放域或語料形式較為復(fù)雜的情況時(shí),其往往效果不佳。1.2.3基于深度學(xué)習(xí)的方法近些年深度學(xué)習(xí)取得了較為明顯的成績,其被廣泛應(yīng)用于命名實(shí)體識別模型中并憑借其優(yōu)秀的表現(xiàn)逐漸占據(jù)了主導(dǎo)地位。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子領(lǐng)域,其通常有多個(gè)處理層構(gòu)成以學(xué)習(xí)數(shù)據(jù)所含有的多個(gè)特征。常用于提取特征的處理層為人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)可以通過標(biāo)注語料庫自動(dòng)學(xué)習(xí)特征,從而減輕了對人工特征的依賴。圖1-2展示了多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與其反向傳播算法。底層神經(jīng)元輸出通過加權(quán)求和并通過非線性函數(shù)傳遞給下一層為神經(jīng)網(wǎng)絡(luò)的前向傳播,通過復(fù)合函數(shù)鏈?zhǔn)角髮?dǎo)法則以損失函數(shù)為起始計(jì)算多層神經(jīng)網(wǎng)絡(luò)下降梯度為其返現(xiàn)傳播算法。這種神經(jīng)網(wǎng)絡(luò)算法在諸多自然語言處理任務(wù)中已經(jīng)證明其可以有效的提取文本信息的部分語法甚至語義特征。圖1-2神經(jīng)網(wǎng)絡(luò)前向傳播與反向傳播Collobert和Weston[44]于2008第一次將神經(jīng)網(wǎng)絡(luò)框架引入命名實(shí)體識別任務(wù),其特征向量輸入通過英文單詞拼寫特征,字典和詞典所構(gòu)成。隨后Collobert等人[45]于2011年再次改進(jìn)模型將人工構(gòu)建特征替換為詞嵌入(wordembedding),這種方式可將單詞在n維空間中予以展示并保留單詞的信息。此方法是種完全無監(jiān)督的學(xué)習(xí)過程,只通過單詞附近的共現(xiàn)特征對單詞進(jìn)行特征提齲同時(shí)該模型
Bi-LSTM+CRF命名實(shí)體識別架構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識別[J]. 張海楠,伍大勇,劉悅,程學(xué)旗. 中文信息學(xué)報(bào). 2017(04)
[2]基于單字提示特征的中文命名實(shí)體識別快速算法[J]. 馮元勇,孫樂,李文波,張大鯤. 中文信息學(xué)報(bào). 2008(01)
本文編號:3586116
【文章來源】:上海師范大學(xué)上海市
【文章頁數(shù)】:90 頁
【學(xué)位級別】:碩士
【部分圖文】:
四種機(jī)器學(xué)習(xí)模型對比
上海師范大學(xué)碩士學(xué)位論文第1章引言7無監(jiān)督學(xué)習(xí)的典型方法為聚類。在命名實(shí)體識別中,通常根據(jù)上下文的相似性從聚類組中收集命名實(shí)體。這類技術(shù)基本上依賴于詞匯資源,比如WordNet英語詞典。半監(jiān)督方法和無監(jiān)督方法可以在特征性較為明顯的封閉域語料中一定程度上的減少標(biāo)識數(shù)據(jù)的需求,通過尋找句子特征達(dá)到實(shí)體識別分類效果。但在開放域或語料形式較為復(fù)雜的情況時(shí),其往往效果不佳。1.2.3基于深度學(xué)習(xí)的方法近些年深度學(xué)習(xí)取得了較為明顯的成績,其被廣泛應(yīng)用于命名實(shí)體識別模型中并憑借其優(yōu)秀的表現(xiàn)逐漸占據(jù)了主導(dǎo)地位。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的子領(lǐng)域,其通常有多個(gè)處理層構(gòu)成以學(xué)習(xí)數(shù)據(jù)所含有的多個(gè)特征。常用于提取特征的處理層為人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)可以通過標(biāo)注語料庫自動(dòng)學(xué)習(xí)特征,從而減輕了對人工特征的依賴。圖1-2展示了多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與其反向傳播算法。底層神經(jīng)元輸出通過加權(quán)求和并通過非線性函數(shù)傳遞給下一層為神經(jīng)網(wǎng)絡(luò)的前向傳播,通過復(fù)合函數(shù)鏈?zhǔn)角髮?dǎo)法則以損失函數(shù)為起始計(jì)算多層神經(jīng)網(wǎng)絡(luò)下降梯度為其返現(xiàn)傳播算法。這種神經(jīng)網(wǎng)絡(luò)算法在諸多自然語言處理任務(wù)中已經(jīng)證明其可以有效的提取文本信息的部分語法甚至語義特征。圖1-2神經(jīng)網(wǎng)絡(luò)前向傳播與反向傳播Collobert和Weston[44]于2008第一次將神經(jīng)網(wǎng)絡(luò)框架引入命名實(shí)體識別任務(wù),其特征向量輸入通過英文單詞拼寫特征,字典和詞典所構(gòu)成。隨后Collobert等人[45]于2011年再次改進(jìn)模型將人工構(gòu)建特征替換為詞嵌入(wordembedding),這種方式可將單詞在n維空間中予以展示并保留單詞的信息。此方法是種完全無監(jiān)督的學(xué)習(xí)過程,只通過單詞附近的共現(xiàn)特征對單詞進(jìn)行特征提齲同時(shí)該模型
Bi-LSTM+CRF命名實(shí)體識別架構(gòu)
【參考文獻(xiàn)】:
期刊論文
[1]基于深度神經(jīng)網(wǎng)絡(luò)的中文命名實(shí)體識別[J]. 張海楠,伍大勇,劉悅,程學(xué)旗. 中文信息學(xué)報(bào). 2017(04)
[2]基于單字提示特征的中文命名實(shí)體識別快速算法[J]. 馮元勇,孫樂,李文波,張大鯤. 中文信息學(xué)報(bào). 2008(01)
本文編號:3586116
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3586116.html
最近更新
教材專著