基于概率依賴關(guān)系的命名實(shí)體識(shí)別方法研究
發(fā)布時(shí)間:2022-07-09 18:54
在信息爆炸的大數(shù)據(jù)時(shí)代,如何從龐雜的數(shù)據(jù)中獲取簡單有效的信息顯得日益重要。命名實(shí)體識(shí)別是在文本中定位和分類專有名詞(例如人名、地名等)的手段。在中文領(lǐng)域,這類命名實(shí)體發(fā)揮著巨大的作用,因而將其更好的發(fā)現(xiàn)與提取是一項(xiàng)有意義的工作。文本數(shù)據(jù)具有上下文依賴關(guān)系,本文將數(shù)據(jù)作為隨機(jī)變量的集合,挖掘隨機(jī)變量中實(shí)體與其他信息的概率依賴關(guān)系。考慮到命名實(shí)體識(shí)別任務(wù)的特殊性,我們從依存句法分析和子序列分割入手,提出了對其算法的改進(jìn),本文主要工作如下:(1)提出了融合依存句法信息的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以識(shí)別命名實(shí)體,通過單向信息的傳遞,得到與雙向信息傳遞可以匹敵的效果。該方法考慮到將依存句法分析獲得的句子中與物理位置無關(guān)的信息之間的語義關(guān)系作為特征以提高命名實(shí)體識(shí)別性能。提出將基于詞語級別的依存句法分析轉(zhuǎn)化為基于字符的依存句法信息,以獲得更多的額外信息并減少錯(cuò)誤的依存句法分析結(jié)果帶來的影響。并引入樹狀長短期記憶神經(jīng)網(wǎng)絡(luò),挖掘以依存句法分析表示的樹狀序列信息。(2)提出了神經(jīng)網(wǎng)絡(luò)與半馬爾科夫條件隨機(jī)場結(jié)合的命名實(shí)體識(shí)別方法,該方法將序列看成是一個(gè)個(gè)子序列的集合,并將子序列作為一個(gè)整體進(jìn)行標(biāo)記,解決了條件隨機(jī)場中存...
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 研究內(nèi)容與工作
1.4 論文組織結(jié)構(gòu)
2 相關(guān)背景知識(shí)
2.1 NER任務(wù)分析
2.2 輸入表示
2.3 規(guī)則與詞典結(jié)合的NER方法
2.4 統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法
2.4.1 基本分類器實(shí)現(xiàn)NER任務(wù)
2.4.2 生成式模型
2.4.3 判別式模型
2.5 深度學(xué)習(xí)方法
2.5.1 神經(jīng)網(wǎng)絡(luò)NER的輸入層
2.5.2 基于RNN及其變體的NER任務(wù)
2.5.3 基于CNN的NER任務(wù)
2.6 評價(jià)方式
2.6.1 PRF值
2.6.2 宏觀F值與微觀F值
2.7 本章小結(jié)
3 融入依存句法信息的Tree-LSTM命名實(shí)體識(shí)別方法
3.1 依存句法分析
3.1.1 依存句法介紹
3.1.2 基于字的依存句法分析定義
3.2 融入依存句法信息的網(wǎng)絡(luò)結(jié)構(gòu)
3.2.1 Tree-LSTM模型
3.2.2 融入依存句法信息的Tree-LSTM網(wǎng)絡(luò)結(jié)構(gòu)
3.3 命名實(shí)體識(shí)別系統(tǒng)
3.3.1 系統(tǒng)框架
3.3.2 文本數(shù)值化表示
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 標(biāo)注格式
3.4.2 實(shí)驗(yàn)數(shù)據(jù)及處理
3.4.3 實(shí)驗(yàn)設(shè)置
3.4.4 實(shí)驗(yàn)結(jié)果與分析
3.5 本章小結(jié)
4 神經(jīng)網(wǎng)絡(luò)半馬爾科夫條件隨機(jī)場實(shí)現(xiàn)命名實(shí)體識(shí)別
4.1 問題分析
4.1.1 半馬爾科夫性質(zhì)
4.1.2 輸入表示
4.2 神經(jīng)網(wǎng)絡(luò)半馬爾科夫條件隨機(jī)場模型
4.2.1 半馬爾科夫條件隨機(jī)場
4.2.2 神經(jīng)網(wǎng)絡(luò)半馬爾科夫條件隨機(jī)場模型算法
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 標(biāo)注格式
4.3.2 實(shí)驗(yàn)數(shù)據(jù)分析
4.3.3 實(shí)驗(yàn)設(shè)置
4.3.4 實(shí)驗(yàn)結(jié)果與分析
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 未來展望
參考文獻(xiàn)
作者簡歷及攻讀碩士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]漢英雙語命名實(shí)體識(shí)別與對齊的交互式方法[J]. 陳鈺楓,宗成慶,蘇克毅. 計(jì)算機(jī)學(xué)報(bào). 2011(09)
[2]《知網(wǎng)》在命名實(shí)體識(shí)別中的應(yīng)用研究[J]. 鄭逢強(qiáng),林磊,劉秉權(quán),孫承杰. 中文信息學(xué)報(bào). 2008(05)
[3]融合多特征的最大熵漢語命名實(shí)體識(shí)別模型[J]. 張玥杰,徐智婷,薛向陽. 計(jì)算機(jī)研究與發(fā)展. 2008(06)
本文編號:3657641
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【文章目錄】:
致謝
摘要
ABSTRACT
1 引言
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 研究內(nèi)容與工作
1.4 論文組織結(jié)構(gòu)
2 相關(guān)背景知識(shí)
2.1 NER任務(wù)分析
2.2 輸入表示
2.3 規(guī)則與詞典結(jié)合的NER方法
2.4 統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法
2.4.1 基本分類器實(shí)現(xiàn)NER任務(wù)
2.4.2 生成式模型
2.4.3 判別式模型
2.5 深度學(xué)習(xí)方法
2.5.1 神經(jīng)網(wǎng)絡(luò)NER的輸入層
2.5.2 基于RNN及其變體的NER任務(wù)
2.5.3 基于CNN的NER任務(wù)
2.6 評價(jià)方式
2.6.1 PRF值
2.6.2 宏觀F值與微觀F值
2.7 本章小結(jié)
3 融入依存句法信息的Tree-LSTM命名實(shí)體識(shí)別方法
3.1 依存句法分析
3.1.1 依存句法介紹
3.1.2 基于字的依存句法分析定義
3.2 融入依存句法信息的網(wǎng)絡(luò)結(jié)構(gòu)
3.2.1 Tree-LSTM模型
3.2.2 融入依存句法信息的Tree-LSTM網(wǎng)絡(luò)結(jié)構(gòu)
3.3 命名實(shí)體識(shí)別系統(tǒng)
3.3.1 系統(tǒng)框架
3.3.2 文本數(shù)值化表示
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 標(biāo)注格式
3.4.2 實(shí)驗(yàn)數(shù)據(jù)及處理
3.4.3 實(shí)驗(yàn)設(shè)置
3.4.4 實(shí)驗(yàn)結(jié)果與分析
3.5 本章小結(jié)
4 神經(jīng)網(wǎng)絡(luò)半馬爾科夫條件隨機(jī)場實(shí)現(xiàn)命名實(shí)體識(shí)別
4.1 問題分析
4.1.1 半馬爾科夫性質(zhì)
4.1.2 輸入表示
4.2 神經(jīng)網(wǎng)絡(luò)半馬爾科夫條件隨機(jī)場模型
4.2.1 半馬爾科夫條件隨機(jī)場
4.2.2 神經(jīng)網(wǎng)絡(luò)半馬爾科夫條件隨機(jī)場模型算法
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 標(biāo)注格式
4.3.2 實(shí)驗(yàn)數(shù)據(jù)分析
4.3.3 實(shí)驗(yàn)設(shè)置
4.3.4 實(shí)驗(yàn)結(jié)果與分析
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 未來展望
參考文獻(xiàn)
作者簡歷及攻讀碩士學(xué)位期間取得的研究成果
學(xué)位論文數(shù)據(jù)集
【參考文獻(xiàn)】:
期刊論文
[1]漢英雙語命名實(shí)體識(shí)別與對齊的交互式方法[J]. 陳鈺楓,宗成慶,蘇克毅. 計(jì)算機(jī)學(xué)報(bào). 2011(09)
[2]《知網(wǎng)》在命名實(shí)體識(shí)別中的應(yīng)用研究[J]. 鄭逢強(qiáng),林磊,劉秉權(quán),孫承杰. 中文信息學(xué)報(bào). 2008(05)
[3]融合多特征的最大熵漢語命名實(shí)體識(shí)別模型[J]. 張玥杰,徐智婷,薛向陽. 計(jì)算機(jī)研究與發(fā)展. 2008(06)
本文編號:3657641
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3657641.html
最近更新
教材專著