第三代半導(dǎo)體材料領(lǐng)域文獻(xiàn)的實體關(guān)系抽取研究
發(fā)布時間:2023-02-19 08:31
第三代半導(dǎo)體材料因其優(yōu)異的特性在光電子和微電子等領(lǐng)域具有重要的應(yīng)用價值。而半導(dǎo)體材料領(lǐng)域文獻(xiàn)是該領(lǐng)域知識的主要來源,文獻(xiàn)中的實體關(guān)系是該領(lǐng)域知識的一種重要表現(xiàn)形式。隨著近幾年第三代半導(dǎo)體材料的迅猛發(fā)展,單單IEEE上每個月就增長近1000篇相關(guān)領(lǐng)域的文獻(xiàn)。過多的文獻(xiàn)增長使得研究人員難以及時、準(zhǔn)確的獲取領(lǐng)域內(nèi)的最新研究動向或成果。為了能夠讓機(jī)器輔助處理大量領(lǐng)域文獻(xiàn),研究人員使用自然語言處理技術(shù)來幫助從文獻(xiàn)中提取關(guān)鍵信息。然而現(xiàn)階段針對通用領(lǐng)域或生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)文本的關(guān)系抽取模型在第三代半導(dǎo)體材料領(lǐng)域并不適用。因此本文以第三代半導(dǎo)體材料領(lǐng)域英文文獻(xiàn)的實體關(guān)系抽取為研究主線,針對該領(lǐng)域文獻(xiàn)中的語言描述特點以及現(xiàn)有方法的不足,側(cè)重于集成預(yù)訓(xùn)練模型和深度學(xué)習(xí)網(wǎng)絡(luò)來抽取該領(lǐng)域文獻(xiàn)中的材料、器件、方法等實體以及它們之間的關(guān)系,具體工作如下:1.針對現(xiàn)階段缺少第三代半導(dǎo)體材料領(lǐng)域英文文獻(xiàn)數(shù)據(jù)集的問題,本文收集大量該領(lǐng)域的英文文獻(xiàn),定義實體和關(guān)系類型,并對這些文獻(xiàn)進(jìn)行人工標(biāo)注,標(biāo)注完成后進(jìn)行人工校驗,最后生成兩個數(shù)據(jù)集,分別用于命名實體識別和實體關(guān)系抽取任務(wù)。2.根據(jù)第三代半導(dǎo)體材料領(lǐng)域文獻(xiàn)實體識別的特...
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 信息抽取研究現(xiàn)狀
1.2.2 科技文獻(xiàn)命名實體識別研究現(xiàn)狀
1.2.3 科技文獻(xiàn)實體關(guān)系抽取研究現(xiàn)狀
1.3 論文主要工作及結(jié)構(gòu)安排
第二章 相關(guān)理論與方法介紹
2.1 實體關(guān)系抽取
2.1.1 實體關(guān)系抽取概述
2.1.2 實體關(guān)系抽取方法
2.2 詞嵌入特征方法
2.2.1 Word2vec
2.2.2 BERT
2.3 深度學(xué)習(xí)技術(shù)
2.3.1 雙向長短期記憶網(wǎng)絡(luò)
2.3.2 卷積神經(jīng)網(wǎng)絡(luò)
2.4 條件隨機(jī)場
2.5 本章小結(jié)
第三章 英文文獻(xiàn)數(shù)據(jù)集構(gòu)建與領(lǐng)域文獻(xiàn)實體識別
3.1 引言
3.2 第三代半導(dǎo)體材料領(lǐng)域英文文獻(xiàn)數(shù)據(jù)集構(gòu)建
3.2.1 實體類型與關(guān)系定義
3.2.2 數(shù)據(jù)集構(gòu)建流程
3.2.3 數(shù)據(jù)集構(gòu)成
3.3 材料領(lǐng)域文獻(xiàn)實體識別的特點
3.4 領(lǐng)域文獻(xiàn)實體識別模型介紹
3.4.1 動態(tài)融合BERT層
3.4.2 BiLSTM層
3.4.3 線性CRF層
3.5 領(lǐng)域文獻(xiàn)實體識別模型實驗
3.5.1 實驗數(shù)據(jù)及實驗環(huán)境
3.5.2 評估方法及參數(shù)設(shè)置
3.5.3 公共數(shù)據(jù)集上的對比實驗
3.5.4 領(lǐng)域文獻(xiàn)數(shù)據(jù)集上的對比實驗
3.5.5 模型分析實驗
3.6 本章小結(jié)
第四章 領(lǐng)域文獻(xiàn)關(guān)系抽取及系統(tǒng)實現(xiàn)
4.1 引言
4.2 EI-BERT-CNN模型結(jié)構(gòu)
4.2.1 詞嵌入層
4.2.2 句子卷積模塊
4.2.3 實體信息模塊
4.2.4 特征融合和分類層
4.3 領(lǐng)域文獻(xiàn)關(guān)系抽取模型實驗
4.3.1 實驗數(shù)據(jù)及實驗環(huán)境
4.3.2 評估方法及參數(shù)設(shè)置
4.3.3 公共數(shù)據(jù)集上的對比實驗
4.3.4 領(lǐng)域文獻(xiàn)數(shù)據(jù)集上的對比實驗
4.3.5 模型分析實驗
4.4 第三代半導(dǎo)體材料領(lǐng)域文獻(xiàn)知識抽取系統(tǒng)
4.4.1 系統(tǒng)設(shè)計
4.4.2 系統(tǒng)實現(xiàn)
4.4.3 系統(tǒng)展示
4.5 本章小結(jié)
總結(jié)與展望
總結(jié)
展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
本文編號:3745885
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 信息抽取研究現(xiàn)狀
1.2.2 科技文獻(xiàn)命名實體識別研究現(xiàn)狀
1.2.3 科技文獻(xiàn)實體關(guān)系抽取研究現(xiàn)狀
1.3 論文主要工作及結(jié)構(gòu)安排
第二章 相關(guān)理論與方法介紹
2.1 實體關(guān)系抽取
2.1.1 實體關(guān)系抽取概述
2.1.2 實體關(guān)系抽取方法
2.2 詞嵌入特征方法
2.2.1 Word2vec
2.2.2 BERT
2.3 深度學(xué)習(xí)技術(shù)
2.3.1 雙向長短期記憶網(wǎng)絡(luò)
2.3.2 卷積神經(jīng)網(wǎng)絡(luò)
2.4 條件隨機(jī)場
2.5 本章小結(jié)
第三章 英文文獻(xiàn)數(shù)據(jù)集構(gòu)建與領(lǐng)域文獻(xiàn)實體識別
3.1 引言
3.2 第三代半導(dǎo)體材料領(lǐng)域英文文獻(xiàn)數(shù)據(jù)集構(gòu)建
3.2.1 實體類型與關(guān)系定義
3.2.2 數(shù)據(jù)集構(gòu)建流程
3.2.3 數(shù)據(jù)集構(gòu)成
3.3 材料領(lǐng)域文獻(xiàn)實體識別的特點
3.4 領(lǐng)域文獻(xiàn)實體識別模型介紹
3.4.1 動態(tài)融合BERT層
3.4.2 BiLSTM層
3.4.3 線性CRF層
3.5 領(lǐng)域文獻(xiàn)實體識別模型實驗
3.5.1 實驗數(shù)據(jù)及實驗環(huán)境
3.5.2 評估方法及參數(shù)設(shè)置
3.5.3 公共數(shù)據(jù)集上的對比實驗
3.5.4 領(lǐng)域文獻(xiàn)數(shù)據(jù)集上的對比實驗
3.5.5 模型分析實驗
3.6 本章小結(jié)
第四章 領(lǐng)域文獻(xiàn)關(guān)系抽取及系統(tǒng)實現(xiàn)
4.1 引言
4.2 EI-BERT-CNN模型結(jié)構(gòu)
4.2.1 詞嵌入層
4.2.2 句子卷積模塊
4.2.3 實體信息模塊
4.2.4 特征融合和分類層
4.3 領(lǐng)域文獻(xiàn)關(guān)系抽取模型實驗
4.3.1 實驗數(shù)據(jù)及實驗環(huán)境
4.3.2 評估方法及參數(shù)設(shè)置
4.3.3 公共數(shù)據(jù)集上的對比實驗
4.3.4 領(lǐng)域文獻(xiàn)數(shù)據(jù)集上的對比實驗
4.3.5 模型分析實驗
4.4 第三代半導(dǎo)體材料領(lǐng)域文獻(xiàn)知識抽取系統(tǒng)
4.4.1 系統(tǒng)設(shè)計
4.4.2 系統(tǒng)實現(xiàn)
4.4.3 系統(tǒng)展示
4.5 本章小結(jié)
總結(jié)與展望
總結(jié)
展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
本文編號:3745885
本文鏈接:http://sikaile.net/tushudanganlunwen/3745885.html
最近更新
教材專著