基于半監(jiān)督學(xué)習(xí)的藥品專利實體識別及應(yīng)用
發(fā)布時間:2020-12-15 03:27
隨著生命科學(xué)的蓬勃發(fā)展,化學(xué)醫(yī)藥領(lǐng)域的相關(guān)文獻呈現(xiàn)指數(shù)級增長態(tài)勢。從這些海量的非結(jié)構(gòu)化醫(yī)學(xué)文獻中抽取出結(jié)構(gòu)化的、有組織的化合物信息,有助于醫(yī)藥及相關(guān)領(lǐng)域人員開展藥品研發(fā)工作,進而促進整體制藥工業(yè)的技術(shù)革新。其中,化學(xué)命名實體受到醫(yī)藥學(xué)研究者的廣泛關(guān)注,是醫(yī)學(xué)文獻信息分析的主要載體,相關(guān)命名實體識別成為目前一個重要的科研課題。在現(xiàn)有的命名實體識別(Named Entity Recognition,NER)方法中,帶有條件隨機場層的長短期記憶網(wǎng)絡(luò)(Long Short Term Memory with a Conditional Random Field layer,LSTM-CRF)是最先進、最常用的方法之一。這種有監(jiān)督學(xué)習(xí)方法通常需要大量的標記語料,然而與專業(yè)領(lǐng)域文獻高度相似的標記語料庫卻非常有限,這其中就包括化學(xué)醫(yī)藥領(lǐng)域的藥品專利文獻。這種情況下,有監(jiān)督學(xué)習(xí)模型就無法準確地識別相關(guān)實體。為解決上述問題,本文提出了一種基于雙向長短期記憶網(wǎng)絡(luò)與詞相似度聯(lián)合并帶有條件隨機場(BiLSTM-WS-CRF)的半監(jiān)督命名實體識別方法。該方法首先對各類型實體的詞向量進行無監(jiān)督聚類,將獲得的聚類中心...
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 命名實體識別的研究現(xiàn)狀
1.2.2 藥品專利命名實體識別的發(fā)展現(xiàn)狀
1.3 研究內(nèi)容與研究方案
1.4 本文結(jié)構(gòu)
2 相關(guān)背景知識
2.1 詞的表示方法
2.1.1 基于矩陣的分布表示
2.1.2 基于聚類的分布表示
2.1.3 基于神經(jīng)網(wǎng)絡(luò)的分布表示
2.2 命名實體識別的標記策略
2.3 BiLSTM-CRF模型
2.4 本章小結(jié)
3 詞與標簽關(guān)系的模糊提取
3.1 詞相似度的度量方法
3.2 基于詞相似度的詞與標簽關(guān)系表述
3.2.1 基于模糊C均值聚類的參考向量提取
3.2.2 詞與標簽的關(guān)系表述生成
3.3 實驗及分析
3.4 本章小結(jié)
4 基于半監(jiān)督學(xué)習(xí)的藥品專利命名實體識別
4.1 藥品專利中實體詞匯的相似度特點
4.2 基于詞相似度的半監(jiān)督命名實體識別模型
4.3 實驗及分析
4.3.1 實驗數(shù)據(jù)與實驗設(shè)置
4.3.2 不同相似性度量方法的影響
4.3.3 與現(xiàn)有模型的對比
4.3.4 模型分析
4.4 本章小結(jié)
5 命名實體識別系統(tǒng)實現(xiàn)
5.1 需求分析
5.2 系統(tǒng)設(shè)計
5.3 數(shù)據(jù)庫設(shè)計
5.4 功能實現(xiàn)
5.4.1 系統(tǒng)開發(fā)環(huán)境
5.4.2 系統(tǒng)功能模塊的實現(xiàn)
5.5 本章小結(jié)
結(jié)論
參考文獻
致謝
本文編號:2917565
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:60 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 命名實體識別的研究現(xiàn)狀
1.2.2 藥品專利命名實體識別的發(fā)展現(xiàn)狀
1.3 研究內(nèi)容與研究方案
1.4 本文結(jié)構(gòu)
2 相關(guān)背景知識
2.1 詞的表示方法
2.1.1 基于矩陣的分布表示
2.1.2 基于聚類的分布表示
2.1.3 基于神經(jīng)網(wǎng)絡(luò)的分布表示
2.2 命名實體識別的標記策略
2.3 BiLSTM-CRF模型
2.4 本章小結(jié)
3 詞與標簽關(guān)系的模糊提取
3.1 詞相似度的度量方法
3.2 基于詞相似度的詞與標簽關(guān)系表述
3.2.1 基于模糊C均值聚類的參考向量提取
3.2.2 詞與標簽的關(guān)系表述生成
3.3 實驗及分析
3.4 本章小結(jié)
4 基于半監(jiān)督學(xué)習(xí)的藥品專利命名實體識別
4.1 藥品專利中實體詞匯的相似度特點
4.2 基于詞相似度的半監(jiān)督命名實體識別模型
4.3 實驗及分析
4.3.1 實驗數(shù)據(jù)與實驗設(shè)置
4.3.2 不同相似性度量方法的影響
4.3.3 與現(xiàn)有模型的對比
4.3.4 模型分析
4.4 本章小結(jié)
5 命名實體識別系統(tǒng)實現(xiàn)
5.1 需求分析
5.2 系統(tǒng)設(shè)計
5.3 數(shù)據(jù)庫設(shè)計
5.4 功能實現(xiàn)
5.4.1 系統(tǒng)開發(fā)環(huán)境
5.4.2 系統(tǒng)功能模塊的實現(xiàn)
5.5 本章小結(jié)
結(jié)論
參考文獻
致謝
本文編號:2917565
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2917565.html
最近更新
教材專著