天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于中文自然語言處理的糖尿病知識圖譜構(gòu)建

發(fā)布時間:2021-12-19 13:32
  隨著人民生活水平的提高以及生活方式的改變,糖尿病的發(fā)病率在逐年增加,糖尿病會導致持續(xù)高血糖與長期代謝紊亂等問題,從而致使全身組織器官,特別是眼、腎、心血管及神經(jīng)系統(tǒng)的損害及其功能障礙和衰竭。然而我國基層醫(yī)生人數(shù)不足,專業(yè)水平參差不齊,同時糖尿病也分為很多種類,只有正確的認識糖尿病的種類才能夠幫助人民群眾有效的、有針對性的預(yù)防和治療糖尿病。近年來自然語言處理技術(shù)快速發(fā)展,可運用此技術(shù)從醫(yī)學文本中抽取醫(yī)學實體和實體間的關(guān)系等知識,使用抽取到的知識可構(gòu)建醫(yī)學知識圖譜,成功地將無結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)。醫(yī)學知識圖譜可以輔助醫(yī)務(wù)人員對疾病診斷治療,同時可更好的向人民普及醫(yī)學知識,加快推動醫(yī)學產(chǎn)業(yè)發(fā)展。當前運用自然語言處理技術(shù)構(gòu)建知識圖譜是一個學術(shù)研究的熱點,同時它也廣泛的應(yīng)用于工業(yè)界的各方面。本文運用中文自然語言處理技術(shù)從糖尿病醫(yī)學文獻中抽取知識,構(gòu)建糖尿病知識圖譜。這些醫(yī)學文獻中蘊含大量醫(yī)學信息,對糖尿病的預(yù)防、診斷和治療都有著十分重要的意義。由于這些醫(yī)學文獻無結(jié)構(gòu)化,若利用人工抽取相關(guān)知識將會耗費大量的人力物力,如何高效準確地抽取文獻中的知識,是本文研究的重點。本文通過對醫(yī)學知識圖譜構(gòu)建... 

【文章來源】:內(nèi)蒙古科技大學內(nèi)蒙古自治區(qū)

【文章頁數(shù)】:57 頁

【學位級別】:碩士

【部分圖文】:

基于中文自然語言處理的糖尿病知識圖譜構(gòu)建


谷歌搜索結(jié)果頁面

知識圖,體系架構(gòu)


內(nèi)蒙古科技大學碩士學位論文-3-網(wǎng)本體語言)就是基于上述目的產(chǎn)生的[5]。知識圖譜是結(jié)構(gòu)化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關(guān)系,其基本組成單位是“實體-關(guān)系-實體”三元組以及實體及其相關(guān)屬性-值對,實體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識結(jié)構(gòu),即三元組的結(jié)構(gòu),表示為G=(E,R,S)。其中E|E|21}e,...,e,e{是知識庫中的實體集合,共包含|E|種不同實體;R|E|21}r,...,r,{r是知識庫中的關(guān)系集合,共包含||R種不同關(guān)系;S屬于ERE代表知識庫中的三元組集合。知識圖譜在邏輯結(jié)構(gòu)上分為模式層與數(shù)據(jù)層兩個層次,數(shù)據(jù)層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。如果用(實體1,關(guān)系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖數(shù)據(jù)庫作為存儲介質(zhì),例如開源的Neo4j、Twitter的FlockDB、JanusGraph等。模式層構(gòu)建在數(shù)據(jù)層之上,主要是通過本體庫來規(guī)范數(shù)據(jù)層的一系列事實表達。本體是結(jié)構(gòu)化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結(jié)構(gòu)較強,并且冗余程度較小[5]。知識圖譜的體系架構(gòu)是指其構(gòu)建模式的結(jié)構(gòu),如下圖1.2所示:圖1.2知識圖譜體系架構(gòu)圖知識圖譜的構(gòu)建,首先是對原始數(shù)據(jù)的收集,數(shù)據(jù)可為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù),通過對半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進行一系列的知識抽取技術(shù),并通過數(shù)據(jù)融合技術(shù)融合第三方數(shù)據(jù)庫和結(jié)構(gòu)化數(shù)據(jù),再將所有知識進行實體對齊或知識推理技術(shù),即可構(gòu)建本體庫,最后對本體庫進行一系列的更新迭代過程,即可構(gòu)建最終的知識圖譜。1.2.2知識圖譜研究現(xiàn)狀近年來,科學家們對知識圖譜的應(yīng)用場景不斷進行了擴展。知識圖譜相關(guān)技術(shù)也被應(yīng)用于除搜索引擎以外其他領(lǐng)域的研究[5]。在國內(nèi)方面,2014年,胡芳槐[6]研

框架圖,知識圖,糖尿病,框架圖


內(nèi)蒙古科技大學碩士學位論文-6-圖1.3糖尿病知識圖譜框架圖本文首先對獲取的糖尿病文獻數(shù)據(jù)進行預(yù)處理工作,數(shù)據(jù)集來自教科書、臨床指南和研究論文三個方面,因文章篇幅較長,需要對數(shù)據(jù)集進行分句等預(yù)處理,將數(shù)據(jù)標注好后,分為訓練集、驗證集和測試集,用于下一步的命名實體識別和關(guān)系抽取兩項子任務(wù)中。在命名實體識別子任務(wù)中,本文以BiLSTM-CRF為基礎(chǔ)模型,為解決傳統(tǒng)詞嵌入中存在的一詞多義,無法結(jié)合文本上下文等問題,引入了基于字的BERT預(yù)訓練語言模型,構(gòu)建了BERT-BiLSTM-CRF模型,通過學習句子的上下文信息,從而提高模型識別的準確率;在關(guān)系抽取子任務(wù)中,通過閱讀大量文獻,對比了當前兩種主流模型,即流水線模型與聯(lián)合模型的優(yōu)缺點后,本文選擇了共享參數(shù)的聯(lián)合模型進行實體關(guān)系的抽取,同時為提高實驗結(jié)果的準確率和降低訓練時間成本,采用了BERT預(yù)訓練語言模型和多頭選擇方式,構(gòu)建了融合了BERT-BiLSTM的關(guān)系抽取聯(lián)合模型,并通過實驗表明本模型抽取具有良好效果。1.4論文組織結(jié)構(gòu)第一章緒論詳細介紹了本文糖尿病知識圖譜構(gòu)建的研究背景及其意義,并對知識圖譜的國內(nèi)外研究現(xiàn)狀做了簡要介紹,詳細介紹了醫(yī)療知識圖譜研究現(xiàn)狀,并闡述了本文的主要內(nèi)容及章節(jié)安排。第二章知識圖譜構(gòu)建相關(guān)技術(shù)

【參考文獻】:
期刊論文
[1]基于知識圖譜的國內(nèi)空中交通管理研究可視化分析[J]. 王劍輝,朱曉波,夏正洪,何乃帥.  交通信息與安全. 2019(06)
[2]基于BERT嵌入的中文命名實體識別方法[J]. 楊飄,董文永.  計算機工程. 2020(04)
[3]基于E-CNN和BLSTM-CRF的臨床文本命名實體識別[J]. 曹春萍,關(guān)鵬舉.  計算機應(yīng)用研究. 2019(12)
[4]基于EHR的醫(yī)療知識圖譜研究與應(yīng)用綜述[J]. 何霆,吳雅婷,王華珍,熊英杰,孫偲,徐漢川.  哈爾濱工業(yè)大學學報. 2018(11)
[5]知識圖譜在知識庫網(wǎng)站建設(shè)中的應(yīng)用[J]. 董翔,蔣偉,史志林.  電子技術(shù)與軟件工程. 2018(16)
[6]“人工智能+醫(yī)療”火了,未來如何治病?[J]. 方曲韻.  晚霞. 2018(14)
[7]知識圖譜的推薦系統(tǒng)綜述[J]. 常亮,張偉濤,古天龍,孫文平,賓辰忠.  智能系統(tǒng)學報. 2019(02)
[8]一種準確而高效的領(lǐng)域知識圖譜構(gòu)建方法[J]. 楊玉基,許斌,胡家威,仝美涵,張鵬,鄭莉.  軟件學報. 2018(10)
[9]CRF與詞典相結(jié)合的疾病命名實體識別[J]. 龍光宇,徐云.  微型機與應(yīng)用. 2017(21)
[10]醫(yī)學知識圖譜構(gòu)建技術(shù)與研究進展[J]. 袁凱琦,鄧揚,陳道源,張冰,雷凱.  計算機應(yīng)用研究. 2018(07)

博士論文
[1]醫(yī)學領(lǐng)域知識抽取方法研究[D]. 李昊迪.哈爾濱工業(yè)大學 2018
[2]基于多種數(shù)據(jù)源的中文知識圖譜構(gòu)建方法研究[D]. 胡芳槐.華東理工大學 2015

碩士論文
[1]基于CNKI的中文醫(yī)學知識圖譜構(gòu)建與應(yīng)用[D]. 任玉琪.大連理工大學 2019
[2]基于知識圖譜的醫(yī)療知識搜索研究[D]. 劉崇.浙江理工大學 2018



本文編號:3544504

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3544504.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶60012***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com