健康飲食領域知識圖譜構建與應用研究
發(fā)布時間:2021-09-02 09:18
在過去的40年里,發(fā)展中國家經(jīng)濟的高速發(fā)展引起了人民膳食結構的顯著變化,肉類產(chǎn)品消費量增長,慢性疾病成為人類健康的主要殺手,在這種背景下,人們對于獲取健康飲食知識的需求日益增長。幸運的是,互聯(lián)網(wǎng)創(chuàng)造了一個健康飲食信息的搜索、學習和共享平臺,但這些信息紛繁復雜,涉及到食物種類、營養(yǎng)、醫(yī)療等多個方面,且分布在多個數(shù)據(jù)源上,為用戶的檢索和學習帶來困難。如何整合這些知識,挖掘隱含在半結構和非結構文本中的概念和語義關系,為健康食物的檢索系統(tǒng)提供更加豐富的語義信息是一個具有重要意義的研究問題。目前,學術界和工業(yè)界將解決這一問題的方法聚焦在知識圖譜領域,基于知識圖譜技術出現(xiàn)了許多健康方面的研究和應用系統(tǒng),但是多數(shù)知識圖譜集中在專業(yè)醫(yī)療領域,其中實體和關系多數(shù)來自于專家定義、已有知識庫等結構化和半結構化數(shù)據(jù),從互聯(lián)網(wǎng)自然語言中提取知識進行自動構建的方案不多,此外,與英文相比,已有的中文領域知識庫和訓練語料很少,為知識整合帶來挑戰(zhàn)。本文針對健康飲食數(shù)據(jù)的特點,定義了知識圖譜中主要包含的五個實體,分別是食材、菜品、營養(yǎng)元素、癥狀和人群,然后從多個健康網(wǎng)站中獲取半結構和非結構的文本數(shù)據(jù),進行實體識別、關系識...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
(a)百度搜索“知識圖譜”結果
圖 2.1(b) 百度搜索“人工智能相關書籍”結果2.2 知識圖譜構建技術概述知識圖譜構建涉及到多個研究領域的方法,因此,知識圖譜的構建需要依據(jù)數(shù)據(jù)特點和實際應用需求決定。一般知識圖譜的結構分為模式層(本體層)和數(shù)據(jù)層,模式層一般為專家定義的領域本體,描述知識圖譜中的概念類別、屬性和關系等,是該領域達成共識的知識或真理。數(shù)據(jù)層按照本體層所定義的概念類型和屬性從海量數(shù)據(jù)中識別這些概念的實例,并按照定義的對象屬性對其進行整合,從而形成大規(guī)模知識庫。本體層在構建的過程中可以采用自頂向下(Top-down)和自底向上(Bottom-up)兩種方案[19],自頂向下方案指的是在整合實體層的數(shù)據(jù)之前首先由專家對知識圖譜中所包含的概念種類、屬性、關系、公理、規(guī)則等進行定義,構建好本體層的數(shù)據(jù)模式,然后按照模式來整合數(shù)據(jù)資源,這種方法在許多早期知識庫的構
圖 2.2 知識圖譜構建流程圖構建過程中,通常使用自然語言技術對數(shù)據(jù)進行處理,識別句子中的相關術語和關系,然后進行知識融合,對不同來源抽取出的知識實體進行合并,在這一步驟中需要考慮語義消歧的問題,簡而言之,就是一詞多義和同義詞現(xiàn)象,例如“蘋果”可以表示一種水果,也可以表示品牌,對于上一步驟中識別出的實體指稱需要判斷其在上下文語境中的意義,具有相同的語義的全部詞匯均要鏈接到同一實體。最后,將新知識進行存儲,對知識庫進行優(yōu)化、評估、更新等操作,也可以使用知識推理來補全圖譜中缺失的關系。2.2.1 實體識別知識圖譜構建過程中首先需要考慮的問題就是命名實體識別,用于構建知識圖譜的數(shù)據(jù)源多種多樣,不同的數(shù)據(jù)源需要考慮不同的數(shù)據(jù)處理和命名實體識別方法。按照數(shù)據(jù)的結構化程度可以將數(shù)據(jù)源分為三種類型:
本文編號:3378756
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
(a)百度搜索“知識圖譜”結果
圖 2.1(b) 百度搜索“人工智能相關書籍”結果2.2 知識圖譜構建技術概述知識圖譜構建涉及到多個研究領域的方法,因此,知識圖譜的構建需要依據(jù)數(shù)據(jù)特點和實際應用需求決定。一般知識圖譜的結構分為模式層(本體層)和數(shù)據(jù)層,模式層一般為專家定義的領域本體,描述知識圖譜中的概念類別、屬性和關系等,是該領域達成共識的知識或真理。數(shù)據(jù)層按照本體層所定義的概念類型和屬性從海量數(shù)據(jù)中識別這些概念的實例,并按照定義的對象屬性對其進行整合,從而形成大規(guī)模知識庫。本體層在構建的過程中可以采用自頂向下(Top-down)和自底向上(Bottom-up)兩種方案[19],自頂向下方案指的是在整合實體層的數(shù)據(jù)之前首先由專家對知識圖譜中所包含的概念種類、屬性、關系、公理、規(guī)則等進行定義,構建好本體層的數(shù)據(jù)模式,然后按照模式來整合數(shù)據(jù)資源,這種方法在許多早期知識庫的構
圖 2.2 知識圖譜構建流程圖構建過程中,通常使用自然語言技術對數(shù)據(jù)進行處理,識別句子中的相關術語和關系,然后進行知識融合,對不同來源抽取出的知識實體進行合并,在這一步驟中需要考慮語義消歧的問題,簡而言之,就是一詞多義和同義詞現(xiàn)象,例如“蘋果”可以表示一種水果,也可以表示品牌,對于上一步驟中識別出的實體指稱需要判斷其在上下文語境中的意義,具有相同的語義的全部詞匯均要鏈接到同一實體。最后,將新知識進行存儲,對知識庫進行優(yōu)化、評估、更新等操作,也可以使用知識推理來補全圖譜中缺失的關系。2.2.1 實體識別知識圖譜構建過程中首先需要考慮的問題就是命名實體識別,用于構建知識圖譜的數(shù)據(jù)源多種多樣,不同的數(shù)據(jù)源需要考慮不同的數(shù)據(jù)處理和命名實體識別方法。按照數(shù)據(jù)的結構化程度可以將數(shù)據(jù)源分為三種類型:
本文編號:3378756
本文鏈接:http://sikaile.net/projectlw/qgylw/3378756.html
最近更新
教材專著