基于中文文本的領(lǐng)域本體學習研究
發(fā)布時間:2021-03-09 23:21
本體作為語義網(wǎng)絡(luò)的重要分支,在信息檢索、問答系統(tǒng)等領(lǐng)域扮演著重要的角色。而本體構(gòu)建作為本體應(yīng)用的必要前提,目前本體構(gòu)建方法主要分為兩類,一類為依靠本體專家手工構(gòu)建本體,另一類為根據(jù)統(tǒng)計學和語言學等理論自動或者半自動構(gòu)建本體,即本體學習。由于手工構(gòu)建本體缺乏足夠的靈活性和客觀性,因此本體學習逐漸成為當前本體構(gòu)建研究的主流方法。但是傳統(tǒng)的本體學習方法存在領(lǐng)域可移植性較差等問題,并且基于網(wǎng)絡(luò)文本的本體學習研究相對較少。因此本文基于互聯(lián)網(wǎng)中文文本進行本體學習研究,其中主要包括語料庫的構(gòu)建和本體概念、分類關(guān)系、非分類關(guān)系的抽取,提升了本體學習方法的可移植性和性能。本文的主要內(nèi)容及成果如下:(1)提出一種自動構(gòu)建本體學習語料庫的方法。傳統(tǒng)的本體學習方法通常是基于已有的標注語料庫實現(xiàn)的,難以利用復雜的網(wǎng)絡(luò)文本進行本體學習。本文首先基于知識圖譜獲取領(lǐng)域詞典,進而構(gòu)建得到對應(yīng)領(lǐng)域的領(lǐng)域向量空間模型。然后基于TF*IWF*IWF算法將網(wǎng)絡(luò)文本映射為領(lǐng)域空間向量,并計算得到該文本與對應(yīng)領(lǐng)域的相關(guān)度。最后根據(jù)相關(guān)度對網(wǎng)絡(luò)文本進行過濾與預處理,從而完成本體學習語料庫的構(gòu)建。(2)提出一種改進的D-TF-IDF算...
【文章來源】:重慶大學重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
014年的LOD項目云Fig.2.2LODProjectCloudin2014
重慶大學碩士學位論文6實驗設(shè)計與結(jié)果分析48(a)準確率比較(b)召回率比較(c)F1值比較圖6.4本體概念抽取方法比較Fig.6.4Comparisonofontologyconceptextractionmethods從上圖分析可得,相較于已有的本體概念抽取方法,結(jié)合D-TF-IDF與K-Means的概念抽取方法在文本語料數(shù)較小時性能較差,其中準確率、召回率和F1值均偏低。主要由于文本語料較少導致word2vec模型的訓練效果不好,進而導致本體術(shù)語的聚類效果不好,所以本體概念形成和標注的效果較差。但是當文本語料數(shù)足夠大時,結(jié)合D-TF-IDF與K-Means的概念抽取方法可以明顯提升本體概念抽取的性能。對于結(jié)合CCM與TFIDFE的本體概念抽取方法、結(jié)合DR&DC與LLR的本體概念抽取方法和D-TF-IDF本體概念抽取方法,由于沒有word2vec模型的訓練過程,只是依賴于統(tǒng)計計算,因此對文本語料數(shù)量的依賴程度相對較低。綜合上述分析,當語料庫中的中文文本較少時,可以直接選擇D-TF-IDF算法進行本體概念抽取,或者選擇由大量通用文本已經(jīng)訓練完成的word2vec模型代替手動訓練,也可以在一定程度上優(yōu)化本體概念抽取的性能。當語料庫中的中文文本較多時,使用結(jié)合了D-TF-IDF與K-Means的優(yōu)化方法可以明顯提升本體概念
【參考文獻】:
期刊論文
[1]基于主題詞表與百科知識相融合的領(lǐng)域本體自動構(gòu)建研究[J]. 王汀,冀付軍. 情報學報. 2017(07)
[2]從文本中構(gòu)建領(lǐng)域本體技術(shù)綜述[J]. 任飛亮,沈繼坤,孫賓賓,朱靖波. 計算機學報. 2019(03)
[3]中文專利領(lǐng)域本體概念間非分類關(guān)系抽取[J]. 何宇,呂學強,劉秀磊,徐麗萍. 計算機工程與設(shè)計. 2017(01)
[4]課程本體自動構(gòu)建技術(shù)研究[J]. 童名文,牛琳,楊琳,鄒軍華,上超望. 計算機科學. 2016(S2)
[5]國內(nèi)外領(lǐng)域本體構(gòu)建方法的比較研究[J]. 岳麗欣,劉文云. 情報理論與實踐. 2016(08)
[6]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計算機科學. 2016(06)
[7]中文領(lǐng)域知識半自動化OWL本體構(gòu)建方法研究[J]. 董洋溢,李偉華,陳世亮. 計算機應(yīng)用與軟件. 2016(05)
[8]自動化構(gòu)建的中文知識圖譜系統(tǒng)[J]. 鄂世嘉,林培裕,向陽. 計算機應(yīng)用. 2016(04)
[9]知識圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
[10]基于形式概念分析的本體構(gòu)建方法研究[J]. 韓道軍,甘甜,葉曼曼,沈夏炯. 計算機工程. 2016(02)
碩士論文
[1]基于中文文本的本體學習關(guān)鍵技術(shù)研究[D]. 馬傳賓.西安郵電大學 2016
本文編號:3073648
【文章來源】:重慶大學重慶市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
014年的LOD項目云Fig.2.2LODProjectCloudin2014
重慶大學碩士學位論文6實驗設(shè)計與結(jié)果分析48(a)準確率比較(b)召回率比較(c)F1值比較圖6.4本體概念抽取方法比較Fig.6.4Comparisonofontologyconceptextractionmethods從上圖分析可得,相較于已有的本體概念抽取方法,結(jié)合D-TF-IDF與K-Means的概念抽取方法在文本語料數(shù)較小時性能較差,其中準確率、召回率和F1值均偏低。主要由于文本語料較少導致word2vec模型的訓練效果不好,進而導致本體術(shù)語的聚類效果不好,所以本體概念形成和標注的效果較差。但是當文本語料數(shù)足夠大時,結(jié)合D-TF-IDF與K-Means的概念抽取方法可以明顯提升本體概念抽取的性能。對于結(jié)合CCM與TFIDFE的本體概念抽取方法、結(jié)合DR&DC與LLR的本體概念抽取方法和D-TF-IDF本體概念抽取方法,由于沒有word2vec模型的訓練過程,只是依賴于統(tǒng)計計算,因此對文本語料數(shù)量的依賴程度相對較低。綜合上述分析,當語料庫中的中文文本較少時,可以直接選擇D-TF-IDF算法進行本體概念抽取,或者選擇由大量通用文本已經(jīng)訓練完成的word2vec模型代替手動訓練,也可以在一定程度上優(yōu)化本體概念抽取的性能。當語料庫中的中文文本較多時,使用結(jié)合了D-TF-IDF與K-Means的優(yōu)化方法可以明顯提升本體概念
【參考文獻】:
期刊論文
[1]基于主題詞表與百科知識相融合的領(lǐng)域本體自動構(gòu)建研究[J]. 王汀,冀付軍. 情報學報. 2017(07)
[2]從文本中構(gòu)建領(lǐng)域本體技術(shù)綜述[J]. 任飛亮,沈繼坤,孫賓賓,朱靖波. 計算機學報. 2019(03)
[3]中文專利領(lǐng)域本體概念間非分類關(guān)系抽取[J]. 何宇,呂學強,劉秀磊,徐麗萍. 計算機工程與設(shè)計. 2017(01)
[4]課程本體自動構(gòu)建技術(shù)研究[J]. 童名文,牛琳,楊琳,鄒軍華,上超望. 計算機科學. 2016(S2)
[5]國內(nèi)外領(lǐng)域本體構(gòu)建方法的比較研究[J]. 岳麗欣,劉文云. 情報理論與實踐. 2016(08)
[6]基于Word2Vec的一種文檔向量表示[J]. 唐明,朱磊,鄒顯春. 計算機科學. 2016(06)
[7]中文領(lǐng)域知識半自動化OWL本體構(gòu)建方法研究[J]. 董洋溢,李偉華,陳世亮. 計算機應(yīng)用與軟件. 2016(05)
[8]自動化構(gòu)建的中文知識圖譜系統(tǒng)[J]. 鄂世嘉,林培裕,向陽. 計算機應(yīng)用. 2016(04)
[9]知識圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計算機研究與發(fā)展. 2016(03)
[10]基于形式概念分析的本體構(gòu)建方法研究[J]. 韓道軍,甘甜,葉曼曼,沈夏炯. 計算機工程. 2016(02)
碩士論文
[1]基于中文文本的本體學習關(guān)鍵技術(shù)研究[D]. 馬傳賓.西安郵電大學 2016
本文編號:3073648
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3073648.html
最近更新
教材專著