生物多樣性描述文本的語義標注算法研究
發(fā)布時間:2021-09-29 19:26
物種描述是生物學和生態(tài)學的起點,兩百多年來積累了海量文獻。為了滿足生物學和生態(tài)學領域對物種描述信息的自動語義處理和細粒度檢索的需求,物種描述文本的結構化和半結構化成為該學科領域知識基礎設施建設的重要任務。由于物種描述信息的絕大部分是以人類可讀的形式存在的,因此,存在于文本中的科學事實需要人類智慧來分析和理解。為了使科學事實更便于利用,及生物和生態(tài)研究的重復利用,需要一個有效的機制,從主體文件中提取準確的科學事實,并把他們轉換成計算機可以理解的形式。這個過程稱為語義標注。然而,以手工方式根本無法完成海量文本的轉換。因此,物種描述文本的自動語義標注成為亟待突破的領域。本研究以中文生物多樣性描述文檔為樣本,進行語義標注算法研究。文章主要包括五個部分的內容:(1)準備研究樣本。本研究采取隨機抽樣和分層抽樣相結合的方式,從《中國植物志》中采集1000個文檔作為數(shù)據(jù)集,并根據(jù)已有的schema對數(shù)據(jù)集進行XML標引。(2)語詞切分。語詞切分是語義標注的基礎,直接影響標注結果。本研究通過對比不同中文分詞軟件的分詞效果,選用易用性和準確性最好的ICTACLAS作為本研究的語詞切分工具。(3)構建語義標...
【文章來源】:華東師范大學上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究背景及意義
1.2 國內外研究現(xiàn)狀
1.3 本文的研究內容
1.4 研究創(chuàng)新點
1.5 本文的組織結構
2 語義標注系統(tǒng)的分析設計
2.1 文本特征分析及XML
2.1.1 XML概述
2.1.2 文本特征分析
2.2 語詞切分
2.3 實現(xiàn)原理
2.4 系統(tǒng)框架
2.4.1 框架簡介
2.4.2 文本輸入
2.4.3 學習和標注模塊
2.4.4 系統(tǒng)輸出
3 學習和標注算法及實現(xiàn)
3.1 樸素貝葉斯算法
3.1.1 算法概述
3.1.2 學習
3.1.3 標注
3.2 基礎規(guī)則算法
3.2.1 構建規(guī)則集
3.2.2 標注
3.2.3 學習
3.3 優(yōu)先規(guī)則算法
3.3.1 構建規(guī)則集
3.3.2 標注
3.3.3 學習
4 實驗及結果分析
4.1 數(shù)據(jù)樣本及測試集準備
4.1.1 數(shù)據(jù)樣本準備
4.1.2 訓練集的XML標引
4.1.3 測試集的準備
4.2 評價機制
4.3 實驗安排和結果分析
4.3.1 一層標注
4.3.2 二層標注
4.3.3 歸納和梳理
5 總結與展望
5.1 總結
5.2 展望
參考文獻
附錄
致謝
【參考文獻】:
期刊論文
[1]基于XML語言甲骨文語料庫元數(shù)據(jù)抽取的研究[J]. 吳琴霞,高峰,劉永革. 計算機技術與發(fā)展. 2012(05)
[2]中文植物描述數(shù)據(jù)的一致性研究[J]. 段宇鋒,黑珍珍,鞠菲. 情報科學. 2012(05)
[3]XQuery實現(xiàn)技術研究綜述[J]. 李小青,廖湖聲,張曉博. 計算機科學. 2012(03)
[4]基于XML的WEB數(shù)據(jù)抽取模型研究[J]. 黃淑芹. 通化師范學院學報. 2012(02)
[5]基于語義的林產(chǎn)品貿易文本信息結構化研究[J]. 陳釗,李嘉. 計算機工程. 2011(20)
[6]基于貝葉斯算法的森林成熟預測研究[J]. 李金銘,劉榮其,寧正元. 廈門大學學報(自然科學版). 2009(03)
[7]XML解析技術研究[J]. 馮進,丁博,史殿習,張矚熹,許凱. 計算機工程與科學. 2009(02)
[8]農(nóng)作物信息抽取系統(tǒng)的設計與實現(xiàn)[J]. 鄭家恒,菅小艷. 計算機工程. 2006(07)
[9]從文本中獲取植物知識方法的研究[J]. 羅貝,吳潔,曹存根,邵志清. 計算機科學. 2005(10)
[10]XML解析技術研究[J]. 朱前飛,高芒. 電腦開發(fā)與應用. 2004(11)
碩士論文
[1]基于本體的植物信息抽取與分析研究[D]. 石靜.西北農(nóng)林科技大學 2010
[2]面向領域文檔的語義標注方法研究[D]. 沙麗華.吉林大學 2009
[3]SVM與基于轉換的錯誤驅動學習方法相結合的生物實體識別[D]. 黃浩煒.國防科學技術大學 2008
本文編號:3414327
【文章來源】:華東師范大學上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:67 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究背景及意義
1.2 國內外研究現(xiàn)狀
1.3 本文的研究內容
1.4 研究創(chuàng)新點
1.5 本文的組織結構
2 語義標注系統(tǒng)的分析設計
2.1 文本特征分析及XML
2.1.1 XML概述
2.1.2 文本特征分析
2.2 語詞切分
2.3 實現(xiàn)原理
2.4 系統(tǒng)框架
2.4.1 框架簡介
2.4.2 文本輸入
2.4.3 學習和標注模塊
2.4.4 系統(tǒng)輸出
3 學習和標注算法及實現(xiàn)
3.1 樸素貝葉斯算法
3.1.1 算法概述
3.1.2 學習
3.1.3 標注
3.2 基礎規(guī)則算法
3.2.1 構建規(guī)則集
3.2.2 標注
3.2.3 學習
3.3 優(yōu)先規(guī)則算法
3.3.1 構建規(guī)則集
3.3.2 標注
3.3.3 學習
4 實驗及結果分析
4.1 數(shù)據(jù)樣本及測試集準備
4.1.1 數(shù)據(jù)樣本準備
4.1.2 訓練集的XML標引
4.1.3 測試集的準備
4.2 評價機制
4.3 實驗安排和結果分析
4.3.1 一層標注
4.3.2 二層標注
4.3.3 歸納和梳理
5 總結與展望
5.1 總結
5.2 展望
參考文獻
附錄
致謝
【參考文獻】:
期刊論文
[1]基于XML語言甲骨文語料庫元數(shù)據(jù)抽取的研究[J]. 吳琴霞,高峰,劉永革. 計算機技術與發(fā)展. 2012(05)
[2]中文植物描述數(shù)據(jù)的一致性研究[J]. 段宇鋒,黑珍珍,鞠菲. 情報科學. 2012(05)
[3]XQuery實現(xiàn)技術研究綜述[J]. 李小青,廖湖聲,張曉博. 計算機科學. 2012(03)
[4]基于XML的WEB數(shù)據(jù)抽取模型研究[J]. 黃淑芹. 通化師范學院學報. 2012(02)
[5]基于語義的林產(chǎn)品貿易文本信息結構化研究[J]. 陳釗,李嘉. 計算機工程. 2011(20)
[6]基于貝葉斯算法的森林成熟預測研究[J]. 李金銘,劉榮其,寧正元. 廈門大學學報(自然科學版). 2009(03)
[7]XML解析技術研究[J]. 馮進,丁博,史殿習,張矚熹,許凱. 計算機工程與科學. 2009(02)
[8]農(nóng)作物信息抽取系統(tǒng)的設計與實現(xiàn)[J]. 鄭家恒,菅小艷. 計算機工程. 2006(07)
[9]從文本中獲取植物知識方法的研究[J]. 羅貝,吳潔,曹存根,邵志清. 計算機科學. 2005(10)
[10]XML解析技術研究[J]. 朱前飛,高芒. 電腦開發(fā)與應用. 2004(11)
碩士論文
[1]基于本體的植物信息抽取與分析研究[D]. 石靜.西北農(nóng)林科技大學 2010
[2]面向領域文檔的語義標注方法研究[D]. 沙麗華.吉林大學 2009
[3]SVM與基于轉換的錯誤驅動學習方法相結合的生物實體識別[D]. 黃浩煒.國防科學技術大學 2008
本文編號:3414327
本文鏈接:http://sikaile.net/tushudanganlunwen/3414327.html