生物多樣性描述文本的語(yǔ)義標(biāo)注算法研究

發(fā)布時(shí)間：2021-09-29 19:26

　　物種描述是生物學(xué)和生態(tài)學(xué)的起點(diǎn),兩百多年來(lái)積累了海量文獻(xiàn)。為了滿足生物學(xué)和生態(tài)學(xué)領(lǐng)域?qū)ξ锓N描述信息的自動(dòng)語(yǔ)義處理和細(xì)粒度檢索的需求,物種描述文本的結(jié)構(gòu)化和半結(jié)構(gòu)化成為該學(xué)科領(lǐng)域知識(shí)基礎(chǔ)設(shè)施建設(shè)的重要任務(wù)。由于物種描述信息的絕大部分是以人類可讀的形式存在的,因此,存在于文本中的科學(xué)事實(shí)需要人類智慧來(lái)分析和理解。為了使科學(xué)事實(shí)更便于利用,及生物和生態(tài)研究的重復(fù)利用,需要一個(gè)有效的機(jī)制,從主體文件中提取準(zhǔn)確的科學(xué)事實(shí),并把他們轉(zhuǎn)換成計(jì)算機(jī)可以理解的形式。這個(gè)過(guò)程稱為語(yǔ)義標(biāo)注。然而,以手工方式根本無(wú)法完成海量文本的轉(zhuǎn)換。因此,物種描述文本的自動(dòng)語(yǔ)義標(biāo)注成為亟待突破的領(lǐng)域。本研究以中文生物多樣性描述文檔為樣本,進(jìn)行語(yǔ)義標(biāo)注算法研究。文章主要包括五個(gè)部分的內(nèi)容：（1）準(zhǔn)備研究樣本。本研究采取隨機(jī)抽樣和分層抽樣相結(jié)合的方式,從《中國(guó)植物志》中采集1000個(gè)文檔作為數(shù)據(jù)集,并根據(jù)已有的schema對(duì)數(shù)據(jù)集進(jìn)行XML標(biāo)引。（2）語(yǔ)詞切分。語(yǔ)詞切分是語(yǔ)義標(biāo)注的基礎(chǔ),直接影響標(biāo)注結(jié)果。本研究通過(guò)對(duì)比不同中文分詞軟件的分詞效果,選用易用性和準(zhǔn)確性最好的ICTACLAS作為本研究的語(yǔ)詞切分工具。（3）構(gòu)建語(yǔ)義標(biāo)...

【文章來(lái)源】：華東師范大學(xué)上海市 211工程院校 985工程院校教育部直屬院校

【文章頁(yè)數(shù)】：67 頁(yè)

【學(xué)位級(jí)別】：碩士

【文章目錄】：
摘要
ABSTRACT
1 緒論
    1.1 研究背景及意義
    1.2 國(guó)內(nèi)外研究現(xiàn)狀
    1.3 本文的研究?jī)?nèi)容
    1.4 研究創(chuàng)新點(diǎn)
    1.5 本文的組織結(jié)構(gòu)
2 語(yǔ)義標(biāo)注系統(tǒng)的分析設(shè)計(jì)
    2.1 文本特征分析及XML
        2.1.1 XML概述
        2.1.2 文本特征分析
    2.2 語(yǔ)詞切分
    2.3 實(shí)現(xiàn)原理
    2.4 系統(tǒng)框架
        2.4.1 框架簡(jiǎn)介
        2.4.2 文本輸入
        2.4.3 學(xué)習(xí)和標(biāo)注模塊
        2.4.4 系統(tǒng)輸出
3 學(xué)習(xí)和標(biāo)注算法及實(shí)現(xiàn)
    3.1 樸素貝葉斯算法
        3.1.1 算法概述
        3.1.2 學(xué)習(xí)
        3.1.3 標(biāo)注
    3.2 基礎(chǔ)規(guī)則算法
        3.2.1 構(gòu)建規(guī)則集
        3.2.2 標(biāo)注
        3.2.3 學(xué)習(xí)
    3.3 優(yōu)先規(guī)則算法
        3.3.1 構(gòu)建規(guī)則集
        3.3.2 標(biāo)注
        3.3.3 學(xué)習(xí)
4 實(shí)驗(yàn)及結(jié)果分析
    4.1 數(shù)據(jù)樣本及測(cè)試集準(zhǔn)備
        4.1.1 數(shù)據(jù)樣本準(zhǔn)備
        4.1.2 訓(xùn)練集的XML標(biāo)引
        4.1.3 測(cè)試集的準(zhǔn)備
    4.2 評(píng)價(jià)機(jī)制
    4.3 實(shí)驗(yàn)安排和結(jié)果分析
        4.3.1 一層標(biāo)注
        4.3.2 二層標(biāo)注
        4.3.3 歸納和梳理
5 總結(jié)與展望
    5.1 總結(jié)
    5.2 展望
參考文獻(xiàn)
附錄
致謝

【參考文獻(xiàn)】：
期刊論文
[1]基于XML語(yǔ)言甲骨文語(yǔ)料庫(kù)元數(shù)據(jù)抽取的研究[J]. 吳琴霞,高峰,劉永革.  計(jì)算機(jī)技術(shù)與發(fā)展. 2012(05)
[2]中文植物描述數(shù)據(jù)的一致性研究[J]. 段宇鋒,黑珍珍,鞠菲.  情報(bào)科學(xué). 2012(05)
[3]XQuery實(shí)現(xiàn)技術(shù)研究綜述[J]. 李小青,廖湖聲,張曉博.  計(jì)算機(jī)科學(xué). 2012(03)
[4]基于XML的WEB數(shù)據(jù)抽取模型研究[J]. 黃淑芹.  通化師范學(xué)院學(xué)報(bào). 2012(02)
[5]基于語(yǔ)義的林產(chǎn)品貿(mào)易文本信息結(jié)構(gòu)化研究[J]. 陳釗,李嘉.  計(jì)算機(jī)工程. 2011(20)
[6]基于貝葉斯算法的森林成熟預(yù)測(cè)研究[J]. 李金銘,劉榮其,寧正元.  廈門大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(03)
[7]XML解析技術(shù)研究[J]. 馮進(jìn),丁博,史殿習(xí),張矚熹,許凱.  計(jì)算機(jī)工程與科學(xué). 2009(02)
[8]農(nóng)作物信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 鄭家恒,菅小艷.  計(jì)算機(jī)工程. 2006(07)
[9]從文本中獲取植物知識(shí)方法的研究[J]. 羅貝,吳潔,曹存根,邵志清.  計(jì)算機(jī)科學(xué). 2005(10)
[10]XML解析技術(shù)研究[J]. 朱前飛,高芒.  電腦開發(fā)與應(yīng)用. 2004(11)

碩士論文
[1]基于本體的植物信息抽取與分析研究[D]. 石靜.西北農(nóng)林科技大學(xué) 2010
[2]面向領(lǐng)域文檔的語(yǔ)義標(biāo)注方法研究[D]. 沙麗華.吉林大學(xué) 2009
[3]SVM與基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)學(xué)習(xí)方法相結(jié)合的生物實(shí)體識(shí)別[D]. 黃浩煒.國(guó)防科學(xué)技術(shù)大學(xué) 2008

本文編號(hào)：3414327

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://sikaile.net/tushudanganlunwen/3414327.html

上一篇：基于數(shù)據(jù)生態(tài)的圖書館知識(shí)服務(wù)價(jià)值共創(chuàng)的模式研究
下一篇：曲靖師范學(xué)院圖書館特色文獻(xiàn)管理系統(tǒng)研究與分析

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

生物多樣性描述文本的語(yǔ)義標(biāo)注算法研究