科技論文轉(zhuǎn)換為NLM XML格式的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2017-07-17 01:02
本文關(guān)鍵詞:科技論文轉(zhuǎn)換為NLM XML格式的設(shè)計(jì)與實(shí)現(xiàn)
更多相關(guān)文章: 科技論文 信息抽取 XML NLM DTD PubMed Central
【摘要】:隨著現(xiàn)代信息技術(shù)的迅速發(fā)展及廣泛應(yīng)用,期刊出版工作發(fā)生了重大變化,由傳統(tǒng)紙質(zhì)期刊占主導(dǎo)地位變?yōu)殡娮悠诳图堎|(zhì)期刊優(yōu)勢(shì)互補(bǔ)、缺一不可。電子期刊有非結(jié)構(gòu)化及結(jié)構(gòu)化之分,非結(jié)構(gòu)化電子期刊大多以PDF、HTML及Word等文檔格式進(jìn)行存儲(chǔ),而結(jié)構(gòu)化電子期刊通常以XML文檔格式保存。結(jié)構(gòu)化期刊在對(duì)文檔的語(yǔ)義信息及其內(nèi)部結(jié)構(gòu)的描述上明顯優(yōu)于非結(jié)構(gòu)化期刊。為此,把非結(jié)構(gòu)化文檔轉(zhuǎn)換成結(jié)構(gòu)化文檔成為了一個(gè)迫切的問(wèn)題。這正是本文基于XML的信息抽取技術(shù)的研究背景。本文最主要工作是構(gòu)建一個(gè)基于NLM DTD的PDF信息抽取系統(tǒng)。NLM DTD是由美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館(NLM)下的國(guó)立生物技術(shù)信息中心(NCBI)開(kāi)發(fā)的一套更具有普遍性及通用性的學(xué)術(shù)文獻(xiàn)XML描述規(guī)范。NLM DTD包含3個(gè)規(guī)范:文獻(xiàn)存檔標(biāo)簽集(Archiving Tag Set)、Journal Publishing Tag Set(期刊出版標(biāo)簽集)和NCBI Book Tag Set(圖書(shū)標(biāo)簽集),其中期刊出版標(biāo)簽集為全球科技期刊提供了一種通用的期刊數(shù)據(jù)交換的文檔格式,可以讓出版商和數(shù)據(jù)庫(kù)進(jìn)行期刊內(nèi)容的存儲(chǔ)和交換。目前該標(biāo)準(zhǔn)已成為美國(guó)的國(guó)家標(biāo)準(zhǔn),且已成為科技期刊界的行業(yè)標(biāo)準(zhǔn)。本系統(tǒng)的特點(diǎn)在于選擇XML作為信息表現(xiàn)模型,以及正則表達(dá)式作為抽取規(guī)則。系統(tǒng)的核心是先將PDF源文檔轉(zhuǎn)換為一種中間XML文檔,再利用文本特征、位置特征及顯示特征對(duì)中間XML文檔進(jìn)行基于正則表達(dá)式的信息抽取。本系統(tǒng)把科技論文的PDF文檔解析轉(zhuǎn)換為符合NLM DTD要求的XML文檔,從而實(shí)現(xiàn)科技論文格式標(biāo)注向語(yǔ)義標(biāo)注的轉(zhuǎn)換。
【關(guān)鍵詞】:科技論文 信息抽取 XML NLM DTD PubMed Central
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.52
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-13
- 1.1 選題背景10
- 1.2 出版期刊的現(xiàn)狀分析10-12
- 1.3 系統(tǒng)實(shí)現(xiàn)方案選擇12
- 1.4 業(yè)務(wù)流程12
- 1.5 研究意義12
- 1.6 主要工作12-13
- 第二章 基礎(chǔ)理論及相關(guān)技術(shù)13-24
- 2.1 HTML簡(jiǎn)介與特征13
- 2.1.1 HTML簡(jiǎn)介13
- 2.1.2 HTML特點(diǎn)與好處13
- 2.2 XML定義與特征13-17
- 2.2.1 XML定義13
- 2.2.2 XML優(yōu)點(diǎn)13-14
- 2.2.3 XML應(yīng)用場(chǎng)合14-16
- 2.2.4 XML的基本語(yǔ)法16-17
- 2.3 NLM DTD規(guī)范17-23
- 2.3.1 DTD定義與特征17-21
- 2.3.2 NLM DTD規(guī)范21-22
- 2.3.3 DTD的替代品XSD22-23
- 2.4 正則表達(dá)式23-24
- 第三章 Journal Publishing Tag Set的結(jié)構(gòu)解析24-32
- 3.1 Journal Publishing Tag Set的主要定義24
- 3.2 Journal Publishing Tag Set的層次結(jié)構(gòu)24-32
- 3.2.1 Front結(jié)構(gòu)25-26
- 3.2.2 Body與Section結(jié)構(gòu)26-27
- 3.2.3 Back結(jié)構(gòu)27-29
- 3.2.4 Floats-group結(jié)構(gòu)29
- 3.2.5 Sub-article與Response結(jié)構(gòu)29-30
- 3.2.6 Block結(jié)構(gòu)30-32
- 第四章 系統(tǒng)設(shè)計(jì)32-54
- 4.1 設(shè)計(jì)意義32-33
- 4.2 設(shè)計(jì)目標(biāo)33
- 4.3 功能模組設(shè)計(jì)33-37
- 4.3.1 論文信息維護(hù)模塊33-35
- 4.3.2 信息分析抽取模塊35
- 4.3.3 NLM DTD模型模塊35-36
- 4.3.4 XML文檔驗(yàn)證模塊36
- 4.3.5 模塊間運(yùn)作流程及關(guān)系36-37
- 4.4 角色與用例分析37-49
- 4.4.1 角色與主用例37-42
- 4.4.2 編輯論文子用例分析42-49
- 4.5 類圖結(jié)構(gòu)設(shè)計(jì)49-51
- 4.6 物理架構(gòu)設(shè)計(jì)51-54
- 第五章 系統(tǒng)實(shí)現(xiàn)54-73
- 5.1 開(kāi)發(fā)工具與版本控制工具54-55
- 5.1.1 開(kāi)發(fā)工具54
- 5.1.2 版本控制工具54-55
- 5.2 Journal Publishing Tag Set數(shù)據(jù)結(jié)構(gòu)模型類實(shí)現(xiàn)55-57
- 5.3 臨時(shí)數(shù)據(jù)模型類實(shí)現(xiàn)57-66
- 5.3.1 論文頭部信息臨時(shí)數(shù)據(jù)模型類57-61
- 5.3.2 論文主體信息臨時(shí)數(shù)據(jù)模型類61-62
- 5.3.3 論文結(jié)尾信息數(shù)據(jù)模型類62-65
- 5.3.4 論文其它數(shù)據(jù)模型類65-66
- 5.4 業(yè)務(wù)控制類實(shí)現(xiàn)66-70
- 5.5 邊界類的實(shí)現(xiàn)70-73
- 第六章 安裝部署說(shuō)明與系統(tǒng)測(cè)試73-81
- 6.1 軟件的安裝與配置73-74
- 6.2 系統(tǒng)測(cè)試74-80
- 6.2.1 導(dǎo)出PDF圖片75
- 6.2.2 維護(hù)相關(guān)信息及HTML內(nèi)容編輯75-78
- 6.2.3 線下驗(yàn)證XML文件78-79
- 6.2.4 線上驗(yàn)證XML文件79-80
- 6.3 系統(tǒng)性能測(cè)試80-81
- 第七章 總結(jié)與展望81-83
- 7.1 全文總結(jié)81
- 7.2 工作展望81-83
- 參考文獻(xiàn)83-85
- 攻讀碩士學(xué)位期間取得的研究成果85-86
- 致謝86-87
- 附件87
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 金麗萍;;電子期刊與紙質(zhì)期刊的差異比較[J];理論觀察;2006年01期
,本文編號(hào):551264
本文鏈接:http://sikaile.net/wenshubaike/hetongwenben/551264.html
最近更新
教材專著