化學(xué)物質(zhì)Web信息獲取方法的研究與實(shí)現(xiàn)
本文關(guān)鍵詞:化學(xué)物質(zhì)Web信息獲取方法的研究與實(shí)現(xiàn)
更多相關(guān)文章: 化學(xué)物質(zhì)信息 Web信息抽取 主題相關(guān)性 主題網(wǎng)絡(luò)爬蟲 迭代結(jié)構(gòu)
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展和計(jì)算機(jī)的全面普及,因特網(wǎng)成為了世界上最大的信息資料庫,也日益成為化工企業(yè)、組織和個人發(fā)布化學(xué)信息的主要場所。然而,由于因特網(wǎng)中龐大的信息量,使得采用百度、谷歌等進(jìn)行信息檢索的常規(guī)手段存在準(zhǔn)確度不高、效率低下的問題,無法滿足化學(xué)工作者高效檢索化學(xué)信息的需求。針對上述問題,本文以常用化學(xué)物質(zhì)網(wǎng)站為研究對象,開展化學(xué)物質(zhì)Web信息獲取方法的相關(guān)研究,以實(shí)現(xiàn)網(wǎng)頁中化學(xué)物質(zhì)信息的抽取及存入化學(xué)物質(zhì)數(shù)據(jù)庫的目的。本文的主要研究內(nèi)容和實(shí)驗(yàn)結(jié)果如下:(1)化學(xué)物質(zhì)網(wǎng)頁的采集方法研究。采集化學(xué)物質(zhì)網(wǎng)頁是進(jìn)行網(wǎng)頁信息抽取的前提,但是在化學(xué)網(wǎng)站中不可避免地存在與化學(xué)物質(zhì)信息無關(guān)或相關(guān)度不高的網(wǎng)頁(即主題無關(guān)性網(wǎng)頁),針對此問題本文采用基于正則表達(dá)式的URL主題相關(guān)性預(yù)測技術(shù)和基于文字內(nèi)容啟發(fā)式的網(wǎng)頁主題相關(guān)性判別技術(shù)實(shí)現(xiàn)主題相關(guān)網(wǎng)頁的爬取功能,并在此基礎(chǔ)上實(shí)現(xiàn)一個主題網(wǎng)絡(luò)爬蟲。經(jīng)實(shí)驗(yàn)證明,該主題網(wǎng)絡(luò)爬蟲能夠有效采集化學(xué)物質(zhì)網(wǎng)頁,達(dá)到研究所需要求。(2)化學(xué)物質(zhì)Web信息抽取方法研究。爬取到的化學(xué)物質(zhì)網(wǎng)頁,其格式和內(nèi)容達(dá)不到作為訓(xùn)練樣本網(wǎng)頁和待抽取網(wǎng)頁的要求,因此首先需要對網(wǎng)頁進(jìn)行預(yù)處理操作,修復(fù)網(wǎng)頁格式、剔除“噪聲”信息;然后在分析網(wǎng)頁結(jié)構(gòu)的基礎(chǔ)上,設(shè)計(jì)基于樹結(jié)構(gòu)的抽取規(guī)則生成算法,針對單個網(wǎng)頁來主動尋找迭代結(jié)構(gòu)并用正則表達(dá)式對其進(jìn)行描述生成網(wǎng)頁的抽取規(guī)則;最后根據(jù)得到的抽取規(guī)則把網(wǎng)頁中的化學(xué)物質(zhì)信息提取出來,保存到化學(xué)物質(zhì)數(shù)據(jù)庫中。實(shí)驗(yàn)結(jié)果表明,設(shè)計(jì)的抽取方法能夠準(zhǔn)確抽取出網(wǎng)頁中的化學(xué)物質(zhì)信息,召回率保持在95.2%之上。(3)化學(xué)物質(zhì)網(wǎng)頁信息抽取系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。結(jié)合化學(xué)物質(zhì)網(wǎng)頁采集方法和化學(xué)物質(zhì)Web信息抽取方法,設(shè)計(jì)實(shí)現(xiàn)了基于B/S架構(gòu)模式的化學(xué)物質(zhì)網(wǎng)頁信息抽取系統(tǒng),該系統(tǒng)集成了化學(xué)物質(zhì)網(wǎng)頁的爬取、網(wǎng)頁清洗、網(wǎng)頁抽取規(guī)則的生成和網(wǎng)頁中化學(xué)物質(zhì)信息的抽取功能。最后,通過測試分析驗(yàn)證本文設(shè)計(jì)的化學(xué)物質(zhì)網(wǎng)頁信息抽取系統(tǒng)具有較強(qiáng)的可用性。
【關(guān)鍵詞】:化學(xué)物質(zhì)信息 Web信息抽取 主題相關(guān)性 主題網(wǎng)絡(luò)爬蟲 迭代結(jié)構(gòu)
【學(xué)位授予單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092
【目錄】:
- 摘要5-6
- ABSTRACT6-10
- 第一章 緒論10-16
- 1.1 研究背景與意義10
- 1.2 國內(nèi)外研究現(xiàn)狀10-13
- 1.2.1 國外研究現(xiàn)狀10-12
- 1.2.2 國內(nèi)研究現(xiàn)狀12-13
- 1.3 研究的主要內(nèi)容13-14
- 1.4 技術(shù)路線14
- 1.5 論文的組織結(jié)構(gòu)14-16
- 第二章 Web信息抽取相關(guān)理論與技術(shù)介紹16-25
- 2.1 網(wǎng)絡(luò)爬蟲技術(shù)16-20
- 2.1.1 主題網(wǎng)絡(luò)爬蟲框架與原理16-17
- 2.1.2 主題網(wǎng)絡(luò)爬蟲技術(shù)17-20
- 2.2 Web信息抽取技術(shù)20-23
- 2.2.1 Web信息抽取技術(shù)分類20-22
- 2.2.2 信息抽取技術(shù)評價方法22-23
- 2.3 Roadrunner系統(tǒng)23-24
- 2.4 本章小結(jié)24-25
- 第三章 化學(xué)物質(zhì)網(wǎng)頁采集方法研究25-37
- 3.1 主題相關(guān)性判別技術(shù)研究25-32
- 3.1.1 URL主題相關(guān)性預(yù)測技術(shù)25-29
- 3.1.2 網(wǎng)頁內(nèi)容的主題相關(guān)性判別技術(shù)29-32
- 3.2 主題網(wǎng)絡(luò)爬蟲設(shè)計(jì)32-33
- 3.3 實(shí)驗(yàn)及結(jié)果分析33-36
- 3.3.1 主題關(guān)鍵詞選取及閾值設(shè)置33-34
- 3.3.2 實(shí)驗(yàn)結(jié)果與分析34-36
- 3.4 本章小結(jié)36-37
- 第四章 化學(xué)物質(zhì)Web信息抽取方法研究37-47
- 4.1 網(wǎng)頁預(yù)處理37-38
- 4.2 基于樹結(jié)構(gòu)的抽取規(guī)則生成算法研究與實(shí)現(xiàn)38-44
- 4.2.1 網(wǎng)頁結(jié)構(gòu)分析38-39
- 4.2.2 抽取規(guī)則生成算法39-44
- 4.3 數(shù)據(jù)抽取44-45
- 4.4 實(shí)驗(yàn)及結(jié)果分析45-46
- 4.5 本章小結(jié)46-47
- 第五章 化學(xué)物質(zhì)網(wǎng)頁信息抽取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)47-53
- 5.1 系統(tǒng)分析與設(shè)計(jì)47-49
- 5.1.1 系統(tǒng)需求分析47
- 5.1.2 系統(tǒng)結(jié)構(gòu)47-48
- 5.1.3 系統(tǒng)模塊設(shè)計(jì)48-49
- 5.2 系統(tǒng)測試與評價49-52
- 5.2.1 系統(tǒng)測試49-52
- 5.2.2 系統(tǒng)評價52
- 5.3 本章小結(jié)52-53
- 第六章 總結(jié)與展望53-55
- 6.1 總結(jié)53
- 6.2 展望53-55
- 參考文獻(xiàn)55-58
- 致謝58-59
- 作者簡介59
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 照格申;蒙文化學(xué)物質(zhì)名稱中的詞綴問題[J];術(shù)語標(biāo)準(zhǔn)化與信息技術(shù);1998年02期
2 姚紹明,劉淑卿,胡俊玲;化學(xué)數(shù)據(jù)庫中使用敘詞法表述化學(xué)物質(zhì)的討論[J];現(xiàn)代圖書情報技術(shù);1989年02期
3 王太平;漢蒙化學(xué)物質(zhì)分類詞匯(一)[J];術(shù)語標(biāo)準(zhǔn)化與信息技術(shù);1999年01期
4 晨維;;用激光檢測致癌物質(zhì)[J];激光與光電子學(xué)進(jìn)展;1981年11期
5 馮方平;多途徑檢索化學(xué)物質(zhì)登記號[J];情報雜志;2004年03期
6 邸曉曼;;化學(xué)物質(zhì)的生物降解技術(shù)分析[J];數(shù)字化用戶;2013年06期
7 王太平;化學(xué)物質(zhì)蒙文命名規(guī)則[J];術(shù)語標(biāo)準(zhǔn)化與信息技術(shù);1998年04期
8 吳長江;確定化學(xué)物質(zhì)在CA中名稱的方法[J];情報探索;2005年05期
9 ;同溫層上部臭氧遭破壞并向下延伸[J];成都?xì)庀髮W(xué)院學(xué)報;1989年02期
10 ;國外安全信息[J];化工勞動保護(hù);1995年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 宋建敏;劉贊;劉玉;;關(guān)于青島市新化學(xué)物質(zhì)環(huán)境監(jiān)管的探討[A];中國環(huán)境科學(xué)學(xué)會2009年學(xué)術(shù)年會論文集(第四卷)[C];2009年
2 王華;田新;張驍;;美國對有毒工業(yè)化學(xué)物質(zhì)事故的響應(yīng)行動研究[A];公共安全中的化學(xué)問題研究進(jìn)展(第二卷)[C];2011年
3 黨志超;;歐盟化學(xué)品REACH法規(guī)的挑戰(zhàn)與機(jī)遇[A];中國毒理學(xué)會第五次全國學(xué)術(shù)大會論文集[C];2009年
4 沈英娃;;新化學(xué)物質(zhì)環(huán)境管理簡介[A];良好實(shí)驗(yàn)室規(guī)范(GLP)國家標(biāo)準(zhǔn)及數(shù)據(jù)共享論壇會議材料[C];2009年
5 郝存興;馬繼社;黃軍青;趙亮;;常見化學(xué)物質(zhì)泄漏處理方法綜述[A];公共安全中的化學(xué)問題研究進(jìn)展(第三卷)[C];2013年
6 方征;余若禎;楊霓云;王宏;周俊麗;劉征濤;;“三致”效應(yīng)檢測系統(tǒng)在新化學(xué)物質(zhì)風(fēng)險評估體系中的運(yùn)用[A];中國毒理學(xué)會環(huán)境與生態(tài)毒理學(xué)專業(yè)委員會成立大會會議論文集[C];2008年
7 夏潮涌;;細(xì)胞、組織化學(xué)物質(zhì)定量分析中的誤區(qū)與陷阱[A];第六屆全國生物醫(yī)學(xué)體視學(xué)學(xué)術(shù)會議暨第九屆全軍軍事病理學(xué)學(xué)術(shù)會議、第五屆全軍定量病理學(xué)學(xué)術(shù)會議論文匯編[C];2005年
8 聶晶磊;劉純新;高桂華;渠開山;;“綠色化學(xué)”與環(huán)境保護(hù)行政管理[A];中國化學(xué)會第26屆學(xué)術(shù)年會化學(xué)與社會論壇論文集[C];2008年
9 張效偉;蘇冠勇;劉紅玲;于紅霞;;基于活細(xì)胞陣列的化學(xué)物質(zhì)毒性研究與評估技術(shù)[A];第六屆全國環(huán)境化學(xué)大會暨環(huán)境科學(xué)儀器與分析儀器展覽會摘要集[C];2011年
10 周紅;聶晶磊;高映新;;關(guān)于全氟辛基磺酸類化學(xué)物質(zhì)的探討[A];持久性有機(jī)污染物論壇2006暨第一屆持久性有機(jī)污染物全國學(xué)術(shù)研討會論文集[C];2006年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 張海濤;新化學(xué)物質(zhì)登記研討會將召開[N];中國化工報;2007年
2 一凡;新化學(xué)物質(zhì)登記舉辦首次研討會[N];醫(yī)藥經(jīng)濟(jì)報;2007年
3 劉純新;第二屆新化學(xué)物質(zhì)評審專家委員會成立[N];中國環(huán)境報;2007年
4 聶愛萍;美國發(fā)布化學(xué)物質(zhì)新用途規(guī)則[N];國際商報;2009年
5 中國WTO/TBT-SPS通報咨詢中心 供稿;美國發(fā)布某些化學(xué)物質(zhì)重要新用途規(guī)則[N];中國國門時報;2009年
6 ;《新化學(xué)物質(zhì)環(huán)境管理辦法》[N];中國環(huán)境報;2002年
7 記者 屈遐;生產(chǎn)或進(jìn)口新化學(xué)物質(zhì)須申報[N];中國環(huán)境報;2003年
8 中國染料工業(yè)專家顧問團(tuán)專家顧問 陳榮圻;REACH法規(guī)主要內(nèi)容[N];中國紡織報;2007年
9 謝湘寧;中國版REACH全面啟動[N];中國化工報;2007年
10 常紀(jì)文;歐盟化學(xué)物環(huán)境風(fēng)險預(yù)防和控制制度[N];中國環(huán)境報;2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 梁永強(qiáng);化學(xué)物質(zhì)監(jiān)控流程優(yōu)化及SAP物質(zhì)跟蹤系統(tǒng)實(shí)施[D];上海交通大學(xué);2014年
2 黃湛艷;食品包裝材料PET中小分子化學(xué)物質(zhì)的檢測和遷移研究[D];暨南大學(xué);2015年
3 萬景瑞;化學(xué)物質(zhì)Web信息獲取方法的研究與實(shí)現(xiàn)[D];西北農(nóng)林科技大學(xué);2016年
4 李遠(yuǎn)航;新化學(xué)物質(zhì)生態(tài)毒理學(xué)評估與立邦漆分析[D];東北師范大學(xué);2008年
5 楊雪梅;新化學(xué)物質(zhì)生態(tài)危害評價模型研究[D];西北農(nóng)林科技大學(xué);2012年
6 王綠平;工業(yè)化學(xué)品中PBT物質(zhì)的危害評估和分類的方法學(xué)研究[D];華東師范大學(xué);2013年
7 趙穎;農(nóng)藥類化學(xué)物質(zhì)在土壤中遷移轉(zhuǎn)化的規(guī)律及數(shù)值模擬[D];遼寧工程技術(shù)大學(xué);2005年
8 梁倩;新化學(xué)物質(zhì)生態(tài)固有特性預(yù)測方法研究[D];西北農(nóng)林科技大學(xué);2012年
9 馮碩;基于Web挖掘技術(shù)的化學(xué)物質(zhì)信息獲取方法研究[D];西北農(nóng)林科技大學(xué);2012年
10 曹巧玲;檢測五種小分子化學(xué)物質(zhì)的蛋白芯片技術(shù)研究[D];中國人民解放軍軍事醫(yī)學(xué)科學(xué)院;2007年
,本文編號:601596
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/601596.html