天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Web挖掘技術(shù)的化學(xué)物質(zhì)信息獲取方法研究

發(fā)布時(shí)間:2018-06-01 10:31

  本文選題:Web挖掘 + 聚焦爬蟲。 參考:《西北農(nóng)林科技大學(xué)》2012年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上信息資源與日劇增,采用常規(guī)獲取信息手段存在準(zhǔn)確度不高、效率低下等問題,本文以化學(xué)物質(zhì)常用網(wǎng)站為研究對(duì)象,研究快速、高效從網(wǎng)頁中獲取信息的技術(shù)和方法,以實(shí)現(xiàn)化學(xué)物質(zhì)環(huán)境安全數(shù)據(jù)庫自動(dòng)更新。首先運(yùn)用垂直搜索引擎技術(shù),篩選、獲取相關(guān)的化學(xué)物質(zhì)網(wǎng)頁并分析網(wǎng)頁結(jié)構(gòu),按照網(wǎng)頁的結(jié)構(gòu)化程度分別采用相應(yīng)技術(shù)和方法;其次,運(yùn)用排序算法、全局模式等的方法對(duì)化學(xué)物質(zhì)網(wǎng)站中的異構(gòu)數(shù)據(jù)進(jìn)行集成。同時(shí)為了提高動(dòng)態(tài)信息源網(wǎng)站信息持續(xù)、適時(shí)抽取,提出了任務(wù)分割、失敗重試機(jī)制、動(dòng)態(tài)更新檢查等方法。本文的主要研究?jī)?nèi)容和結(jié)論如下: (1)化學(xué)物質(zhì)網(wǎng)上信息的動(dòng)態(tài)獲取方法研究。網(wǎng)上獲取化學(xué)物質(zhì)的主要任務(wù)是獲取CasNo(化學(xué)物質(zhì)登錄號(hào))、名稱、理化性質(zhì)等信息。根據(jù)網(wǎng)站頁面類型,分別運(yùn)用聚焦爬蟲技術(shù)和模擬人工瀏覽方法對(duì)網(wǎng)頁進(jìn)行獲;分析網(wǎng)頁的樹形結(jié)構(gòu),運(yùn)用包裝器技術(shù)抽取出化學(xué)物質(zhì)的相關(guān)屬性信息,運(yùn)用正則表達(dá)式的方法抽取出非結(jié)構(gòu)化數(shù)據(jù)中的結(jié)構(gòu)化信息;采用監(jiān)聽器技術(shù),實(shí)現(xiàn)了化學(xué)物質(zhì)網(wǎng)站任務(wù)的調(diào)度,保證了化學(xué)物質(zhì)網(wǎng)上信息的自動(dòng)獲取和數(shù)據(jù)的適時(shí)更新。 (2)化學(xué)物質(zhì)異構(gòu)數(shù)據(jù)集成方法的研究。針對(duì)化學(xué)物質(zhì)網(wǎng)頁中數(shù)據(jù)異構(gòu)的問題,本文首先根據(jù)化學(xué)物質(zhì)環(huán)境安全相關(guān)的屬性確定集成范圍,設(shè)計(jì)了公共數(shù)據(jù)模型CompoundsDTO作為全局模式,然后運(yùn)用排序算法對(duì)動(dòng)態(tài)獲取的數(shù)據(jù)進(jìn)行分析,最后將處理后的數(shù)據(jù)映射到全局模式中,實(shí)現(xiàn)了異構(gòu)數(shù)據(jù)的集成,有效的消除了異構(gòu)數(shù)據(jù)源上的結(jié)構(gòu)沖突和語義沖突。 (3)設(shè)計(jì)開發(fā)化學(xué)物質(zhì)環(huán)境安全數(shù)據(jù)管理系統(tǒng)。在構(gòu)建化學(xué)物質(zhì)環(huán)境安全數(shù)據(jù)庫的基礎(chǔ)上,運(yùn)用化學(xué)物質(zhì)網(wǎng)上信息動(dòng)態(tài)獲取技術(shù)和化學(xué)物質(zhì)異構(gòu)數(shù)據(jù)集成技術(shù),設(shè)計(jì)開發(fā)了化學(xué)物質(zhì)環(huán)境安全數(shù)據(jù)管理系統(tǒng)。實(shí)現(xiàn)了互聯(lián)網(wǎng)上化學(xué)物質(zhì)信息的自動(dòng)、適時(shí)抽取,并將結(jié)構(gòu)統(tǒng)一規(guī)范的數(shù)據(jù)運(yùn)用動(dòng)態(tài)跟新檢測(cè)技術(shù)存入數(shù)據(jù)庫中,,實(shí)現(xiàn)數(shù)據(jù)庫的更新查詢。
[Abstract]:With the development of the Internet , the information resources on the Internet and the daily play increase , and the problems such as low accuracy and low efficiency of the conventional acquisition information method are adopted in this paper , and the technology and the method for acquiring information from the web page are studied rapidly and efficiently in order to realize automatic updating of the chemical environment safety database .
Secondly , the method of ordering algorithm , global pattern and so on is used to integrate heterogeneous data in the chemical website . At the same time , in order to improve the sustainable and timely extraction of the website information of the dynamic information source , the methods of task segmentation , failure retry mechanism and dynamic update check are put forward . The main research contents and conclusions are as follows :

( 1 ) The method of dynamic acquisition of chemical information on the web . The main task of obtaining chemical substance on the Internet is to acquire the information such as CasNo ( chemical registration number ) , name , physical and chemical properties , etc . According to the page type of the website , the webpage is acquired by using the focus crawler technology and the simulated manual browsing method respectively ;
analyzing the tree structure of the webpage , extracting relevant attribute information of the chemical substance by using the wrapper technology , and extracting the structured information in the unstructured data by using a regular expression method ;
By using the listener technology , the task scheduling of the chemical website is realized , and the automatic acquisition of information on the chemical substance and timely updating of the data are ensured .

( 2 ) The research of the integration method of chemical heterogeneous data . In order to solve the problem of data isomerization in chemical substance web pages , this paper firstly determines the integration scope according to the attributes of chemical environment safety , designs the public data model CompoundsDTO as the global mode , then uses the sorting algorithm to analyze the dynamic acquired data . Finally , the processed data is mapped into the global mode , the integration of the heterogeneous data is realized , and the structure conflict and the semantic conflict on the heterogeneous data source are effectively eliminated .

( 3 ) Design and develop chemical environment safety data management system . On the basis of constructing the chemical environment safety database , the chemical environment safety data management system is designed and developed using the chemical information dynamic acquiring technology and the chemical heterogeneous data integration technology . The automatic and timely extraction of the chemical information on the Internet is realized , and the data of the unified specification of the structure is stored in the database by dynamic and new detection technology , and the updating query of the database is realized .
【學(xué)位授予單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP311.13

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉永明;董彩鳳;;異構(gòu)數(shù)據(jù)庫系統(tǒng)集成的應(yīng)用研究[J];電子商務(wù);2007年11期

2 李海健;王曉豐;;Web信息抽取的現(xiàn)狀及未來展望[J];廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2009年03期

3 王實(shí),高文,李錦濤,謝輝;路徑聚類:在Web站點(diǎn)中的知識(shí)發(fā)現(xiàn)[J];計(jì)算機(jī)研究與發(fā)展;2001年04期

4 孫鑫鴿;陳剛;孫小玲;;基于JDBC的數(shù)據(jù)庫連接池技術(shù)的研究與設(shè)計(jì)[J];計(jì)算機(jī)與信息技術(shù);2006年08期

5 夏詔杰;梁春燕;郭力;;化學(xué)主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)和實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年10期

6 石倩;陳榮;魯明羽;;基于規(guī)則歸納的信息抽取系統(tǒng)實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2008年21期

7 王曉斌;王鵬坡;石昭祥;;自動(dòng)粒度選擇的半結(jié)構(gòu)化頁面信息抽取[J];計(jì)算機(jī)工程與應(yīng)用;2009年06期

8 熊海靈;伍勝;余建橋;;異構(gòu)數(shù)據(jù)源的集成與訪問[J];計(jì)算機(jī)科學(xué);2003年05期

9 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期

10 李曉霞;袁小龍;夏詔杰;聶峰光;唐武成;郭力;;Internet化學(xué)信息的系統(tǒng)挖掘工具[J];計(jì)算機(jī)與應(yīng)用化學(xué);2008年09期

相關(guān)碩士學(xué)位論文 前10條

1 任豪棟;基于Web日志挖掘的原型系統(tǒng)研究與實(shí)現(xiàn)[D];西華大學(xué);2011年

2 唐飛龍;Internet信息獲取技術(shù)的研究[D];合肥工業(yè)大學(xué);2002年

3 張承明;基于Web的數(shù)據(jù)挖掘研究[D];山東科技大學(xué);2003年

4 薛惠忠;WEB信息的抽取與集成[D];東南大學(xué);2004年

5 李躍進(jìn);基于Internet的信息抽取技術(shù)研究[D];大連理工大學(xué);2005年

6 吳愛珍;HTML表格數(shù)據(jù)抽取與集成[D];武漢大學(xué);2004年

7 賀智平;Web信息自動(dòng)抽取技術(shù)研究[D];西安電子科技大學(xué);2006年

8 王曉偉;垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2007年

9 李彬;Web使用挖掘技術(shù)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2007年

10 陳佳;基于XML的Web信息抽取技術(shù)的應(yīng)用研究[D];武漢理工大學(xué);2007年



本文編號(hào):1963871

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1963871.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2c4d2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com