天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Web挖掘技術(shù)的化學(xué)物質(zhì)信息獲取方法研究

發(fā)布時間:2018-06-01 10:31

  本文選題:Web挖掘 + 聚焦爬蟲; 參考:《西北農(nóng)林科技大學(xué)》2012年碩士論文


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)上信息資源與日劇增,采用常規(guī)獲取信息手段存在準(zhǔn)確度不高、效率低下等問題,本文以化學(xué)物質(zhì)常用網(wǎng)站為研究對象,研究快速、高效從網(wǎng)頁中獲取信息的技術(shù)和方法,以實現(xiàn)化學(xué)物質(zhì)環(huán)境安全數(shù)據(jù)庫自動更新。首先運用垂直搜索引擎技術(shù),篩選、獲取相關(guān)的化學(xué)物質(zhì)網(wǎng)頁并分析網(wǎng)頁結(jié)構(gòu),按照網(wǎng)頁的結(jié)構(gòu)化程度分別采用相應(yīng)技術(shù)和方法;其次,運用排序算法、全局模式等的方法對化學(xué)物質(zhì)網(wǎng)站中的異構(gòu)數(shù)據(jù)進行集成。同時為了提高動態(tài)信息源網(wǎng)站信息持續(xù)、適時抽取,提出了任務(wù)分割、失敗重試機制、動態(tài)更新檢查等方法。本文的主要研究內(nèi)容和結(jié)論如下: (1)化學(xué)物質(zhì)網(wǎng)上信息的動態(tài)獲取方法研究。網(wǎng)上獲取化學(xué)物質(zhì)的主要任務(wù)是獲取CasNo(化學(xué)物質(zhì)登錄號)、名稱、理化性質(zhì)等信息。根據(jù)網(wǎng)站頁面類型,分別運用聚焦爬蟲技術(shù)和模擬人工瀏覽方法對網(wǎng)頁進行獲;分析網(wǎng)頁的樹形結(jié)構(gòu),運用包裝器技術(shù)抽取出化學(xué)物質(zhì)的相關(guān)屬性信息,運用正則表達式的方法抽取出非結(jié)構(gòu)化數(shù)據(jù)中的結(jié)構(gòu)化信息;采用監(jiān)聽器技術(shù),實現(xiàn)了化學(xué)物質(zhì)網(wǎng)站任務(wù)的調(diào)度,保證了化學(xué)物質(zhì)網(wǎng)上信息的自動獲取和數(shù)據(jù)的適時更新。 (2)化學(xué)物質(zhì)異構(gòu)數(shù)據(jù)集成方法的研究。針對化學(xué)物質(zhì)網(wǎng)頁中數(shù)據(jù)異構(gòu)的問題,本文首先根據(jù)化學(xué)物質(zhì)環(huán)境安全相關(guān)的屬性確定集成范圍,設(shè)計了公共數(shù)據(jù)模型CompoundsDTO作為全局模式,然后運用排序算法對動態(tài)獲取的數(shù)據(jù)進行分析,最后將處理后的數(shù)據(jù)映射到全局模式中,實現(xiàn)了異構(gòu)數(shù)據(jù)的集成,有效的消除了異構(gòu)數(shù)據(jù)源上的結(jié)構(gòu)沖突和語義沖突。 (3)設(shè)計開發(fā)化學(xué)物質(zhì)環(huán)境安全數(shù)據(jù)管理系統(tǒng)。在構(gòu)建化學(xué)物質(zhì)環(huán)境安全數(shù)據(jù)庫的基礎(chǔ)上,運用化學(xué)物質(zhì)網(wǎng)上信息動態(tài)獲取技術(shù)和化學(xué)物質(zhì)異構(gòu)數(shù)據(jù)集成技術(shù),設(shè)計開發(fā)了化學(xué)物質(zhì)環(huán)境安全數(shù)據(jù)管理系統(tǒng)。實現(xiàn)了互聯(lián)網(wǎng)上化學(xué)物質(zhì)信息的自動、適時抽取,并將結(jié)構(gòu)統(tǒng)一規(guī)范的數(shù)據(jù)運用動態(tài)跟新檢測技術(shù)存入數(shù)據(jù)庫中,,實現(xiàn)數(shù)據(jù)庫的更新查詢。
[Abstract]:With the development of the Internet , the information resources on the Internet and the daily play increase , and the problems such as low accuracy and low efficiency of the conventional acquisition information method are adopted in this paper , and the technology and the method for acquiring information from the web page are studied rapidly and efficiently in order to realize automatic updating of the chemical environment safety database .
Secondly , the method of ordering algorithm , global pattern and so on is used to integrate heterogeneous data in the chemical website . At the same time , in order to improve the sustainable and timely extraction of the website information of the dynamic information source , the methods of task segmentation , failure retry mechanism and dynamic update check are put forward . The main research contents and conclusions are as follows :

( 1 ) The method of dynamic acquisition of chemical information on the web . The main task of obtaining chemical substance on the Internet is to acquire the information such as CasNo ( chemical registration number ) , name , physical and chemical properties , etc . According to the page type of the website , the webpage is acquired by using the focus crawler technology and the simulated manual browsing method respectively ;
analyzing the tree structure of the webpage , extracting relevant attribute information of the chemical substance by using the wrapper technology , and extracting the structured information in the unstructured data by using a regular expression method ;
By using the listener technology , the task scheduling of the chemical website is realized , and the automatic acquisition of information on the chemical substance and timely updating of the data are ensured .

( 2 ) The research of the integration method of chemical heterogeneous data . In order to solve the problem of data isomerization in chemical substance web pages , this paper firstly determines the integration scope according to the attributes of chemical environment safety , designs the public data model CompoundsDTO as the global mode , then uses the sorting algorithm to analyze the dynamic acquired data . Finally , the processed data is mapped into the global mode , the integration of the heterogeneous data is realized , and the structure conflict and the semantic conflict on the heterogeneous data source are effectively eliminated .

( 3 ) Design and develop chemical environment safety data management system . On the basis of constructing the chemical environment safety database , the chemical environment safety data management system is designed and developed using the chemical information dynamic acquiring technology and the chemical heterogeneous data integration technology . The automatic and timely extraction of the chemical information on the Internet is realized , and the data of the unified specification of the structure is stored in the database by dynamic and new detection technology , and the updating query of the database is realized .
【學(xué)位授予單位】:西北農(nóng)林科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP311.13

【參考文獻】

相關(guān)期刊論文 前10條

1 劉永明;董彩鳳;;異構(gòu)數(shù)據(jù)庫系統(tǒng)集成的應(yīng)用研究[J];電子商務(wù);2007年11期

2 李海健;王曉豐;;Web信息抽取的現(xiàn)狀及未來展望[J];廊坊師范學(xué)院學(xué)報(自然科學(xué)版);2009年03期

3 王實,高文,李錦濤,謝輝;路徑聚類:在Web站點中的知識發(fā)現(xiàn)[J];計算機研究與發(fā)展;2001年04期

4 孫鑫鴿;陳剛;孫小玲;;基于JDBC的數(shù)據(jù)庫連接池技術(shù)的研究與設(shè)計[J];計算機與信息技術(shù);2006年08期

5 夏詔杰;梁春燕;郭力;;化學(xué)主題網(wǎng)絡(luò)爬蟲的設(shè)計和實現(xiàn)[J];計算機工程與應(yīng)用;2006年10期

6 石倩;陳榮;魯明羽;;基于規(guī)則歸納的信息抽取系統(tǒng)實現(xiàn)[J];計算機工程與應(yīng)用;2008年21期

7 王曉斌;王鵬坡;石昭祥;;自動粒度選擇的半結(jié)構(gòu)化頁面信息抽取[J];計算機工程與應(yīng)用;2009年06期

8 熊海靈;伍勝;余建橋;;異構(gòu)數(shù)據(jù)源的集成與訪問[J];計算機科學(xué);2003年05期

9 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計算機應(yīng)用;2005年09期

10 李曉霞;袁小龍;夏詔杰;聶峰光;唐武成;郭力;;Internet化學(xué)信息的系統(tǒng)挖掘工具[J];計算機與應(yīng)用化學(xué);2008年09期

相關(guān)碩士學(xué)位論文 前10條

1 任豪棟;基于Web日志挖掘的原型系統(tǒng)研究與實現(xiàn)[D];西華大學(xué);2011年

2 唐飛龍;Internet信息獲取技術(shù)的研究[D];合肥工業(yè)大學(xué);2002年

3 張承明;基于Web的數(shù)據(jù)挖掘研究[D];山東科技大學(xué);2003年

4 薛惠忠;WEB信息的抽取與集成[D];東南大學(xué);2004年

5 李躍進;基于Internet的信息抽取技術(shù)研究[D];大連理工大學(xué);2005年

6 吳愛珍;HTML表格數(shù)據(jù)抽取與集成[D];武漢大學(xué);2004年

7 賀智平;Web信息自動抽取技術(shù)研究[D];西安電子科技大學(xué);2006年

8 王曉偉;垂直搜索引擎若干關(guān)鍵技術(shù)的研究[D];浙江大學(xué);2007年

9 李彬;Web使用挖掘技術(shù)的研究與實現(xiàn)[D];電子科技大學(xué);2007年

10 陳佳;基于XML的Web信息抽取技術(shù)的應(yīng)用研究[D];武漢理工大學(xué);2007年



本文編號:1963871

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1963871.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2c4d2***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
色婷婷中文字幕在线视频| 欧美中文日韩一区久久| 国产精品熟女乱色一区二区 | 亚洲国产成人精品一区刚刚| 亚洲欧美国产精品一区二区| 在线免费观看一二区视频 | 女生更色还是男生更色| 欧美日韩久久精品一区二区| 91亚洲熟女少妇在线观看| 91在线国内在线中文字幕| 成人区人妻精品一区二区三区| 超碰在线播放国产精品| 又大又紧又硬又湿又爽又猛| 日本高清视频在线观看不卡| 美女黄色三级深夜福利| 亚洲色图欧美另类人妻| 日韩夫妻午夜性生活视频| 亚洲黄香蕉视频免费看| 久久精品a毛片看国产成人| 国产一区二区三区草莓av| 高清一区二区三区不卡免费| 热久久这里只有精品视频| 91亚洲精品国产一区| 美女露小粉嫩91精品久久久| 亚洲精品国产福利在线| 最近中文字幕高清中文字幕无| 中文字幕在线区中文色| 欧美一区二区三区播放| 中文字幕亚洲人妻在线视频 | 国产成人精品99在线观看| 免费精品国产日韩热久久| 国产熟女一区二区精品视频| 欧美午夜一级艳片免费看| 国产日韩在线一二三区| 久久少妇诱惑免费视频| 年轻女房东2中文字幕| 亚洲三级视频在线观看免费| 99香蕉精品视频国产版| 国产日韩欧美在线亚洲| 97人妻人人揉人人躁人人| 国产精品流白浆无遮挡|