面向化工領(lǐng)域的實(shí)體關(guān)系抽取技術(shù)研究
發(fā)布時(shí)間:2021-03-21 21:33
化工領(lǐng)域在為我國(guó)經(jīng)濟(jì)發(fā)展做出巨大貢獻(xiàn)的同時(shí),化工產(chǎn)品的易燃、易爆等特點(diǎn)致使化工事故也在頻繁發(fā)生,化工事故無論是對(duì)企業(yè)還是環(huán)境造成的破壞都是巨大的;(shù)據(jù)專業(yè)性和復(fù)雜性高、知識(shí)密度大,如何快速而準(zhǔn)確地從海量的數(shù)據(jù)中獲取有用的知識(shí),從而減少化工生產(chǎn)過程中的不安全因素,減少事故的發(fā)生,成為化工領(lǐng)域的一個(gè)難點(diǎn);ゎI(lǐng)域信息抽取是攻破這一難點(diǎn)的重要技術(shù)手段,而實(shí)體關(guān)系抽取技術(shù)是化工領(lǐng)域信息抽取中必不可少的技術(shù)之一。本文針對(duì)化工領(lǐng)域?qū)嶓w關(guān)系抽取技術(shù)進(jìn)行研究,主要研究?jī)?nèi)容如下:(1)為了取得化工領(lǐng)域?qū)嶓w關(guān)系抽取時(shí)所必需的化工領(lǐng)域文本數(shù)據(jù)集和化工領(lǐng)域?qū)嶓w詞典,設(shè)計(jì)并實(shí)現(xiàn)了化工領(lǐng)域數(shù)據(jù)采集與處理子系統(tǒng)。針對(duì)化工領(lǐng)域關(guān)系抽取數(shù)據(jù)多源異構(gòu)的問題,該子系統(tǒng)可以同時(shí)支持在線網(wǎng)絡(luò)數(shù)據(jù)的爬取和離線文檔數(shù)據(jù)的導(dǎo)入兩種方式來進(jìn)行化工領(lǐng)域數(shù)據(jù)的采集工作。對(duì)于在線數(shù)據(jù)該子系統(tǒng)能夠自動(dòng)爬取百度百科中的化工領(lǐng)域網(wǎng)頁(yè)數(shù)據(jù),然后采用XPath和正則表達(dá)式等規(guī)則提取網(wǎng)頁(yè)文本數(shù)據(jù);對(duì)于離線數(shù)據(jù)運(yùn)用本文提出的數(shù)據(jù)轉(zhuǎn)換操作提取其中的數(shù)據(jù)。本文以該子系統(tǒng)采集到的數(shù)據(jù)來構(gòu)造化工領(lǐng)域?qū)嶓w詞典和進(jìn)行關(guān)系標(biāo)注與抽取。(2)為了方便對(duì)化工領(lǐng)域數(shù)據(jù)進(jìn)...
【文章來源】:青島科技大學(xué)山東省
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
知識(shí)圖譜體系結(jié)構(gòu)
青島科技大學(xué)研究生學(xué)位論文7第2章相關(guān)技術(shù)概述本章介紹本文相關(guān)的理論知識(shí)和技術(shù)方法。包括網(wǎng)絡(luò)爬蟲技術(shù)、眾包方法、卷積神經(jīng)網(wǎng)絡(luò)、GRU神經(jīng)網(wǎng)絡(luò)、Dropout策略、注意力機(jī)制和Ranger優(yōu)化器。2.1網(wǎng)絡(luò)爬蟲2.1.1網(wǎng)絡(luò)爬取方法介紹網(wǎng)絡(luò)爬蟲從功能上講指的是一種根據(jù)需要預(yù)定義好爬取規(guī)則,然后實(shí)現(xiàn)自動(dòng)地從互聯(lián)網(wǎng)上爬取用戶所需數(shù)據(jù)的一類軟件程序[47],從實(shí)現(xiàn)上講指的是能夠模仿瀏覽器對(duì)目標(biāo)發(fā)起http請(qǐng)求來獲取所需數(shù)據(jù)并對(duì)獲取到的數(shù)據(jù)進(jìn)行解析的一類軟件程序。網(wǎng)絡(luò)爬蟲通常是由網(wǎng)頁(yè)請(qǐng)求模塊和數(shù)據(jù)解析模塊兩部分組成的,F(xiàn)在的網(wǎng)絡(luò)爬蟲技術(shù)多數(shù)是用于爬取用戶所需數(shù)據(jù)的操作中,本文為了獲取所需的化工領(lǐng)域數(shù)據(jù)集使用了網(wǎng)絡(luò)爬蟲技術(shù)。本文所用的網(wǎng)絡(luò)爬蟲的工作流程如圖2-1所示。圖2-1網(wǎng)絡(luò)爬蟲工作流程Fig.2-1webcrawlerworkflow網(wǎng)絡(luò)爬蟲任務(wù)首先是將用戶定義的種子URL集合作為初始URL種子集隊(duì)列,然后進(jìn)行一個(gè)迭代抓取操作。選擇合適的種子URL集合是爬蟲系統(tǒng)能夠高效運(yùn)行的重要前提,常用的方法是:基于目標(biāo)網(wǎng)頁(yè)的特點(diǎn)、基于目標(biāo)數(shù)據(jù)的類型和基于各個(gè)領(lǐng)域[48]。然后選擇合適的爬取策略進(jìn)行爬取數(shù)據(jù),網(wǎng)絡(luò)爬蟲的爬取策略一般是廣度優(yōu)先策略或深度
面向化工領(lǐng)域的實(shí)體關(guān)系抽取技術(shù)研究8優(yōu)先策略。以圖2-2所示的網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)圖為例來進(jìn)行講解,其中A指向B,B指向E和F表示網(wǎng)頁(yè)A中的內(nèi)容包含網(wǎng)頁(yè)B的鏈接,網(wǎng)頁(yè)B中的內(nèi)容包含網(wǎng)頁(yè)E和F的鏈接。圖2-2網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)圖Fig.2-2Networkstructuresimplifieddiagram使用廣度優(yōu)先策略進(jìn)行爬取,首先判斷初始URL種子集隊(duì)列是否為空,為空時(shí)退出;不為空時(shí),將初始URL隊(duì)列中的URL放到待抓取隊(duì)列中,然后模仿瀏覽器的操作對(duì)該URL發(fā)起http請(qǐng)求,下載該URL對(duì)應(yīng)的網(wǎng)頁(yè)中的相關(guān)內(nèi)容并解析該內(nèi)容;接下來,從其中提取出新的URL并進(jìn)行去重處理,去除掉已經(jīng)被抓取過的URL,將去重后的URL加入到待抓取隊(duì)列中,開始下一個(gè)地址的爬取工作,直到待抓取隊(duì)列為空。例如在圖2-2所示網(wǎng)絡(luò)結(jié)構(gòu)圖中的廣度優(yōu)先爬取路徑如表2-1所示。表2-1廣度優(yōu)先爬取路徑Tab.2-1Breadth-firstcrawlpath路徑編號(hào)路徑1A2B->C->D3E->F->G->H4I5J使用深度優(yōu)先策略進(jìn)行爬取,假設(shè)初始URL種子集隊(duì)列為L(zhǎng)1,首先判斷L1是否為空,為空時(shí)退出;不為空時(shí),將隊(duì)列L1中的URL放到待抓取隊(duì)列中,然后模仿瀏覽器的操作對(duì)該URL發(fā)起http請(qǐng)求,下載該URL對(duì)應(yīng)的網(wǎng)頁(yè)中的相關(guān)內(nèi)容并解析該內(nèi)容;取出在該頁(yè)面中的所有相關(guān)的URL鏈接,并存入到一個(gè)新創(chuàng)建的隊(duì)列L2中,然后對(duì)隊(duì)列L2重復(fù)之前對(duì)隊(duì)列L1所做的操作;接著創(chuàng)建新隊(duì)列L3,一直進(jìn)行遞歸爬取操作,當(dāng)下一級(jí)的隊(duì)列全部被解析后,才會(huì)回到上一級(jí)隊(duì)列中的下一個(gè)地址再繼續(xù)進(jìn)行解析,直
【參考文獻(xiàn)】:
期刊論文
[1]漢藏雙語旅游領(lǐng)域知識(shí)圖譜系統(tǒng)構(gòu)建[J]. 馮小蘭,趙小兵. 中文信息學(xué)報(bào). 2019(11)
[2]基于多特征自注意力BLSTM的中文實(shí)體關(guān)系抽取[J]. 李衛(wèi)疆,李濤,漆芳. 中文信息學(xué)報(bào). 2019(10)
[3]基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取[J]. 宋睿,陳鑫,洪宇,張民. 中文信息學(xué)報(bào). 2019(10)
[4]基于混合神經(jīng)網(wǎng)絡(luò)的實(shí)體和事件聯(lián)合抽取方法[J]. 吳文濤,李培峰,朱巧明. 中文信息學(xué)報(bào). 2019(08)
[5]基于改進(jìn)詞向量GRU神經(jīng)網(wǎng)絡(luò)模型的藏語實(shí)體關(guān)系抽取[J]. 孫媛,王麗客,郭莉莉. 中文信息學(xué)報(bào). 2019(06)
[6]深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報(bào). 2019(06)
[7]聊天機(jī)器人中用戶就醫(yī)意圖識(shí)別方法[J]. 余慧,馮旭鵬,劉利軍,黃青松. 計(jì)算機(jī)應(yīng)用. 2018(08)
[8]基于注意力機(jī)制的LSTM的語義關(guān)系抽取[J]. 王紅,史金釧,張志偉. 計(jì)算機(jī)應(yīng)用研究. 2018(05)
[9]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[10]基于句法語義特征的中文實(shí)體關(guān)系抽取[J]. 甘麗新,萬常選,劉德喜,鐘青,江騰蛟. 計(jì)算機(jī)研究與發(fā)展. 2016(02)
碩士論文
[1]基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[D]. 劉星辰.西安理工大學(xué) 2019
[2]基于LSTM的實(shí)體關(guān)系抽取研究[D]. 馮賢鶴.云南財(cái)經(jīng)大學(xué) 2019
[3]基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取研究[D]. 溫政.太原理工大學(xué) 2019
[4]基于深度學(xué)習(xí)的中文信息抽取研究[D]. 姜猛.貴州大學(xué) 2019
[5]基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法研究[D]. 李巖.河南大學(xué) 2019
[6]基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法研究[D]. 王亞島.哈爾濱工業(yè)大學(xué) 2019
[7]基于深度學(xué)習(xí)的中文文本實(shí)體關(guān)系抽取研究與實(shí)現(xiàn)[D]. 佘恒.北京郵電大學(xué) 2019
[8]基于深度學(xué)習(xí)的中文實(shí)體關(guān)系抽取方法研究[D]. 唐敏.西南交通大學(xué) 2018
[9]基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法研究[D]. 沈柳笛.哈爾濱工程大學(xué) 2018
[10]基于高實(shí)時(shí)分布式網(wǎng)絡(luò)的爬蟲軟件設(shè)計(jì)與實(shí)現(xiàn)[D]. 張峰.浙江大學(xué) 2018
本文編號(hào):3093576
【文章來源】:青島科技大學(xué)山東省
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
知識(shí)圖譜體系結(jié)構(gòu)
青島科技大學(xué)研究生學(xué)位論文7第2章相關(guān)技術(shù)概述本章介紹本文相關(guān)的理論知識(shí)和技術(shù)方法。包括網(wǎng)絡(luò)爬蟲技術(shù)、眾包方法、卷積神經(jīng)網(wǎng)絡(luò)、GRU神經(jīng)網(wǎng)絡(luò)、Dropout策略、注意力機(jī)制和Ranger優(yōu)化器。2.1網(wǎng)絡(luò)爬蟲2.1.1網(wǎng)絡(luò)爬取方法介紹網(wǎng)絡(luò)爬蟲從功能上講指的是一種根據(jù)需要預(yù)定義好爬取規(guī)則,然后實(shí)現(xiàn)自動(dòng)地從互聯(lián)網(wǎng)上爬取用戶所需數(shù)據(jù)的一類軟件程序[47],從實(shí)現(xiàn)上講指的是能夠模仿瀏覽器對(duì)目標(biāo)發(fā)起http請(qǐng)求來獲取所需數(shù)據(jù)并對(duì)獲取到的數(shù)據(jù)進(jìn)行解析的一類軟件程序。網(wǎng)絡(luò)爬蟲通常是由網(wǎng)頁(yè)請(qǐng)求模塊和數(shù)據(jù)解析模塊兩部分組成的,F(xiàn)在的網(wǎng)絡(luò)爬蟲技術(shù)多數(shù)是用于爬取用戶所需數(shù)據(jù)的操作中,本文為了獲取所需的化工領(lǐng)域數(shù)據(jù)集使用了網(wǎng)絡(luò)爬蟲技術(shù)。本文所用的網(wǎng)絡(luò)爬蟲的工作流程如圖2-1所示。圖2-1網(wǎng)絡(luò)爬蟲工作流程Fig.2-1webcrawlerworkflow網(wǎng)絡(luò)爬蟲任務(wù)首先是將用戶定義的種子URL集合作為初始URL種子集隊(duì)列,然后進(jìn)行一個(gè)迭代抓取操作。選擇合適的種子URL集合是爬蟲系統(tǒng)能夠高效運(yùn)行的重要前提,常用的方法是:基于目標(biāo)網(wǎng)頁(yè)的特點(diǎn)、基于目標(biāo)數(shù)據(jù)的類型和基于各個(gè)領(lǐng)域[48]。然后選擇合適的爬取策略進(jìn)行爬取數(shù)據(jù),網(wǎng)絡(luò)爬蟲的爬取策略一般是廣度優(yōu)先策略或深度
面向化工領(lǐng)域的實(shí)體關(guān)系抽取技術(shù)研究8優(yōu)先策略。以圖2-2所示的網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)圖為例來進(jìn)行講解,其中A指向B,B指向E和F表示網(wǎng)頁(yè)A中的內(nèi)容包含網(wǎng)頁(yè)B的鏈接,網(wǎng)頁(yè)B中的內(nèi)容包含網(wǎng)頁(yè)E和F的鏈接。圖2-2網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)圖Fig.2-2Networkstructuresimplifieddiagram使用廣度優(yōu)先策略進(jìn)行爬取,首先判斷初始URL種子集隊(duì)列是否為空,為空時(shí)退出;不為空時(shí),將初始URL隊(duì)列中的URL放到待抓取隊(duì)列中,然后模仿瀏覽器的操作對(duì)該URL發(fā)起http請(qǐng)求,下載該URL對(duì)應(yīng)的網(wǎng)頁(yè)中的相關(guān)內(nèi)容并解析該內(nèi)容;接下來,從其中提取出新的URL并進(jìn)行去重處理,去除掉已經(jīng)被抓取過的URL,將去重后的URL加入到待抓取隊(duì)列中,開始下一個(gè)地址的爬取工作,直到待抓取隊(duì)列為空。例如在圖2-2所示網(wǎng)絡(luò)結(jié)構(gòu)圖中的廣度優(yōu)先爬取路徑如表2-1所示。表2-1廣度優(yōu)先爬取路徑Tab.2-1Breadth-firstcrawlpath路徑編號(hào)路徑1A2B->C->D3E->F->G->H4I5J使用深度優(yōu)先策略進(jìn)行爬取,假設(shè)初始URL種子集隊(duì)列為L(zhǎng)1,首先判斷L1是否為空,為空時(shí)退出;不為空時(shí),將隊(duì)列L1中的URL放到待抓取隊(duì)列中,然后模仿瀏覽器的操作對(duì)該URL發(fā)起http請(qǐng)求,下載該URL對(duì)應(yīng)的網(wǎng)頁(yè)中的相關(guān)內(nèi)容并解析該內(nèi)容;取出在該頁(yè)面中的所有相關(guān)的URL鏈接,并存入到一個(gè)新創(chuàng)建的隊(duì)列L2中,然后對(duì)隊(duì)列L2重復(fù)之前對(duì)隊(duì)列L1所做的操作;接著創(chuàng)建新隊(duì)列L3,一直進(jìn)行遞歸爬取操作,當(dāng)下一級(jí)的隊(duì)列全部被解析后,才會(huì)回到上一級(jí)隊(duì)列中的下一個(gè)地址再繼續(xù)進(jìn)行解析,直
【參考文獻(xiàn)】:
期刊論文
[1]漢藏雙語旅游領(lǐng)域知識(shí)圖譜系統(tǒng)構(gòu)建[J]. 馮小蘭,趙小兵. 中文信息學(xué)報(bào). 2019(11)
[2]基于多特征自注意力BLSTM的中文實(shí)體關(guān)系抽取[J]. 李衛(wèi)疆,李濤,漆芳. 中文信息學(xué)報(bào). 2019(10)
[3]基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取[J]. 宋睿,陳鑫,洪宇,張民. 中文信息學(xué)報(bào). 2019(10)
[4]基于混合神經(jīng)網(wǎng)絡(luò)的實(shí)體和事件聯(lián)合抽取方法[J]. 吳文濤,李培峰,朱巧明. 中文信息學(xué)報(bào). 2019(08)
[5]基于改進(jìn)詞向量GRU神經(jīng)網(wǎng)絡(luò)模型的藏語實(shí)體關(guān)系抽取[J]. 孫媛,王麗客,郭莉莉. 中文信息學(xué)報(bào). 2019(06)
[6]深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴. 軟件學(xué)報(bào). 2019(06)
[7]聊天機(jī)器人中用戶就醫(yī)意圖識(shí)別方法[J]. 余慧,馮旭鵬,劉利軍,黃青松. 計(jì)算機(jī)應(yīng)用. 2018(08)
[8]基于注意力機(jī)制的LSTM的語義關(guān)系抽取[J]. 王紅,史金釧,張志偉. 計(jì)算機(jī)應(yīng)用研究. 2018(05)
[9]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍. 計(jì)算機(jī)學(xué)報(bào). 2017(06)
[10]基于句法語義特征的中文實(shí)體關(guān)系抽取[J]. 甘麗新,萬常選,劉德喜,鐘青,江騰蛟. 計(jì)算機(jī)研究與發(fā)展. 2016(02)
碩士論文
[1]基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究與實(shí)現(xiàn)[D]. 劉星辰.西安理工大學(xué) 2019
[2]基于LSTM的實(shí)體關(guān)系抽取研究[D]. 馮賢鶴.云南財(cái)經(jīng)大學(xué) 2019
[3]基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取研究[D]. 溫政.太原理工大學(xué) 2019
[4]基于深度學(xué)習(xí)的中文信息抽取研究[D]. 姜猛.貴州大學(xué) 2019
[5]基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法研究[D]. 李巖.河南大學(xué) 2019
[6]基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法研究[D]. 王亞島.哈爾濱工業(yè)大學(xué) 2019
[7]基于深度學(xué)習(xí)的中文文本實(shí)體關(guān)系抽取研究與實(shí)現(xiàn)[D]. 佘恒.北京郵電大學(xué) 2019
[8]基于深度學(xué)習(xí)的中文實(shí)體關(guān)系抽取方法研究[D]. 唐敏.西南交通大學(xué) 2018
[9]基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法研究[D]. 沈柳笛.哈爾濱工程大學(xué) 2018
[10]基于高實(shí)時(shí)分布式網(wǎng)絡(luò)的爬蟲軟件設(shè)計(jì)與實(shí)現(xiàn)[D]. 張峰.浙江大學(xué) 2018
本文編號(hào):3093576
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3093576.html
最近更新
教材專著