天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 水利工程論文 >

水利領(lǐng)域本體自動構(gòu)建方法研究

發(fā)布時間:2021-01-11 07:52
  我國水利信息化建設(shè)起步較早。隨著水利工作者不斷地研究與探索,各種軟件服務(wù)系統(tǒng)相繼問世,在水利領(lǐng)域發(fā)揮了巨大作用。水利領(lǐng)域的軟件服務(wù)系統(tǒng)受認(rèn)知與技術(shù)的制約,具有很強(qiáng)的領(lǐng)域性與針對性,數(shù)據(jù)在應(yīng)用系統(tǒng)之間不能共享,形成了以專業(yè)、部門、地域等為邊界的信息孤島。本體的引入為解決信息孤島問題,實(shí)現(xiàn)一個集信息資源集成,信息共享與知識重用為一體的應(yīng)用軟件平臺提供了有力支撐。本文針對水利領(lǐng)域本體自動構(gòu)建的數(shù)據(jù)噪音大、概念及概念間關(guān)系提取準(zhǔn)確度低的問題,借鑒滾雪球運(yùn)動原理與本體循環(huán)構(gòu)建理念,提出水利領(lǐng)域本體循環(huán)自動構(gòu)建的方法。實(shí)現(xiàn)基于BP(back propagation)神經(jīng)網(wǎng)絡(luò)算法的候選概念循環(huán)提取技術(shù)與基于FP(Frequent Pattern)-樹頻集算法的分層次多語料庫概念間關(guān)系提取技術(shù),達(dá)到了降低數(shù)據(jù)噪音,提高概念及概念間關(guān)系提取準(zhǔn)確率的效果。實(shí)驗(yàn)結(jié)果表明本文設(shè)計(jì)的水利領(lǐng)域本體循環(huán)自動構(gòu)建方法具有可行性,該方法主要分四步:一、收集所需的非結(jié)構(gòu)化數(shù)據(jù)作為學(xué)習(xí)數(shù)據(jù),然后進(jìn)行數(shù)據(jù)預(yù)處理操作;二、使用基于BP神經(jīng)網(wǎng)絡(luò)算法的方法循環(huán)提取水利領(lǐng)域概念;三、使用基于FP-樹頻集算法的方法,進(jìn)行概念間關(guān)系提取... 

【文章來源】:華北水利水電大學(xué)河南省

【文章頁數(shù)】:49 頁

【學(xué)位級別】:碩士

【部分圖文】:

水利領(lǐng)域本體自動構(gòu)建方法研究


Protégé開發(fā)界面

本體,概念


領(lǐng)域本體理論概述7圖2-2本體展示2.3.領(lǐng)域本體概念提取方法在領(lǐng)域本體構(gòu)建過程中,概念提取是一項(xiàng)必不可少的任務(wù),而且無論是關(guān)系提取還是實(shí)例提取都離不開本體概念的自動提齲近年來,國內(nèi)研究者結(jié)合中文語言的特點(diǎn)研究出了一些領(lǐng)域本體概念自動提取方法。常用的方法有三種:基于語言學(xué)規(guī)則的方法、基于統(tǒng)計(jì)學(xué)的方法與兩者結(jié)合法[19]。2.3.1.基于語言學(xué)規(guī)則的方法基于語言學(xué)規(guī)則的方法是依據(jù)術(shù)語的模式、特征、語義信息等進(jìn)行概念間提齲首先對中文文本進(jìn)行分詞,再根據(jù)分詞得到的詞性、詞根等信息,獲取到詞語所在的上下文內(nèi)容。綜合以上信息得出語法規(guī)則,然后與候選概念進(jìn)行匹配。該方法的優(yōu)點(diǎn):(1)概念提取的精度高;(2)只通過規(guī)則匹配就可以完成概念提取,計(jì)算量小;(3)在概念提取時與文本的相關(guān)性較小,不容易受學(xué)習(xí)數(shù)據(jù)影響;(4)低頻詞語提取率高。該方法的缺點(diǎn)有:(1)需要進(jìn)行復(fù)雜的語法、語義知識分析,語法規(guī)則建立比較困難;(2)對新出現(xiàn)的詞語適應(yīng)性較差,且語法規(guī)則更新困難;(3)語法規(guī)則通用性較差。2.3.2.基于統(tǒng)計(jì)學(xué)的方法基于統(tǒng)計(jì)學(xué)的方法是通過對比領(lǐng)域相關(guān)術(shù)語與普通詞匯的統(tǒng)計(jì)特征進(jìn)行概念提齲對目標(biāo)知識領(lǐng)域的大量文本進(jìn)行統(tǒng)計(jì)分析,通過訓(xùn)練數(shù)據(jù)得到領(lǐng)域內(nèi)概念的統(tǒng)計(jì)特征后,再根據(jù)特征值對候選概念進(jìn)行計(jì)算。最后根據(jù)設(shè)定的閾值進(jìn)行領(lǐng)域概念劃分。本文使用的統(tǒng)計(jì)特征值有:

界面圖,界面,中文,概念


水利領(lǐng)域本體自動構(gòu)建方法研究113.1.4.中文分詞在進(jìn)行中文文本水利領(lǐng)域概念抽取研究之前需要將文本數(shù)據(jù)切分成單個的詞語,而針對這一操作目前有許多成熟的工具可以使用,本文選用的是ICTCLAS2015。ICTCLAS是中國科學(xué)院計(jì)算技術(shù)研究所開發(fā)的漢語詞法分析系統(tǒng),其主要功能有中文分詞、詞性標(biāo)注、用戶詞典等。ICTCLAS的分詞速度塊,精度也比較高,是目前比較好的中文分詞系統(tǒng)之一。ICTCLAS分詞系統(tǒng)提供的簡例運(yùn)行界面如圖3-1所示:圖3-1ICTCLAS分詞系統(tǒng)提供的簡例運(yùn)行界面3.1.5.分詞后數(shù)據(jù)過濾經(jīng)過分詞后的候選概念存在大量的不具有領(lǐng)域特性的或?qū)儆谄渌悄繕?biāo)領(lǐng)域的詞語,這些數(shù)據(jù)就是干擾數(shù)據(jù)。它們不僅會增大詞語的處理范圍,加重計(jì)算機(jī)的工作量,拉長數(shù)據(jù)處理的時間,降低概念提取的效率,同時還會給基于機(jī)器學(xué)習(xí)的領(lǐng)域本體概念提取帶來很難去除的數(shù)據(jù)噪音,影響概念提取的精度與召回率。本文設(shè)計(jì)的多重去噪方法主要分為兩個階段。第一階段,在分詞階段引入停用詞表,去除一部分停用詞。在去除一部分?jǐn)?shù)據(jù)噪音的同時,也降低分詞的負(fù)擔(dān)。部分停用詞如圖3-2所示:


本文編號:2970382

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shuiwenshuili/2970382.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d2dda***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com