天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于依存關(guān)系與詞激活力的關(guān)系觸發(fā)詞提取與優(yōu)化

發(fā)布時間:2021-06-30 13:37
  隨著互聯(lián)網(wǎng)的不斷發(fā)展與大數(shù)據(jù)時代的到來,每天都有大量數(shù)據(jù)的產(chǎn)生,人們需要從這些數(shù)據(jù)中提取有價值的數(shù)據(jù)。作為信息抽取的子任務(wù)之一,關(guān)系抽取通過從數(shù)據(jù)中提取實體對及其相互關(guān)系而廣泛應(yīng)用在搜索引擎等領(lǐng)域中,是大數(shù)據(jù)時代的重要技術(shù)之一。關(guān)系觸發(fā)詞作為文本數(shù)據(jù)中表述實體關(guān)系的單詞或短語在關(guān)系抽取中起重要作用,充分利用其關(guān)系特征有助于提高關(guān)系抽取的準確率。傳統(tǒng)的關(guān)系觸發(fā)詞提取方法僅能提取觸發(fā)某種關(guān)系類型的觸發(fā)詞,得到的觸發(fā)詞未必能觸發(fā)給定實體對的關(guān)系。有的關(guān)系觸發(fā)詞提取方法能夠提取給定實體對的關(guān)系觸發(fā)詞,但僅適用于單詞型的關(guān)系觸發(fā)詞。對于短語型關(guān)系觸發(fā)詞,這類方法得到的觸發(fā)詞并不完整。本文利用依存句法分析與詞激活力模型,將完整的關(guān)系觸發(fā)詞提取劃分成核心觸發(fā)詞提取與非核心觸發(fā)詞提取兩個階段,結(jié)合兩個階段得到的核心觸發(fā)詞與非核心觸發(fā)詞作為最終的關(guān)系觸發(fā)詞。本文提出的方法取得了很好的關(guān)系觸發(fā)詞提取結(jié)果。在核心觸發(fā)詞提取階段,使用依存句法分析計算依存距離來評估單詞在依存關(guān)系圖中到實體對的距離,計算序列距離來判斷單詞在原始單詞序列中與實體對的相對位置。結(jié)合依存距離與序列距離計算評估分數(shù),根據(jù)評估分數(shù)與單詞詞... 

【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:62 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于依存關(guān)系與詞激活力的關(guān)系觸發(fā)詞提取與優(yōu)化


單詞三元組的入鏈與出鏈[29]

格式,數(shù)據(jù),數(shù)據(jù)集,類別


第5章SDWAF相關(guān)實驗表5.1SemEval2010Task8數(shù)據(jù)集的關(guān)系類別與數(shù)據(jù)量關(guān)系類別數(shù)據(jù)量(訓(xùn)練集+測試集)Cause-Effect1003+328Instrument-Agency504+156Product-Producer717+231Content-Container540+192Entity-Origin716+258Entity-Destination845+292Component-Whole941+312Member-Collection690+233Message-Topic634+261Other1410+45446"<e1>Adults</e1>use<e2>drugs</e2>forthispurpose."Instrument-AgencyComment:實體1實體2關(guān)系類別注解圖5.1SemEval2010Task8數(shù)據(jù)集的數(shù)據(jù)格式評估SDWAF的關(guān)系觸發(fā)詞提取準確度需要數(shù)據(jù)集包含準確的關(guān)系觸發(fā)詞。對此,本文從SemEval2010Task8數(shù)據(jù)集中選擇2000個關(guān)系實例,人工標注其關(guān)系觸發(fā)詞并將標注好的數(shù)據(jù)存儲到MySQL數(shù)據(jù)庫中,之后從數(shù)據(jù)庫中讀取數(shù)據(jù)進行相關(guān)實驗。數(shù)據(jù)庫中的部分數(shù)據(jù)與其結(jié)構(gòu)如圖5.2所示。圖5.2標注好的數(shù)據(jù)與格式紐約時報數(shù)據(jù)集(NewYorkTimes,NYT)包含150余篇來自紐約時報的商業(yè)文章。該數(shù)據(jù)集使用StanfordCoreNLP工具進行命名實體識別得到實體對標記,其數(shù)據(jù)格式與SemEval2010Task8數(shù)據(jù)集類似。與SemEval2010Task8數(shù)據(jù)集相比,NYT數(shù)據(jù)集包含更多的關(guān)系實例并廣泛應(yīng)用于開放式關(guān)系抽取任務(wù)中。我們剔除NYT數(shù)據(jù)集中句子過長的數(shù)據(jù),得到了10萬多關(guān)系實例用于驗證SDWAF在大規(guī)模數(shù)據(jù)下的觸發(fā)詞提取效率。29

三元組,可視,取值


第5章SDWAF相關(guān)實驗部分關(guān)系三元組進行了直觀地展示,其中絕大部分關(guān)系觸發(fā)詞都能反映出實體對的相互關(guān)系,表明SDWAF提取關(guān)系觸發(fā)詞較為準確,同時說明關(guān)系觸發(fā)詞可以作為關(guān)系描述詞應(yīng)用在開放式關(guān)系抽取中。圖5.12關(guān)系三元組可視化5.4本章小結(jié)本章通過實驗對SDWAF的性能進行了驗證與評估。利用不同的取值進行實驗確定了參數(shù)的最佳取值。使用不同的取值進行實驗驗證了對其取值的推測。與基于圖的關(guān)系觸發(fā)詞提取方法進行對比,確定SDWAF的優(yōu)勢。分別用SDWAF的StanfordCoreNLP工具數(shù)據(jù)處理部分、非核心觸發(fā)詞提取階段以及完整的SDWAF優(yōu)化前后的程序進行實驗,確定優(yōu)化對算法性能的提升。在大規(guī)模數(shù)據(jù)下比較SDWAF單機與集群的性能,說明MPI技術(shù)能夠使SDWAF適應(yīng)大數(shù)據(jù)環(huán)境。通過在Bi-LSTM模型中加入關(guān)系觸發(fā)詞特征驗證了關(guān)系觸發(fā)詞在關(guān)系抽取中的指導(dǎo)作用。對關(guān)系三元組的可視化直觀地體現(xiàn)SDWAF的關(guān)系觸發(fā)詞提取的準確度以及關(guān)系觸發(fā)詞在開放式關(guān)系抽取中的應(yīng)用。44

【參考文獻】:
期刊論文
[1]Syntactic word embedding based on dependency syntax and polysemous analysis[J]. Zhong-lin YE,Hai-xing ZHAO.  Frontiers of Information Technology & Electronic Engineering. 2018(04)
[2]無監(jiān)督實體關(guān)系觸發(fā)詞詞典自動構(gòu)建[J]. 劉紹毓,席耀一,李弼程,唐永旺,陳剛.  計算機應(yīng)用與軟件. 2016(05)
[3]知識圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光.  計算機研究與發(fā)展. 2016(03)
[4]基于語義的中文事件觸發(fā)詞抽取聯(lián)合模型[J]. 李培峰,周國棟,朱巧明.  軟件學(xué)報. 2016(02)
[5]基于詞激活力的自動詞發(fā)現(xiàn)[J]. 張永田,徐蔚然,汪浩.  軟件. 2012(12)
[6]基于依存句法的博文情感傾向分析研究[J]. 馮時,付永陳,陽鋒,王大玲,張一飛.  計算機研究與發(fā)展. 2012(11)
[7]深度學(xué)習(xí)研究綜述[J]. 孫志軍,薛磊,許陽明,王正.  計算機應(yīng)用研究. 2012(08)
[8]語言技術(shù)平臺[J]. 劉挺,車萬翔,李正華.  中文信息學(xué)報. 2011(06)

博士論文
[1]實體關(guān)系抽取算法研究[D]. 張春云.北京郵電大學(xué) 2015

碩士論文
[1]基于圖結(jié)構(gòu)的實體關(guān)系抽取方法研究[D]. 謝文慧.吉林大學(xué) 2019



本文編號:3257844

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3257844.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4dd1e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com