天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

實(shí)體關(guān)系抽取模型研究與性能提升

發(fā)布時(shí)間:2021-06-20 14:11
  自由文本中包含大量非結(jié)構(gòu)化的重要信息,這些信息難以被直接利用。實(shí)體關(guān)系抽取是一項(xiàng)將非結(jié)構(gòu)化文本中的信息提取并形成結(jié)構(gòu)化信息的重要技術(shù)。近年來,機(jī)器學(xué)習(xí)技術(shù)和實(shí)體關(guān)系抽取的結(jié)合得到了研究者們的高度重視。有監(jiān)督的機(jī)器學(xué)習(xí)方法需要人工標(biāo)注數(shù)據(jù),而人工的高昂成本是阻礙這一研究的重要因素。利用弱監(jiān)督學(xué)習(xí)的實(shí)體關(guān)系抽取又存在錯(cuò)誤標(biāo)注問題,以及機(jī)器學(xué)習(xí)模型自身的的過擬合問題。針對這些問題,本文的主要工作有:針對傳統(tǒng)的基于深度學(xué)習(xí)的方法使用較為淺層的網(wǎng)絡(luò)作為句子編碼器,而對于表達(dá)能力較弱的問題,本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于深層次激發(fā)-壓縮卷積神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行端到端的實(shí)體關(guān)系抽取。結(jié)合軟標(biāo)簽的方式,減輕遠(yuǎn)程監(jiān)督數(shù)據(jù)集中的噪音現(xiàn)象,提升模型性能。針對遠(yuǎn)程監(jiān)督數(shù)據(jù)集中樣本不均衡和難易樣本的問題,本文改進(jìn)了深度學(xué)習(xí)中的損失函數(shù),使用聚焦損失函數(shù)替代交叉熵函數(shù)。聚焦損失函數(shù)既能夠根據(jù)樣本的均衡程度對樣本加權(quán),又能夠根據(jù)樣本學(xué)習(xí)的難易程度對損失函數(shù)進(jìn)行加權(quán),從而提升作為分類任務(wù)的實(shí)體關(guān)系抽取模型的性能。針對卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在自然語言處理任務(wù)中常用的最大值池化方式會丟失位置信息等問題,本文設(shè)計(jì)并實(shí)現(xiàn)了雙重池化方式。同... 

【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:70 頁

【學(xué)位級別】:碩士

【部分圖文】:

實(shí)體關(guān)系抽取模型研究與性能提升


圖1-2遠(yuǎn)程監(jiān)督數(shù)據(jù)示意圖(上方為已存在的知識庫,下方為自由文本)??

實(shí)體,實(shí)體關(guān)系


命名實(shí)體識別與實(shí)體關(guān)系抽取??.1命名實(shí)體識別??作為實(shí)體關(guān)系抽取的上游任務(wù),命名實(shí)體識別(Named?Entity?Recognition,??R)至關(guān)重要。本節(jié)對命名實(shí)體識別給出其詳細(xì)的介紹。在信息抽取??nformationextarction)當(dāng)中,命名實(shí)體(NamedEntity,簡稱實(shí)體)是指可以擁??適的名稱的客觀存在的對象,一般指的是文本中具有特定意義或者指代性??的實(shí)體,如下圖2-1所示,通常包括人名(people)、地名(location)、組織機(jī)??名(organization)、日期時(shí)間(date)、專有名詞等。實(shí)體既可以是一個(gè)抽象概??,也可以是一個(gè)物理意義上的存在[1]。??本文使用的數(shù)據(jù)集(見3.4.2小節(jié))使用stanford-ner工具[261對語料使用預(yù)??理過濾。??.2實(shí)體關(guān)系抽取??

官方,機(jī)器學(xué)習(xí),網(wǎng)站,實(shí)體關(guān)系


(Informationextarction)當(dāng)中,命名實(shí)體(NamedEntity,簡稱實(shí)體)是指可以擁??有合適的名稱的客觀存在的對象,一般指的是文本中具有特定意義或者指代性??強(qiáng)的實(shí)體,如下圖2-1所示,通常包括人名(people)、地名(location)、組織機(jī)??構(gòu)名(organization)、日期時(shí)間(date)、專有名詞等。實(shí)體既可以是一個(gè)抽象概??念,也可以是一個(gè)物理意義上的存在[1]。??本文使用的數(shù)據(jù)集(見3.4.2小節(jié))使用stanford-ner工具[261對語料使用預(yù)??處理過濾。??2.1.2實(shí)體關(guān)系抽取??Murdoch?discusses?future?of?News?Corp.??圖2-1命名實(shí)體識別??通常,研究人員把能夠表示一個(gè)三元組語義的文本型數(shù)據(jù)樣本叫做關(guān)系提??及句(relationmention,簡稱mention)[1]。實(shí)體關(guān)系抽取的主要目的是提取句子中??己標(biāo)記實(shí)體對之間的語義關(guān)系。本文中討論的實(shí)體關(guān)系抽取任務(wù)作為命名實(shí)體??識別的下游任務(wù)而存在。實(shí)體關(guān)系抽取通常分為垂直領(lǐng)域關(guān)系抽取和開放領(lǐng)域??關(guān)系抽取。他們之間的區(qū)別在于是否限定關(guān)系集合。本文討論前者,即預(yù)定義一??個(gè)關(guān)系的集合,并將實(shí)體關(guān)系抽取視為文本分類任務(wù),進(jìn)一步說是一種基于深??度學(xué)習(xí)的文本分類任務(wù)m。??實(shí)體關(guān)系抽取的目標(biāo)是生成帶有方向的三元組關(guān)系,例如對于“奧巴馬出??生在美國”這句話,實(shí)體1為“奧巴馬”,實(shí)體2為“美國”,它們之間的關(guān)系??是“出生地”。即

【參考文獻(xiàn)】:
期刊論文
[1]A brief introduction to weakly supervised learning[J]. Zhi-Hua Zhou.  National Science Review. 2018(01)

碩士論文
[1]弱監(jiān)督條件下的實(shí)體關(guān)系抽取探究[D]. 黃愷瑜.北京郵電大學(xué) 2018



本文編號:3239347

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3239347.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶caff6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com
欧美大黄片在线免费观看| 亚洲视频一区二区久久久| 欧洲一区二区三区蜜桃| 国产精品一区二区香蕉视频| 国产又粗又黄又爽又硬的| 国产日韩精品激情在线观看| 国产免费一区二区不卡| 麻豆视频传媒入口在线看| 国产精品亚洲欧美一区麻豆| 久久国产成人精品国产成人亚洲| 青青操日老女人的穴穴| 久久热在线视频免费观看| 中文字幕禁断介一区二区| 激情中文字幕在线观看| 91亚洲精品亚洲国产| 青青操在线视频精品视频| 久久亚洲精品中文字幕| 日韩免费av一区二区三区| 91插插插外国一区二区| 日本黄色高清视频久久| 国产一区二区精品高清免费 | 欧美黑人在线精品极品| 日本本亚洲三级在线播放| 欧洲精品一区二区三区四区| 91免费精品国自产拍偷拍| 国产欧美另类激情久久久| 激情爱爱一区二区三区| 国产精品亚洲精品亚洲| 欧美日韩国产综合特黄| 日本道播放一区二区三区| 日本成人三级在线播放| 亚洲欧美日韩色图七区| 一区二区三区四区亚洲专区| 高清不卡视频在线观看| 精品老司机视频在线观看| 久久婷婷综合色拍亚洲| 欧美日本亚欧在线观看| 女同伦理国产精品久久久| 99国产成人免费一区二区| 91午夜少妇极品福利| 内射精品欧美一区二区三区久久久|