天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于網(wǎng)絡(luò)媒體的人物關(guān)系分析方法研究

發(fā)布時(shí)間:2021-01-18 23:33
  人物關(guān)系分析主要研究如何有效地、自動(dòng)地從海量數(shù)據(jù)中抽取出結(jié)構(gòu)化的人物關(guān)系,對(duì)構(gòu)建人物知識(shí)圖譜、人物搜索引擎等系統(tǒng)有著重要的作用。相比于結(jié)構(gòu)化文本,網(wǎng)絡(luò)媒體中更多存儲(chǔ)的是非結(jié)構(gòu)化自然語(yǔ)言文本,因此如何從非結(jié)構(gòu)化文本中提取出人物的相關(guān)屬性,進(jìn)而分析人物關(guān)系成為了熱點(diǎn)研究問(wèn)題。目前,基于網(wǎng)絡(luò)媒體人物關(guān)系分析方法面臨如下挑戰(zhàn):抽取人物屬性需要大量的標(biāo)注數(shù)據(jù)作為支撐,人物關(guān)系標(biāo)注數(shù)據(jù)的匱乏是目前面臨的一大難題;另外在深度學(xué)習(xí)中使用注意力機(jī)制能夠使關(guān)系抽取的性能得到進(jìn)一步的提升,但是現(xiàn)有的注意力機(jī)制通常關(guān)注句子級(jí)等低層次的語(yǔ)義特征,缺乏對(duì)整個(gè)關(guān)系的全局語(yǔ)義信息的關(guān)注。針對(duì)基于深度學(xué)習(xí)的人物關(guān)系分析面臨的語(yǔ)料搜集困難和注意力機(jī)制有待改進(jìn)兩個(gè)問(wèn)題,本文提出基于遠(yuǎn)程監(jiān)督數(shù)據(jù)集增廣和去噪方法以及多層級(jí)注意力機(jī)制方法對(duì)網(wǎng)絡(luò)媒體中與人物相關(guān)的無(wú)結(jié)構(gòu)文本進(jìn)行研究。主要工作如下:(1)針對(duì)于人物領(lǐng)域?qū)嶓w關(guān)系標(biāo)注數(shù)據(jù)較為匱乏的問(wèn)題,本文提出了一種借助Web表格擴(kuò)充現(xiàn)有知識(shí)庫(kù)的實(shí)體對(duì),并采取遠(yuǎn)程監(jiān)督的方法自動(dòng)獲得大量的標(biāo)注數(shù)據(jù)集的數(shù)據(jù)增廣方法。該方法利用Wikipedia中的表格,將NYT訓(xùn)練集人物相關(guān)部分?jǐn)?shù)據(jù)集進(jìn)行... 

【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:85 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于網(wǎng)絡(luò)媒體的人物關(guān)系分析方法研究


注意力本質(zhì)思想圖

示意圖,信息提取,示意圖,機(jī)器學(xué)習(xí)


第二章相關(guān)理論基礎(chǔ)和技術(shù)17圖2-8開(kāi)放信息提取示意圖開(kāi)放信息提取技術(shù)(theOpenInformationExtraction,OpenIE)是指在無(wú)需預(yù)先指定關(guān)系模式的情況下,從純文本中提取結(jié)構(gòu)化關(guān)系三元組。StanfordCoreNLP系統(tǒng)首先將句子拆分成組,隨后,將各組盡可能地縮短,從而生成一組短句片段;最后將這些片段分割成OpenIE三元組,并由系統(tǒng)輸出。例如:“巴拉克·奧巴馬出生在夏威夷!笨蓜(chuàng)建出三元組:(巴拉克·奧巴馬;出生在;夏威夷),對(duì)應(yīng)的開(kāi)放域關(guān)系為“出生在”。系統(tǒng)首先將每個(gè)句子拆分成一組子句,接著竭盡所能地將這些子句縮短,從而產(chǎn)生一系列更加短的句子片段。最后系統(tǒng)輸出由這些句子片段分割而生成的OpenIE三元組。示例圖2-8給出了該過(guò)程的說(shuō)明。(2)TensorflowTensorFlow是一個(gè)端到端的開(kāi)源機(jī)器學(xué)習(xí)平臺(tái)。它具有由工具,庫(kù)和社區(qū)資源組成的全面而靈活的生態(tài)系統(tǒng),使研究人員可以提高機(jī)器學(xué)習(xí)的最新水平,并允許開(kāi)發(fā)人員輕松構(gòu)建和部署由機(jī)器學(xué)習(xí)提供支持的應(yīng)用程序。大家可以通過(guò)TensorFlow可以輕松地構(gòu)建模型,在EagerExecution中使用Keras等直觀的高階API輕松地構(gòu)建和訓(xùn)練機(jī)器學(xué)習(xí)模型,EagerExecution使我們能夠快速迭代模型并輕松地調(diào)試模型。再者,您只需要定義預(yù)測(cè)模型的結(jié)構(gòu),將此結(jié)構(gòu)與目標(biāo)函數(shù)結(jié)合,添加數(shù)據(jù),TensorFlow將自動(dòng)為您計(jì)算相關(guān)的微分導(dǎo)數(shù)。僅通過(guò)擴(kuò)展圖形即可完成變量相對(duì)于其他變量的導(dǎo)數(shù)計(jì)算,因此您始終可以準(zhǔn)確看到正在發(fā)生的事情。TensorFlow還是一個(gè)簡(jiǎn)單而靈活的架構(gòu),可以更快地將新想法從概念轉(zhuǎn)化為代碼,十分地便利。(3)ScrapyScrapy是一個(gè)開(kāi)源的網(wǎng)絡(luò)爬蟲(chóng)框架,適用于快速地異步爬取網(wǎng)頁(yè)信息,擁有著支持xpath和強(qiáng)大日志系統(tǒng)等優(yōu)點(diǎn)。Scrapy的優(yōu)點(diǎn)在于其實(shí)質(zhì)上只是一個(gè)框架,我們可以根據(jù)需要任

表圖,基網(wǎng),實(shí)體,表格


電子科技大學(xué)碩士學(xué)位論文24圖3-2維基網(wǎng)頁(yè)中的Mr.BasketballUSAWinners表圖我們注意到由于表格的半結(jié)構(gòu)性質(zhì),主體實(shí)體通?梢酝ㄟ^(guò)相同的關(guān)系與話題實(shí)體相連接,更進(jìn)一步的是,表的非主體列通常與主體列具有某種二元關(guān)系或是主體列的一種屬性。甚者同一列中的其余實(shí)體與其對(duì)應(yīng)的主體實(shí)體具有共同的關(guān)系。如圖3-3所示,“Mr.BasketballUSAWinners”是表格的話題實(shí)體,表格的第二列為主體列即“Mr.BasketballUSAWinners”的一系列的獲獎(jiǎng)?wù),第三列以及第四列就是談及高中學(xué)校以及城市的主體實(shí)體。因此,我們基于如上發(fā)現(xiàn)提出了獲取新實(shí)體對(duì)的表格理解方法,判斷某表格中任一實(shí)體對(duì)(,)是否為原始實(shí)體對(duì)(h,t)的目標(biāo)實(shí)體對(duì)的準(zhǔn)則如下:·實(shí)體h和實(shí)體是同一話題實(shí)體而且實(shí)體t和實(shí)體屬于主體實(shí)體,即=∈,∈;·實(shí)體h或者實(shí)體t是主體實(shí)體,同時(shí)實(shí)體h和在表格中同一列而且實(shí)體h和t在表格同一行。形式上,我們將符合以上任意條件的Web表格中的實(shí)體對(duì)都稱(chēng)作目標(biāo)實(shí)體對(duì),用于后續(xù)通過(guò)遠(yuǎn)程監(jiān)督算法獲取新的訓(xùn)練數(shù)據(jù)增廣數(shù)據(jù)集。3.3.2基于Web表格數(shù)據(jù)集增廣流程在前一小節(jié)中,我們已經(jīng)對(duì)如何利用Web中的表格提取新的關(guān)系實(shí)體對(duì)進(jìn)行了介紹,本節(jié)將對(duì)如何根據(jù)表格理解方法來(lái)獲取新的訓(xùn)練數(shù)據(jù)擴(kuò)充本文數(shù)據(jù)集進(jìn)行展開(kāi)介紹;赪eb表格增廣數(shù)據(jù)集需要兩個(gè)步驟:首先利用表格理解方法獲取與知識(shí)庫(kù)中實(shí)體對(duì)有相同關(guān)系的表格實(shí)體對(duì)。然后使用遠(yuǎn)程監(jiān)督方法,以新實(shí)體對(duì)和文本


本文編號(hào):2985876

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2985876.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)cff54***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com