基于網(wǎng)絡媒體的人物關系分析方法研究
發(fā)布時間:2021-01-18 23:33
人物關系分析主要研究如何有效地、自動地從海量數(shù)據(jù)中抽取出結構化的人物關系,對構建人物知識圖譜、人物搜索引擎等系統(tǒng)有著重要的作用。相比于結構化文本,網(wǎng)絡媒體中更多存儲的是非結構化自然語言文本,因此如何從非結構化文本中提取出人物的相關屬性,進而分析人物關系成為了熱點研究問題。目前,基于網(wǎng)絡媒體人物關系分析方法面臨如下挑戰(zhàn):抽取人物屬性需要大量的標注數(shù)據(jù)作為支撐,人物關系標注數(shù)據(jù)的匱乏是目前面臨的一大難題;另外在深度學習中使用注意力機制能夠使關系抽取的性能得到進一步的提升,但是現(xiàn)有的注意力機制通常關注句子級等低層次的語義特征,缺乏對整個關系的全局語義信息的關注。針對基于深度學習的人物關系分析面臨的語料搜集困難和注意力機制有待改進兩個問題,本文提出基于遠程監(jiān)督數(shù)據(jù)集增廣和去噪方法以及多層級注意力機制方法對網(wǎng)絡媒體中與人物相關的無結構文本進行研究。主要工作如下:(1)針對于人物領域實體關系標注數(shù)據(jù)較為匱乏的問題,本文提出了一種借助Web表格擴充現(xiàn)有知識庫的實體對,并采取遠程監(jiān)督的方法自動獲得大量的標注數(shù)據(jù)集的數(shù)據(jù)增廣方法。該方法利用Wikipedia中的表格,將NYT訓練集人物相關部分數(shù)據(jù)集進行...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【部分圖文】:
注意力本質思想圖
第二章相關理論基礎和技術17圖2-8開放信息提取示意圖開放信息提取技術(theOpenInformationExtraction,OpenIE)是指在無需預先指定關系模式的情況下,從純文本中提取結構化關系三元組。StanfordCoreNLP系統(tǒng)首先將句子拆分成組,隨后,將各組盡可能地縮短,從而生成一組短句片段;最后將這些片段分割成OpenIE三元組,并由系統(tǒng)輸出。例如:“巴拉克·奧巴馬出生在夏威夷!笨蓜(chuàng)建出三元組:(巴拉克·奧巴馬;出生在;夏威夷),對應的開放域關系為“出生在”。系統(tǒng)首先將每個句子拆分成一組子句,接著竭盡所能地將這些子句縮短,從而產生一系列更加短的句子片段。最后系統(tǒng)輸出由這些句子片段分割而生成的OpenIE三元組。示例圖2-8給出了該過程的說明。(2)TensorflowTensorFlow是一個端到端的開源機器學習平臺。它具有由工具,庫和社區(qū)資源組成的全面而靈活的生態(tài)系統(tǒng),使研究人員可以提高機器學習的最新水平,并允許開發(fā)人員輕松構建和部署由機器學習提供支持的應用程序。大家可以通過TensorFlow可以輕松地構建模型,在EagerExecution中使用Keras等直觀的高階API輕松地構建和訓練機器學習模型,EagerExecution使我們能夠快速迭代模型并輕松地調試模型。再者,您只需要定義預測模型的結構,將此結構與目標函數(shù)結合,添加數(shù)據(jù),TensorFlow將自動為您計算相關的微分導數(shù)。僅通過擴展圖形即可完成變量相對于其他變量的導數(shù)計算,因此您始終可以準確看到正在發(fā)生的事情。TensorFlow還是一個簡單而靈活的架構,可以更快地將新想法從概念轉化為代碼,十分地便利。(3)ScrapyScrapy是一個開源的網(wǎng)絡爬蟲框架,適用于快速地異步爬取網(wǎng)頁信息,擁有著支持xpath和強大日志系統(tǒng)等優(yōu)點。Scrapy的優(yōu)點在于其實質上只是一個框架,我們可以根據(jù)需要任
電子科技大學碩士學位論文24圖3-2維基網(wǎng)頁中的Mr.BasketballUSAWinners表圖我們注意到由于表格的半結構性質,主體實體通?梢酝ㄟ^相同的關系與話題實體相連接,更進一步的是,表的非主體列通常與主體列具有某種二元關系或是主體列的一種屬性。甚者同一列中的其余實體與其對應的主體實體具有共同的關系。如圖3-3所示,“Mr.BasketballUSAWinners”是表格的話題實體,表格的第二列為主體列即“Mr.BasketballUSAWinners”的一系列的獲獎者,第三列以及第四列就是談及高中學校以及城市的主體實體。因此,我們基于如上發(fā)現(xiàn)提出了獲取新實體對的表格理解方法,判斷某表格中任一實體對(,)是否為原始實體對(h,t)的目標實體對的準則如下:·實體h和實體是同一話題實體而且實體t和實體屬于主體實體,即=∈,∈;·實體h或者實體t是主體實體,同時實體h和在表格中同一列而且實體h和t在表格同一行。形式上,我們將符合以上任意條件的Web表格中的實體對都稱作目標實體對,用于后續(xù)通過遠程監(jiān)督算法獲取新的訓練數(shù)據(jù)增廣數(shù)據(jù)集。3.3.2基于Web表格數(shù)據(jù)集增廣流程在前一小節(jié)中,我們已經對如何利用Web中的表格提取新的關系實體對進行了介紹,本節(jié)將對如何根據(jù)表格理解方法來獲取新的訓練數(shù)據(jù)擴充本文數(shù)據(jù)集進行展開介紹;赪eb表格增廣數(shù)據(jù)集需要兩個步驟:首先利用表格理解方法獲取與知識庫中實體對有相同關系的表格實體對。然后使用遠程監(jiān)督方法,以新實體對和文本
本文編號:2985876
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:85 頁
【學位級別】:碩士
【部分圖文】:
注意力本質思想圖
第二章相關理論基礎和技術17圖2-8開放信息提取示意圖開放信息提取技術(theOpenInformationExtraction,OpenIE)是指在無需預先指定關系模式的情況下,從純文本中提取結構化關系三元組。StanfordCoreNLP系統(tǒng)首先將句子拆分成組,隨后,將各組盡可能地縮短,從而生成一組短句片段;最后將這些片段分割成OpenIE三元組,并由系統(tǒng)輸出。例如:“巴拉克·奧巴馬出生在夏威夷!笨蓜(chuàng)建出三元組:(巴拉克·奧巴馬;出生在;夏威夷),對應的開放域關系為“出生在”。系統(tǒng)首先將每個句子拆分成一組子句,接著竭盡所能地將這些子句縮短,從而產生一系列更加短的句子片段。最后系統(tǒng)輸出由這些句子片段分割而生成的OpenIE三元組。示例圖2-8給出了該過程的說明。(2)TensorflowTensorFlow是一個端到端的開源機器學習平臺。它具有由工具,庫和社區(qū)資源組成的全面而靈活的生態(tài)系統(tǒng),使研究人員可以提高機器學習的最新水平,并允許開發(fā)人員輕松構建和部署由機器學習提供支持的應用程序。大家可以通過TensorFlow可以輕松地構建模型,在EagerExecution中使用Keras等直觀的高階API輕松地構建和訓練機器學習模型,EagerExecution使我們能夠快速迭代模型并輕松地調試模型。再者,您只需要定義預測模型的結構,將此結構與目標函數(shù)結合,添加數(shù)據(jù),TensorFlow將自動為您計算相關的微分導數(shù)。僅通過擴展圖形即可完成變量相對于其他變量的導數(shù)計算,因此您始終可以準確看到正在發(fā)生的事情。TensorFlow還是一個簡單而靈活的架構,可以更快地將新想法從概念轉化為代碼,十分地便利。(3)ScrapyScrapy是一個開源的網(wǎng)絡爬蟲框架,適用于快速地異步爬取網(wǎng)頁信息,擁有著支持xpath和強大日志系統(tǒng)等優(yōu)點。Scrapy的優(yōu)點在于其實質上只是一個框架,我們可以根據(jù)需要任
電子科技大學碩士學位論文24圖3-2維基網(wǎng)頁中的Mr.BasketballUSAWinners表圖我們注意到由于表格的半結構性質,主體實體通?梢酝ㄟ^相同的關系與話題實體相連接,更進一步的是,表的非主體列通常與主體列具有某種二元關系或是主體列的一種屬性。甚者同一列中的其余實體與其對應的主體實體具有共同的關系。如圖3-3所示,“Mr.BasketballUSAWinners”是表格的話題實體,表格的第二列為主體列即“Mr.BasketballUSAWinners”的一系列的獲獎者,第三列以及第四列就是談及高中學校以及城市的主體實體。因此,我們基于如上發(fā)現(xiàn)提出了獲取新實體對的表格理解方法,判斷某表格中任一實體對(,)是否為原始實體對(h,t)的目標實體對的準則如下:·實體h和實體是同一話題實體而且實體t和實體屬于主體實體,即=∈,∈;·實體h或者實體t是主體實體,同時實體h和在表格中同一列而且實體h和t在表格同一行。形式上,我們將符合以上任意條件的Web表格中的實體對都稱作目標實體對,用于后續(xù)通過遠程監(jiān)督算法獲取新的訓練數(shù)據(jù)增廣數(shù)據(jù)集。3.3.2基于Web表格數(shù)據(jù)集增廣流程在前一小節(jié)中,我們已經對如何利用Web中的表格提取新的關系實體對進行了介紹,本節(jié)將對如何根據(jù)表格理解方法來獲取新的訓練數(shù)據(jù)擴充本文數(shù)據(jù)集進行展開介紹;赪eb表格增廣數(shù)據(jù)集需要兩個步驟:首先利用表格理解方法獲取與知識庫中實體對有相同關系的表格實體對。然后使用遠程監(jiān)督方法,以新實體對和文本
本文編號:2985876
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2985876.html
最近更新
教材專著