天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

一種基于半監(jiān)督學(xué)習(xí)的實(shí)體集合擴(kuò)展方法研究

發(fā)布時(shí)間:2017-11-21 10:31

  本文關(guān)鍵詞:一種基于半監(jiān)督學(xué)習(xí)的實(shí)體集合擴(kuò)展方法研究


  更多相關(guān)文章: 實(shí)體集合擴(kuò)展 包裝器 語義偏轉(zhuǎn) 主題模型 標(biāo)簽傳播


【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,文檔資源越來越豐富,如何從這些資源中挖掘出有效信息,成為數(shù)據(jù)挖掘的一項(xiàng)重要任務(wù)。為了更好的利用互聯(lián)網(wǎng)中蘊(yùn)含的資源,人們提出將這些無序信息轉(zhuǎn)換為結(jié)構(gòu)化信息以更方便于人們獲取利用的思想。在這樣的思路下,各大搜索引擎公司(如Google, Baidu等)均提出了知識(shí)圖譜的概念,將實(shí)體及其信息按照類別及其之間的關(guān)系有效組織起來,以方便人們的獲取利用。 本課題主要的研究內(nèi)容即是知識(shí)圖譜研究的基礎(chǔ)內(nèi)容:從互聯(lián)網(wǎng)的文檔資源中進(jìn)行實(shí)體集合擴(kuò)展。實(shí)體集合擴(kuò)展是指給定某類別下若干示例作為種子,擴(kuò)展得到屬于該類別下的更多實(shí)體,這在語義搜索、問答系統(tǒng)、知識(shí)庫等領(lǐng)域都有極其重要的應(yīng)用。傳統(tǒng)的實(shí)體集合擴(kuò)展方法主要考慮實(shí)體之間的共現(xiàn)關(guān)系,根據(jù)它們之間的相似程度進(jìn)行迭代式的擴(kuò)展,但會(huì)導(dǎo)致語義偏轉(zhuǎn)問題,準(zhǔn)確率較差。本文針對(duì)于此,在利用包裝器(Wrapper)挖掘出可能的候選實(shí)體詞的基礎(chǔ)上,提出一種先根據(jù)LDA主題模型獲得種子詞集合語義信息,再通過標(biāo)簽傳播來進(jìn)行實(shí)體集合擴(kuò)展的方法。 本文的工作主要分為兩部分:候選詞的抽取和實(shí)體集合擴(kuò)展算法。第一部分中主要完成的任務(wù)是利用自動(dòng)構(gòu)建的包裝器(Wrapper)來抽取與種子詞出現(xiàn)在相似上下文中的實(shí)體候選詞。第二部分中主要完成的任務(wù)是將候選詞按照文檔結(jié)構(gòu)組織為候選詞列表,考慮詞列表的上下文信息來判斷是否進(jìn)行擴(kuò)展。本文的主要研究工作有以下五點(diǎn): 1.傳統(tǒng)根據(jù)模板進(jìn)行候選詞挖掘方法人力耗費(fèi)較大,而直接根據(jù)分詞工具得到候選實(shí)體的方式不能有效的發(fā)現(xiàn)新詞,且兩種方法都存在著召回率過低的缺陷。針對(duì)于此,本文提出了一種利用種子詞的上下文信息自動(dòng)學(xué)習(xí)包裝器的方法,以抽取候選實(shí)體詞,且保證一定程度的召回率; 2.候選實(shí)體詞中存在著大量重復(fù)次數(shù)較低、與種子詞相差較大的詞語,影響了最終步驟的集合擴(kuò)展的準(zhǔn)確性,針對(duì)于此本文構(gòu)建了包含種子詞、包裝器、候選詞三種類型節(jié)點(diǎn)的混合圖模型,且在其中利用隨機(jī)游走算法挖掘候選詞的置信度,以對(duì)候選詞進(jìn)行初步的篩選; 3.由于單個(gè)的實(shí)體詞存在著歧義的問題,故本文在進(jìn)行實(shí)體集合擴(kuò)展時(shí),將處于同一段落中的候選詞作為詞列表,可以假設(shè)該列表中包含的各個(gè)詞語所描述主題一致,在擴(kuò)展過程中將該詞列表作為整體考慮,以避免單個(gè)詞可能帶來的歧義問題; 4.傳統(tǒng)的實(shí)體集合擴(kuò)展方法并未考慮擴(kuò)展詞的語義信息,導(dǎo)致擴(kuò)展過程中大量不屬于該類別的實(shí)體被加入進(jìn)來。本文利用LDA模型,挖掘?qū)嶓w詞列表的上下文對(duì)應(yīng)主題,豐富實(shí)體擴(kuò)展過程中的語義信息,解決傳統(tǒng)方法的語義偏轉(zhuǎn)問題。 5.為了綜合考慮種子詞與候選詞之間的共現(xiàn)關(guān)系與語義關(guān)系,本文構(gòu)建一個(gè)包含種子詞、候選詞、詞列表以及詞列表上下文對(duì)應(yīng)的主題信息這四種節(jié)點(diǎn)的混合圖。由于種子詞數(shù)量較少,利用半監(jiān)督學(xué)習(xí)中的標(biāo)簽傳播算法,以詞列表為單位進(jìn)行實(shí)體集合擴(kuò)展。
【學(xué)位授予單位】:華東理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前2條

1 趙軍;;命名實(shí)體識(shí)別、排歧和跨語言關(guān)聯(lián)[J];中文信息學(xué)報(bào);2009年02期

2 齊振宇;劉康;趙軍;;一種融合實(shí)體語義知識(shí)的實(shí)體集合擴(kuò)展方法[J];中文信息學(xué)報(bào);2013年02期

,

本文編號(hào):1210632

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1210632.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶febec***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com