基于貪心森林的微博實(shí)體鏈接方法研究
發(fā)布時(shí)間:2019-11-16 12:18
【摘要】:實(shí)體鏈接工作已經(jīng)取得了較多的關(guān)注,,其工作目的是將文本中的實(shí)體指稱鏈接到知識庫中對應(yīng)的實(shí)體。大部分實(shí)體鏈接工作都是針對論壇或者博客的長文本信息,然而微博作為一種新的社交平臺,對這種短文本進(jìn)行實(shí)體鏈接又會面臨很多問題。迅速地、準(zhǔn)確地將微博中的實(shí)體指稱鏈接到知識庫,是一項(xiàng)有著十分重要意義的工作。對于科學(xué)研究來說,它可以提高機(jī)器翻譯的準(zhǔn)確度、網(wǎng)頁搜索的文檔相關(guān)度,計(jì)算廣告中搜索廣告的點(diǎn)擊率,以及相關(guān)領(lǐng)域知識庫構(gòu)建的準(zhǔn)確性。為了將微博中的命名實(shí)體鏈接到無歧義的維基百科知識庫中,本文將實(shí)體鏈接工作具體分為以下3個(gè)主要部分。 第一部分是微博中的命名實(shí)體識別。由于考慮到英文不需要分詞的特殊性質(zhì),本文將微博定位為英文微博Twitter。長文本中命名實(shí)體識別常采用基于規(guī)則、基于條件隨機(jī)場的方法,但這些方法在面向微博的命名實(shí)體識別工作中,效果并不顯著。本文采用標(biāo)注的潛在狄利克雷主題模型,生成實(shí)體指稱在實(shí)體類別上的先驗(yàn)分布,利用貝葉斯法則得到實(shí)體指稱屬于某個(gè)命名實(shí)體類別的概率。將標(biāo)注的潛在狄利克雷主題模型與條件隨機(jī)場的預(yù)測結(jié)果相結(jié)合,實(shí)驗(yàn)結(jié)果表明,融合后的模型對微博這種短文本進(jìn)行命名實(shí)體識別可以取得較好的效果。 第二部分是候選實(shí)體的生成及其特征提取。生成候選實(shí)體常采用基于維基百科的查詢擴(kuò)展方法,但是這種方法的弊處在于生成候選實(shí)體數(shù)量過多,會引入較多有歧義性的候選實(shí)體。采用傳統(tǒng)的支持向量機(jī)模型,對這些候選實(shí)體進(jìn)行篩選,得到覆蓋率較高并且數(shù)量較少的候選實(shí)體。在特征提取方面,針對微博短文本的特點(diǎn),用局部特征和全局特征來刻畫候選實(shí)體和實(shí)體指稱,采用實(shí)體鏈接常用的基本模型對兩種類別特征進(jìn)行全面的分析。 第三部分是候選實(shí)體排序。采用基于排序?qū)突谂判蛄斜淼姆椒▽蜻x實(shí)體進(jìn)行排序,并且對兩種方法進(jìn)行了分析與比較。針對實(shí)體鏈接中不考慮非目標(biāo)實(shí)體的排序先后順序,采用正則化的貪心森林模型解決這一問題。實(shí)驗(yàn)結(jié)果表明這種改進(jìn)后的梯度提升決策樹方法,可以有效的提高候選實(shí)體排序的效果。
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
本文編號:2561835
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 楊欣欣;李培峰;朱巧明;;基于網(wǎng)頁文本依存特征的人名消歧[J];計(jì)算機(jī)工程;2012年19期
2 繆建明;張全;;一種基于概念關(guān)聯(lián)式的詞義消岐方法[J];計(jì)算機(jī)科學(xué);2010年01期
本文編號:2561835
本文鏈接:http://sikaile.net/guanlilunwen/ydhl/2561835.html
最近更新
教材專著