網(wǎng)絡(luò)人物屬性關(guān)系抽取方法研究
發(fā)布時(shí)間:2021-09-06 19:34
人物搜索引擎、知識(shí)圖譜構(gòu)建和人物畫像等系統(tǒng)依賴于大量的人物數(shù)據(jù),然而互聯(lián)網(wǎng)上的人物數(shù)據(jù)以碎片化的形式存在,且無結(jié)構(gòu)的文本占很大的比重,很難直接加以利用。人物屬性關(guān)系抽取就是處理這些無結(jié)構(gòu)文本,從中抽取出人物屬性及其對(duì)應(yīng)關(guān)系,方便上述系統(tǒng)的使用。然而現(xiàn)有的研究自動(dòng)化程度不高,一方面需要人工標(biāo)注語料庫和數(shù)據(jù)集,成本昂貴;另一方面又需要人為地制定抽取規(guī)則或者構(gòu)建人工特征,這很難覆蓋原有的樣本空間,且其過度依賴自然語言處理工具,嚴(yán)重制約著系統(tǒng)的效率和性能。針對(duì)上述現(xiàn)狀,本文對(duì)網(wǎng)絡(luò)中與人物相關(guān)的無結(jié)構(gòu)文本進(jìn)行研究。主要工作如下:(1)為獲得自動(dòng)標(biāo)注的數(shù)據(jù)集,本文采取遠(yuǎn)程監(jiān)督的方法,利用現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)對(duì)齊到語料庫中,自動(dòng)獲得大量的標(biāo)注數(shù)據(jù)集。相比于傳統(tǒng)遠(yuǎn)程監(jiān)督數(shù)據(jù)源,本文的數(shù)據(jù)源結(jié)合了維基百科、紐約時(shí)報(bào)和人物傳記網(wǎng)的不同特點(diǎn),能夠更好地反映自然語言豐富多樣的表達(dá)。(2)針對(duì)遠(yuǎn)程監(jiān)督數(shù)據(jù)集的噪聲問題,本文提出了一種增強(qiáng)型去噪模型,該模型分為兩個(gè)階段。第一個(gè)階段構(gòu)建了融合最短依存路徑和詞窗口的關(guān)系模板,并通過計(jì)算關(guān)系模板和關(guān)系觸發(fā)詞集的語義Jaccard系數(shù),進(jìn)行初步去噪。第二個(gè)階段采用了眾數(shù)過濾的...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
維基百科人物頁面
人物傳記網(wǎng)人物頁面
依存句法解析結(jié)果1
【參考文獻(xiàn)】:
期刊論文
[1]自然語言處理中詞語上下文有效范圍的定量描述[J]. 魯松,白碩. 計(jì)算機(jī)學(xué)報(bào). 2001(07)
博士論文
[1]實(shí)體關(guān)系抽取算法研究[D]. 張春云.北京郵電大學(xué) 2015
碩士論文
[1]基于規(guī)則的百科人物屬性抽取算法的研究[D]. 李紅亮.西南交通大學(xué) 2013
本文編號(hào):3388049
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
維基百科人物頁面
人物傳記網(wǎng)人物頁面
依存句法解析結(jié)果1
【參考文獻(xiàn)】:
期刊論文
[1]自然語言處理中詞語上下文有效范圍的定量描述[J]. 魯松,白碩. 計(jì)算機(jī)學(xué)報(bào). 2001(07)
博士論文
[1]實(shí)體關(guān)系抽取算法研究[D]. 張春云.北京郵電大學(xué) 2015
碩士論文
[1]基于規(guī)則的百科人物屬性抽取算法的研究[D]. 李紅亮.西南交通大學(xué) 2013
本文編號(hào):3388049
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3388049.html
最近更新
教材專著