天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

百科知識(shí)庫(kù)實(shí)體對(duì)齊算法研究

發(fā)布時(shí)間:2021-08-18 05:14
  近年來,人類在生活中接觸和產(chǎn)生的數(shù)據(jù)量在飛速增長(zhǎng),且由于自媒體時(shí)代的到來和用戶的多樣性,網(wǎng)絡(luò)中的數(shù)據(jù)呈現(xiàn)出多樣化。在線網(wǎng)絡(luò)百科作為一個(gè)知識(shí)共享和知識(shí)普及的平臺(tái),涵蓋了各種類型的知識(shí)數(shù)據(jù),具有數(shù)據(jù)規(guī)模大、表達(dá)方式多樣的特點(diǎn)。網(wǎng)絡(luò)百科的組成單元是百科實(shí)體,相同的實(shí)體可能有不同的稱謂方式,不同實(shí)體的名稱也可能相同,這樣的現(xiàn)象為百科知識(shí)庫(kù)中的知識(shí)數(shù)據(jù)進(jìn)行整合和復(fù)用造成了很大的阻礙。并且,國(guó)內(nèi)眾多大型百科網(wǎng)站由網(wǎng)民協(xié)作編輯形成,表達(dá)缺乏規(guī)范性,部分知識(shí)數(shù)據(jù)是重復(fù)甚至是錯(cuò)誤的。若不進(jìn)行實(shí)體對(duì)齊,直接進(jìn)行知識(shí)融合,知識(shí)庫(kù)中將出現(xiàn)重疊甚至自相矛盾的實(shí)體,知識(shí)數(shù)據(jù)的數(shù)據(jù)質(zhì)量會(huì)嚴(yán)重下降。為了完成在線百科知識(shí)庫(kù)的實(shí)體對(duì)齊任務(wù),進(jìn)行知識(shí)融合,達(dá)到擴(kuò)充知識(shí)庫(kù)的目的,本文圍繞百科知識(shí)庫(kù)實(shí)體對(duì)齊算法進(jìn)行了研究,主要包括以下幾個(gè)方面:1.針對(duì)百度百科和維基百科中文版的實(shí)體差異較大的特點(diǎn),提出基于主題模型的百科知識(shí)庫(kù)實(shí)體對(duì)齊算法。將主題模型應(yīng)用到實(shí)體對(duì)齊的任務(wù)中,利用潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型對(duì)百科實(shí)體的非結(jié)構(gòu)化描述文本進(jìn)行深度語(yǔ)義挖掘,在生成實(shí)體的特征向量時(shí)... 

【文章來源】:河北大學(xué)河北省

【文章頁(yè)數(shù)】:61 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

百科知識(shí)庫(kù)實(shí)體對(duì)齊算法研究


百度百科實(shí)體“蘋果”詞條名稱

詞條,百度,蘋果,實(shí)體


河北大學(xué)碩士學(xué)位論文2.詞條概述詞條概述也被稱為是詞條的名片,它概括了詞條最本質(zhì)的內(nèi)容,以簡(jiǎn)練的語(yǔ)言描述了詞條的特點(diǎn),實(shí)體“蘋果”的詞條概述如圖 2-2 所示。維基百科中被稱為“摘要(Abstract)”。在本文中,詞條概述被歸為實(shí)體的非結(jié)構(gòu)化描述文本,作為實(shí)體的主要信息進(jìn)行實(shí)體對(duì)齊。

百度,蘋果,實(shí)體,實(shí)體信息


信息進(jìn)行實(shí)體對(duì)齊。圖 2-2 百度百科實(shí)體“蘋果”詞條概述3.基本信息欄基本信息欄采用結(jié)構(gòu)化的形式展現(xiàn)實(shí)體信息,是用于描述實(shí)體屬性和屬性值的,由“信息項(xiàng):信息內(nèi)容”組成,實(shí)體“蘋果”的基本信息欄,如圖 2-3 所示。百科中,被稱為是“消息盒(InfoBox)”。該項(xiàng)內(nèi)容是百科知識(shí)庫(kù)中為數(shù)不多化描述信息,能很大程度地展現(xiàn)知識(shí)庫(kù)中實(shí)體信息是否完整,它的基本結(jié)構(gòu)是“稱:屬性內(nèi)容”,其表述非常簡(jiǎn)單,卻能通過逐個(gè)的詞語(yǔ)表征整個(gè)實(shí)體,并清晰實(shí)體的特點(diǎn)。這一項(xiàng)內(nèi)容在本文的研究中并不涉及,但是在對(duì)比實(shí)驗(yàn)中有所使用

【參考文獻(xiàn)】:
期刊論文
[1]基于RNN的中文二分結(jié)構(gòu)句法分析[J]. 谷波,王瑞波,李濟(jì)洪,李國(guó)臣.  中文信息學(xué)報(bào). 2019(01)
[2]中文分詞技術(shù)綜述[J]. 馮俐.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(34)
[3]多層前向人工神經(jīng)網(wǎng)絡(luò)圖像分類算法[J]. 顧哲彬,曹飛龍.  計(jì)算機(jī)科學(xué). 2018(S2)
[4]異構(gòu)網(wǎng)絡(luò)中實(shí)體匹配算法綜述[J]. 李娜,金岡增,周曉旭,鄭建兵,高明.  華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(05)
[5]基于孿生卷積神經(jīng)網(wǎng)絡(luò)的人臉追蹤[J]. 吳漢釗.  計(jì)算機(jī)工程與應(yīng)用. 2018(14)
[6]基于改進(jìn)深度孿生網(wǎng)絡(luò)的分類器及其應(yīng)用[J]. 沈雁,王環(huán),戴瑜興.  計(jì)算機(jī)工程與應(yīng)用. 2018(10)
[7]數(shù)據(jù)質(zhì)量的歷史沿革和發(fā)展趨勢(shì)[J]. 蔡莉,梁宇,朱揚(yáng)勇,何婧.  計(jì)算機(jī)科學(xué). 2018(04)
[8]基于深度卷積-遞歸神經(jīng)網(wǎng)絡(luò)的手繪草圖識(shí)別方法[J]. 趙鵬,劉楊,劉慧婷,姚晟.  計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào). 2018(02)
[9]基于TF-IDF和余弦相似度的文本分類方法[J]. 武永亮,趙書良,李長(zhǎng)鏡,魏娜娣,王子晏.  中文信息學(xué)報(bào). 2017(05)
[10]基于隱私保護(hù)的大數(shù)據(jù)挖掘技術(shù)研究[J]. 蘇鵬沖,袁得崳,馬丁.  現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2017(20)

碩士論文
[1]機(jī)器閱讀理解模型中的關(guān)鍵問題研究[D]. 李亞慧.哈爾濱工業(yè)大學(xué) 2018
[2]短文本流中主題模型及其應(yīng)用研究[D]. 趙玉琨.山東大學(xué) 2017
[3]面向關(guān)聯(lián)數(shù)據(jù)的實(shí)體對(duì)齊方法研究[D]. 李琳.北京化工大學(xué) 2017
[4]說話人識(shí)別情感合成問題的概率模型研究[D]. 陳昊.浙江大學(xué) 2016
[5]基于異構(gòu)中文百科數(shù)據(jù)的互聯(lián)語(yǔ)義知識(shí)庫(kù)構(gòu)建[D]. 牛星.上海交通大學(xué) 2013
[6]國(guó)內(nèi)維基類網(wǎng)絡(luò)百科研究[D]. 楊欣.武漢理工大學(xué) 2012



本文編號(hào):3349265

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3349265.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶18940***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com