一種面向中文網(wǎng)絡(luò)百科非結(jié)構(gòu)化信息的知識(shí)獲取方法
發(fā)布時(shí)間:2018-01-01 06:27
本文關(guān)鍵詞:一種面向中文網(wǎng)絡(luò)百科非結(jié)構(gòu)化信息的知識(shí)獲取方法 出處:《圖書(shū)情報(bào)工作》2016年13期 論文類型:期刊論文
更多相關(guān)文章: 中文知識(shí)庫(kù) 網(wǎng)絡(luò)開(kāi)放百科 新詞發(fā)現(xiàn) 條件隨機(jī)場(chǎng) 支持向量機(jī)
【摘要】:[目的 /意義]在進(jìn)行大規(guī)模知識(shí)庫(kù)構(gòu)建時(shí),基于手工方式的構(gòu)建模式效率較低并且可行性較差,因此,從網(wǎng)絡(luò)百科中自動(dòng)地獲取海量知識(shí)已經(jīng)被越來(lái)越多的學(xué)者所關(guān)注。目前的研究主要關(guān)注于從英文網(wǎng)絡(luò)百科數(shù)據(jù)源進(jìn)行海量知識(shí)的抽取,而面向中文百科數(shù)據(jù)源進(jìn)行的知識(shí)抽取研究工作尚處于起步階段。[方法 /過(guò)程]為解決中文大規(guī)模知識(shí)庫(kù)的構(gòu)建問(wèn)題,提出一種新的基于中文網(wǎng)絡(luò)百科架構(gòu)的大規(guī)模知識(shí)庫(kù)的自動(dòng)化構(gòu)建方法:在第一階段,對(duì)知識(shí)三元組中的主語(yǔ)和賓語(yǔ)之間的語(yǔ)義關(guān)系進(jìn)行自擴(kuò)展學(xué)習(xí);在第二階段,基于條件隨機(jī)場(chǎng)和支持向量機(jī)協(xié)同分類器,對(duì)標(biāo)注出的屬性和屬性值實(shí)體之間的語(yǔ)義關(guān)系進(jìn)行預(yù)測(cè)。[結(jié)果 /結(jié)論]實(shí)驗(yàn)評(píng)測(cè)結(jié)果表明,該方法較前人工作在典型中文百科分類頁(yè)面中的實(shí)體識(shí)別查準(zhǔn)率和查全率分別最高有約10%和6%的提升。
[Abstract]:[Objective / significance] in the large-scale knowledge base construction, the manual mode is less efficient and less feasible. The automatic acquisition of mass knowledge from online encyclopedia has been paid more and more attention by more and more scholars. The current research mainly focuses on extracting mass knowledge from English online encyclopedia data sources. However, the research of knowledge extraction for Chinese encyclopedia data sources is still in its infancy. [Methods / process] in order to solve the problem of constructing Chinese large-scale knowledge base, a new automatic construction method of large-scale knowledge base based on Chinese network encyclopedia architecture is proposed: in the first stage. The semantic relation between subject and object in knowledge triple is self-expanded. In the second stage, based on the conditional random field and support vector machine (SVM) cooperative classifier, the semantic relationship between the tagged attributes and the attribute-valued entities is predicted. [Results / conclusion] the experimental results show that the precision and recall rate of entity identification in the typical Chinese encyclopedia classification page are improved by 10% and 6% respectively.
【作者單位】: 首都經(jīng)濟(jì)貿(mào)易大學(xué)信息學(xué)院;
【基金】:首都經(jīng)濟(jì)貿(mào)易大學(xué)科研項(xiàng)目“中文鏈接數(shù)據(jù)構(gòu)建關(guān)鍵技術(shù)研究”(項(xiàng)目編號(hào):00791654490223) 北京市社會(huì)科學(xué)基金項(xiàng)目“微媒體對(duì)北京大學(xué)生行為模式變化影響的研究”(項(xiàng)目編號(hào):15ZHB011)研究成果之一
【分類號(hào)】:TP391.1
【正文快照】: 1 引言 為了實(shí)現(xiàn)“數(shù)據(jù)之網(wǎng)”(Web of data)的美好愿景,以便使發(fā)布在互聯(lián)網(wǎng)上的語(yǔ)義信息可以為機(jī)器所理解,科研人員已做了大量的工作并已在Web上構(gòu)建和發(fā)布了眾多不同領(lǐng)域的語(yǔ)義數(shù)據(jù)集(semantic data sets)[1]。與此同時(shí),在由T.Berners-Lee倡導(dǎo)并發(fā)起的關(guān)聯(lián)數(shù)據(jù)(linked open
【相似文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 楊宇飛;面向中文網(wǎng)絡(luò)百科的屬性關(guān)系抽取研究[D];西南交通大學(xué);2014年
,本文編號(hào):1363324
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1363324.html
最近更新
教材專著