天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

面向社交站點(diǎn)的雙語(yǔ)知識(shí)圖譜構(gòu)建方法的研究

發(fā)布時(shí)間:2020-05-29 00:07
【摘要】:隨著語(yǔ)義網(wǎng)的不斷發(fā)展,由數(shù)百億RDF三元組構(gòu)成的相互鏈接的不同類(lèi)型的數(shù)據(jù)集在萬(wàn)維網(wǎng)中發(fā)布,這些數(shù)據(jù)集又稱(chēng)為知識(shí)圖譜,是輔助語(yǔ)義搜索、問(wèn)答系統(tǒng)、情報(bào)分析等眾多智能應(yīng)用的重要基礎(chǔ)資源。因此,構(gòu)建知識(shí)圖譜已成為學(xué)術(shù)界與工業(yè)界共同關(guān)注的研究課題。目前已存在較多關(guān)于知識(shí)圖譜構(gòu)建方法的研究工作,但是這些工作并未全面關(guān)注一種非常重要的知識(shí)挖掘來(lái)源,即萬(wàn)維網(wǎng)中不同類(lèi)型的社交站點(diǎn),包括電子商務(wù)、百科、問(wèn)答、博客、游戲、旅行等站點(diǎn)。與此同時(shí),隨著信息全球化的發(fā)展,跨語(yǔ)言知識(shí)對(duì)齊已成為支撐眾多跨語(yǔ)言應(yīng)用(如跨語(yǔ)言信息檢索、跨語(yǔ)言語(yǔ)義標(biāo)注等)的關(guān)鍵技術(shù)。然而,由于英文是世界上使用國(guó)家數(shù)最多的語(yǔ)言,所以在現(xiàn)有的多語(yǔ)言知識(shí)圖譜中,英文知識(shí)(包括概念、實(shí)例、三元組)的數(shù)量始終占絕對(duì)主導(dǎo)地位,而其他語(yǔ)言的知識(shí)相對(duì)較少是跨語(yǔ)言知識(shí)對(duì)齊的主要障礙之一。因此,如何針對(duì)任意給定的兩種語(yǔ)言有效地構(gòu)建雙語(yǔ)知識(shí)圖譜,即構(gòu)建每種語(yǔ)言對(duì)應(yīng)的知識(shí)圖譜并進(jìn)行跨語(yǔ)言知識(shí)對(duì)齊是亟需探索的研究方向,而現(xiàn)有的相關(guān)工作也僅在百科站點(diǎn)中研究如何構(gòu)建雙語(yǔ)知識(shí)圖譜;谏鲜鲇懻,本文選擇研究面向社交站點(diǎn)的雙語(yǔ)知識(shí)圖譜構(gòu)建的方法。由于社交站點(diǎn)中存在大量的由分類(lèi)構(gòu)成的層次分類(lèi)體系及標(biāo)簽構(gòu)成的分眾分類(lèi)系統(tǒng),且這些分類(lèi)與標(biāo)簽均表示概念,所以采用自頂向下地從模式層到實(shí)例層的雙語(yǔ)知識(shí)圖譜的構(gòu)建方式,即首先嘗試挖掘社交站點(diǎn)中概念之間的關(guān)系,該任務(wù)在本文中又稱(chēng)為模式知識(shí)挖掘,而已有的方法依賴(lài)于特定語(yǔ)言的特征與規(guī)則,不具有語(yǔ)言通用性。考慮到跨語(yǔ)言知識(shí)對(duì)齊是雙語(yǔ)知識(shí)圖譜構(gòu)建的重點(diǎn)工作之一,本文將跨語(yǔ)言概念匹配作為第二項(xiàng)任務(wù),但現(xiàn)有的方法嚴(yán)重依賴(lài)于翻譯后的字符串相似度與特定的領(lǐng)域信息,導(dǎo)致其不具有領(lǐng)域通用性且匹配效果往往不佳。本文的第三項(xiàng)任務(wù)旨在利用實(shí)例類(lèi)別推斷技術(shù),為雙語(yǔ)知識(shí)圖譜引入實(shí)例知識(shí),而現(xiàn)有工作同樣依賴(lài)于特定語(yǔ)言的規(guī)則,所以也不具備語(yǔ)言通用性。因此,為了克服上述三項(xiàng)任務(wù)的問(wèn)題,本文主要進(jìn)行如下研究:1)在模式知識(shí)挖掘方面,提出一種新的結(jié)合機(jī)器學(xué)習(xí)與規(guī)則的方法,其中將規(guī)則嵌入到機(jī)器學(xué)習(xí)的過(guò)程中。該方法不涉及任何特定語(yǔ)言的特征與規(guī)則,從而達(dá)成各語(yǔ)言通用的目標(biāo)。在實(shí)驗(yàn)中,將該方法分別應(yīng)用于中英文社交站點(diǎn)中的模式知識(shí)挖掘,其在測(cè)試數(shù)據(jù)集上的查準(zhǔn)率、查全率、F1值均優(yōu)于其他基準(zhǔn)對(duì)比方法,并且能夠生成大規(guī)模、高質(zhì)量的中英文模式知識(shí)。2)在跨語(yǔ)言概念匹配方面,提出一種新的基于雙語(yǔ)主題模型的方法,其中包含兩種新的雙語(yǔ)主題模型,利用任意一個(gè)模型均可學(xué)習(xí)得到不同語(yǔ)言概念的向量表示,最終通過(guò)向量相似度決定不同語(yǔ)言概念之間的相似程度。該方法不涉及任何特定的領(lǐng)域信息,從而達(dá)成各領(lǐng)域通用的目標(biāo)。實(shí)驗(yàn)結(jié)果表明,此方法在兩種中英文層次分類(lèi)體系上的查準(zhǔn)率@1與MRR均優(yōu)于其他基準(zhǔn)對(duì)比方法。3)在實(shí)例類(lèi)別推斷方面,提出一種新的基于隨機(jī)游走模型的方法,在抽取得到的實(shí)例、屬性、概念組成的圖上進(jìn)行隨機(jī)游走以計(jì)算某個(gè)概念是給定實(shí)例的類(lèi)別的概率。該方法不涉及任何特定語(yǔ)言的規(guī)則,從而達(dá)成各語(yǔ)言通用的目標(biāo)。在實(shí)驗(yàn)中,將該方法分別應(yīng)用于中英文維基百科中的實(shí)例類(lèi)別推斷,不僅其在測(cè)試數(shù)據(jù)集上的查準(zhǔn)率、查全率、F1值均優(yōu)于現(xiàn)有工作,而且能夠生成大規(guī)模、高質(zhì)量的中英文實(shí)例類(lèi)別知識(shí)。
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:TP391.1;TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王宏理;;水稻葉綠體基因文庫(kù)及物理圖譜構(gòu)建達(dá)到國(guó)際先進(jìn)水平[J];今日科技;1988年03期

2 彭海;張靜;;兩種基因組甲基圖譜構(gòu)建技術(shù)評(píng)介[J];江漢大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期

3 陳優(yōu)敏;;知識(shí)圖譜構(gòu)建方法探究[J];中國(guó)新通信;2019年05期

4 顧志良,周勤宣;雞基因圖譜構(gòu)建的現(xiàn)狀[J];中國(guó)畜牧雜志;1997年03期

5 ;RFLP圖譜構(gòu)建及其用于高梁種質(zhì)的改良[J];國(guó)外農(nóng)學(xué)-雜糧作物;1995年04期

6 王穎;錢(qián)力;謝靖;常志軍;孔貝貝;;科技大數(shù)據(jù)知識(shí)圖譜構(gòu)建模型與方法研究[J];數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn);2019年01期

7 徐磊;人類(lèi)基因組表達(dá)圖譜構(gòu)建的進(jìn)展[J];國(guó)外醫(yī)學(xué).遺傳學(xué)分冊(cè);1996年06期

8 戴繼軍;;初中數(shù)學(xué)知識(shí)圖譜構(gòu)建研究[J];數(shù)學(xué)大世界(中旬);2018年05期

9 王通;艾中良;張先國(guó);;基于深度學(xué)習(xí)的威脅情報(bào)知識(shí)圖譜構(gòu)建技術(shù)[J];計(jì)算機(jī)與現(xiàn)代化;2018年12期

10 田曉;劉勇超;王婧;孟巍;林曉蘭;;電網(wǎng)公司客戶(hù)服務(wù)知識(shí)圖譜構(gòu)建的應(yīng)用價(jià)值[J];山東電力技術(shù);2015年12期

相關(guān)會(huì)議論文 前3條

1 李博;江錫兵;張德強(qiáng);張志毅;;毛白楊未成熟木質(zhì)部轉(zhuǎn)錄組圖譜構(gòu)建[A];第六屆全國(guó)林木遺傳育種大會(huì)論文集[C];2008年

2 張文英;Bianca Büttner;Gretel Schulze-Buxloh;Christian Jung;Andreas Müller;;與甜菜抽薹基因緊密連鎖標(biāo)記篩選及物理圖譜構(gòu)建[A];2009年中國(guó)作物學(xué)會(huì)學(xué)術(shù)年會(huì)論文摘要集[C];2009年

3 唐敏強(qiáng);張園園;胡鳴;劉越英;程曉暉;童超波;黃軍艷;劉勝毅;;甘藍(lán)型油菜單體型圖譜構(gòu)建及株高性狀全基因組關(guān)聯(lián)分析[A];中國(guó)作物學(xué)會(huì)油料作物專(zhuān)業(yè)委員會(huì)第八次會(huì)員代表大會(huì)暨學(xué)術(shù)年會(huì)綜述與摘要集[C];2018年

相關(guān)重要報(bào)紙文章 前2條

1 記者 胡其峰 通訊員 李海芬;黃瓜全基因組遺傳變異圖譜構(gòu)建完成[N];光明日?qǐng)?bào);2013年

2 本報(bào)記者 史俊斌 通訊員 張琳;挑戰(zhàn)小麥基因“珠穆朗瑪峰”[N];科技日?qǐng)?bào);2019年

相關(guān)博士學(xué)位論文 前3條

1 吳天星;面向社交站點(diǎn)的雙語(yǔ)知識(shí)圖譜構(gòu)建方法的研究[D];東南大學(xué);2018年

2 李新龍;中醫(yī)師辨證論治失眠癥知識(shí)圖譜構(gòu)建方法研究[D];中國(guó)中醫(yī)科學(xué)院;2018年

3 李博;毛白楊與毛新楊轉(zhuǎn)錄組圖譜構(gòu)建及若干性狀的遺傳學(xué)聯(lián)合分析[D];北京林業(yè)大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 肖娜;基于自然語(yǔ)言處理的能源電池領(lǐng)域的知識(shí)圖譜構(gòu)建[D];青島理工大學(xué);2018年

2 劉衛(wèi)東;面向多元空間大數(shù)據(jù)的知識(shí)圖譜構(gòu)建及其核心特征提取方法研究[D];上海大學(xué);2018年

3 廖盼;基于多方法融合的學(xué)科知識(shí)圖譜構(gòu)建研究[D];湖北工業(yè)大學(xué);2018年

4 赫中翮;面向中文知識(shí)圖譜構(gòu)建的知識(shí)抽取方法研究與實(shí)現(xiàn)[D];國(guó)防科學(xué)技術(shù)大學(xué);2017年

5 宮云寶;面向知識(shí)圖譜構(gòu)建的知識(shí)驗(yàn)證方法研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2016年

6 劉敏;基于專(zhuān)業(yè)領(lǐng)域文獻(xiàn)的信息抽取與新知識(shí)發(fā)現(xiàn)系統(tǒng)研究與應(yīng)用[D];山東大學(xué);2018年

7 鐘亮;基于中文百科的初中數(shù)學(xué)學(xué)科知識(shí)圖譜構(gòu)建與應(yīng)用[D];江西財(cái)經(jīng)大學(xué);2018年

8 林煬平;文物知識(shí)圖譜構(gòu)建與檢索關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];浙江大學(xué);2017年

9 孫孝邦;中國(guó)人軀干部位可變形統(tǒng)計(jì)圖譜構(gòu)建研究[D];大連理工大學(xué);2017年

10 郭芳;基于眾包的教育知識(shí)圖譜構(gòu)建與研究[D];鄭州大學(xué);2017年

,

本文編號(hào):2686049

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2686049.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)fa47c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com