基于深度學(xué)習(xí)的屬性抽取技術(shù)研究
本文關(guān)鍵詞:基于深度學(xué)習(xí)的屬性抽取技術(shù)研究 出處:《浙江大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 屬性抽取 遠程監(jiān)督 長短期記憶網(wǎng)絡(luò) 多實例多標(biāo)簽 詞向量 特征
【摘要】:如何將大量的非結(jié)構(gòu)化信息轉(zhuǎn)換為人們易于理解的結(jié)構(gòu)化信息,提取語義信息,已成為近年來研究的熱點。實體的屬性抽取方法,是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的一種重要手段,是自然語言處理任務(wù)的一個重要子任務(wù)。雖然,已經(jīng)有不少的方法提出用來完成屬性抽取任務(wù),但是這些方法中仍然存在一些問題需要解決。本文針對這些方法中存在的問題進行深入研究,提出了一種基于長短期記憶網(wǎng)絡(luò)的多實例多標(biāo)簽的算法,主要按照以下順序展開工作:首先展示了屬性抽取較為流行的幾種方法,主要有基于規(guī)則的方法、有監(jiān)督的和無監(jiān)督的機器學(xué)習(xí)方法。這些方法存在對人工和其他自然語言處理工具依賴性過大,無法應(yīng)用到目標(biāo)關(guān)系,性能還有待提升等問題。針對上述問題,本文提出的方法使用遠程監(jiān)督的方式生成模型訓(xùn)練和測試所需要的樣本,減少對人工的依賴。使用多實例多標(biāo)簽?zāi)P徒鉀Q遠程監(jiān)督生成樣本中的多實例多標(biāo)簽現(xiàn)象。多實例多標(biāo)簽?zāi)P屠脦в须[變量的圖模型建模一個實體對有多個實例,以及不同實例可能對應(yīng)不同標(biāo)簽因而存在多個標(biāo)簽的問題。同時,使用深度學(xué)習(xí)的方法自動學(xué)習(xí)大量樣本數(shù)據(jù)的內(nèi)部規(guī)律。利用詞向量作為模型需要的特征,能夠表達詞與詞之間的相似性,減少對其它自然語言處理工具的依賴,防止錯誤的傳播和累加。使用長短期記憶網(wǎng)絡(luò)訓(xùn)練模型,充分利用了句子的時序信息,通過句子前后的上下文關(guān)系,學(xué)習(xí)了句子中存在的語法關(guān)系和語義關(guān)系。長短期記憶網(wǎng)絡(luò)能夠選擇性的丟棄一些無用信息,而保留重要的有用信息,對于學(xué)習(xí)較長句子中的內(nèi)在關(guān)系非常有效。此外,本文還利用了實體的類型信息,用來區(qū)分不同實體對的不同關(guān)系。本文用屬性抽取較為常用的數(shù)據(jù)集,與目前比較流行的幾個屬性抽取模型進行對比實驗。實驗結(jié)果表明,與其它對比模型相比,本文提出的方法在幾個重要評價指標(biāo)上的表現(xiàn)更優(yōu)。證明它在性能上有一定的提升,驗證了它的有效性。最后,本文將屬性算法應(yīng)用到了 973跨媒體計算示范應(yīng)用平臺,構(gòu)建了一個關(guān)于疾病的知識圖譜。通過實踐,驗證了本文方法的實用性。
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【相似文獻】
相關(guān)期刊論文 前10條
1 盧漢;曹存根;王石;;基于元性質(zhì)的數(shù)量型屬性值自動提取系統(tǒng)的實現(xiàn)[J];計算機研究與發(fā)展;2010年10期
2 張愛平;張小紅;;屬性值為語言區(qū)間的多屬性決策方法[J];計算機工程與應(yīng)用;2011年07期
3 崔勇;高巖;王福利;王子敬;;模糊信息系統(tǒng)屬性值的重要性度量[J];河南理工大學(xué)學(xué)報(自然科學(xué)版);2007年04期
4 李中華,施麗華,李玉茜;屬性的增量賦值[J];計算機工程;1993年01期
5 ;第六章 多屬性索引法[J];計算機工程與應(yīng)用;1981年Z2期
6 關(guān)欣;衣曉;何友;周一宇;;一種區(qū)間屬性值離散化的新方法[J];宇航學(xué)報;2009年03期
7 張艷芹;張虹;楊習(xí)貝;;區(qū)間屬性值信息系統(tǒng)的不確定性度量[J];計算機應(yīng)用與軟件;2009年01期
8 程顯毅;施Oz;沈?qū)W華;田宇賀;;屬性和屬性值組合的概念模板[J];北京大學(xué)學(xué)報(自然科學(xué)版);2013年01期
9 林宏康;范成賢;史開泉;;倒向P-推理與屬性剩余發(fā)現(xiàn)-應(yīng)用[J];計算機科學(xué);2011年10期
10 坐看云起;《天使》人物屬性攻略[J];網(wǎng)絡(luò)與信息;2002年11期
相關(guān)會議論文 前2條
1 王宇;方濱興;吳博;宋林海;郭巖;;結(jié)合屬性分布特征的模式匹配算法[A];第五屆全國信息檢索學(xué)術(shù)會議論文集[C];2009年
2 張亮;胡學(xué)鋼;;多層次屬性值下概念格的動態(tài)轉(zhuǎn)化[A];計算機技術(shù)與應(yīng)用進展——全國第17屆計算機科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會議論文集(上冊)[C];2006年
相關(guān)重要報紙文章 前4條
1 重慶 韓濤;中望CAD中塊屬性的制作[N];電腦報;2004年
2 7Star;教你做RM壓縮程序[N];電腦報;2003年
3 北京郵電大學(xué) 張劍;通過DOM操作數(shù)據(jù)(下)[N];計算機世界;2001年
4 ;查找替換的技巧[N];中國電腦教育報;2001年
相關(guān)碩士學(xué)位論文 前10條
1 張麗芬;一種基于混合QOS的服務(wù)選擇方法[D];華中師范大學(xué);2015年
2 于芳芳;基于屬性的權(quán)限訪問控制研究與應(yīng)用[D];河北工業(yè)大學(xué);2015年
3 高乙童;大數(shù)據(jù)時效性關(guān)鍵技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2016年
4 陳祖軍;基于偽近鄰及區(qū)間距離的不完備數(shù)據(jù)聚類方法[D];大連理工大學(xué);2016年
5 梁磊;面向?qū)傩跃W(wǎng)絡(luò)圖的表示學(xué)習(xí)與鏈接預(yù)測[D];華東師范大學(xué);2017年
6 蔣煥劍;基于深度學(xué)習(xí)的屬性抽取技術(shù)研究[D];浙江大學(xué);2017年
7 趙爽;基于敏感屬性值語義的個性化匿名方法研究[D];天津財經(jīng)大學(xué);2015年
8 徐海堂;屬性證書及應(yīng)用研究[D];中國人民解放軍信息工程大學(xué);2005年
9 童先群;基于屬性值信息熵的KNN算法改進研究[D];漳州師范學(xué)院;2010年
10 張秀麗;符號屬性值的相似度學(xué)習(xí)及屬性重要性研究[D];河北大學(xué);2011年
,本文編號:1331600
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1331600.html