零形式識別與填充方法及應用研究
發(fā)布時間:2021-04-05 20:05
零形式(Null Instantiation,NI)是指句子中隱式的語義成分,這些語義成分的正確理解將會影響篇章語義的完整性。對于機器來說,識別與實現(xiàn)隱式語義成分的內容填充是一個較難的任務,需要借助相應的語境,準確地理解語篇,才能有效解決該問題。漢語框架網(wǎng)(Chinese FrameNet,CFN)是從框架語義的角度去描述句子的語境,包含刻畫句子特定語境的語義信息。本文基于漢語框架網(wǎng)對零形式進行識別與填充,并將其應用于框架關系判別任務。本文主要工作如下:(1)零形式識別研究。本文根據(jù)缺失的語義論元在語義理解上的不同,對零形式進行識別,分別基于傳統(tǒng)機器學習與深度學習進行研究。在基于深度學習方法中,首先輸入層包含詞嵌入和框架表示,其次使用BiLSTM獲取上下文信息,最后通過全連接層預測零形式類別,其中探索了基于WASBIE、Word2vec算法及基于框架關系的三種框架表示方法;在基于傳統(tǒng)機器學習方法中,構建最優(yōu)特征集,分別在決策樹和隨機森林算法上進行實驗,得到零形式類別。結果顯示,本文構建的零形式模型比baseline結果提高了2%-9%。(2)有定零形式填充研究。本文針對識別出的有定零形...
【文章來源】:山西大學山西省
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
框架元
零形式識別與填充方法及應用研究8論”,它們之間的框架元素具有映射關系,<交談.交談者1>與<討論.交談者1>與<爭論.爭論者1>相對應。圖2.1框架元素間的映射關系2.2零形式零形式(NI)指句子中隱式的、未顯式表達的語義成分[1]。由于某些核心元素的缺失,使得產(chǎn)生了“零形式”現(xiàn)象[1]。按照缺失框架元素在語義理解上的不同[1],CFN將零形式分為無定零形式(用INI表示)與有定零形式(用DNI表示)。2.2.1無定零形式無定零形式(INI)指缺失的語義成分不影響人們對語篇的正確理解,不需要在上下文中為其找回特定的語篇所指[1],如:例2.1:座談會上,[李源潮]Speaker與[基層輔導員和少先隊工作者]Audience一起討論談論話題。[TopicINI]例2.2:中國南方有用“元寶茶”敬客的習慣,就是[在茶杯內]Goal放放置[兩顆金桔]Theme,表示吉祥如意的意思。[AgentINI]例2.1中,核心框架元素“主題|Topic”未在句中出現(xiàn),但并不影響人們對本句語義的正確理解;同理,例2.2中,核心框架元素“施動者|Agent”在句中也未出現(xiàn),同樣不會對本句的理解產(chǎn)生影響。這類框架元素的缺失即為無定零形式,不用在上下交談爭論討論交談者1交談者1爭論者1交談者2交談者2爭論者2交談雙方爭論雙方交談雙方主題問題主題時量時量時量形容形容形容處所處所處所框架框架元素
第二章相關概念介紹及任務描述11圖2.3語篇所涉及框架的例句數(shù)量比例統(tǒng)計圖CFN語篇語料中的每個文本,句子及詞語都給定編號。其中語義角色標注方法如圖2.4所示:在給出語料中,框架名為“行動記憶”,目標詞為編號為“p0_s0_24”的詞,核心框架元素“time”“action”分別被編號“p0_s0_20”到“p0_s0_21”的短語及編號“p0_s0_56”到“p0_s0_27”的短語所填充,而缺失的框架元素“cog”被標記為“DNI”,且被編號為“p0_s0_8”的詞語填充。圖2.4CFN語義角色標注本文將零形式識別與填充任務都看作分類問題,其評價指標包括精確率P、召回率R和F值,并采用五折交叉驗證方法進行實驗。精確率P、召回率R、F值計算公式如2.1-2.3所示:TPPTPFP=+(2.1)TPRTPFN=+(2.2)2PRFPR=+(2.3)其中TP表示模型預測為正類的正樣本,F(xiàn)P表示模型預測為正類的負樣本,F(xiàn)N表示模型預測為負類的正樣本。0.08590.26990.44170.14110.061300.10.20.30.40.50-2020-100100-300300-500500+框架數(shù)比例例句數(shù)量分布
【參考文獻】:
期刊論文
[1]基于BERT的古文斷句研究與應用[J]. 俞敬松,魏一,張永偉. 中文信息學報. 2019(11)
[2]基于詞向量的Jaccard相似度算法[J]. 田星,鄭瑾,張祖平. 計算機科學. 2018(07)
[3]基于漢語框架語義關系的零形式識別與消解[J]. 李茹,郭倩. 山西大學學報(自然科學版). 2018(04)
[4]基于詞分布式表征的漢語框架排歧模型[J]. 張力文,王瑞波,李茹,張晟. 中文信息學報. 2017(06)
[5]漢語篇章中零形式的識別與消解[J]. 武娟,李茹,王智強. 中文信息學報. 2016(03)
[6]基于馬爾可夫邏輯的中文零指代消解[J]. 宋洋,王厚峰. 計算機研究與發(fā)展. 2015(09)
[7]漢語核心框架語義分析[J]. 石佼,李茹,王智強. 中文信息學報. 2014(06)
[8]FrameNet中有定的零形式識別[J]. 雷章章,王寧,李茹,王智強. 中文信息學報. 2013(03)
[9]語言技術平臺[J]. 劉挺,車萬翔,李正華. 中文信息學報. 2011(06)
[10]漢語框架語義知識庫及軟件描述體系[J]. 郝曉燕,劉偉,李茹,劉開瑛. 中文信息學報. 2007(05)
博士論文
[1]漢語句子框架語義結構分析技術研究[D]. 李茹.山西大學 2012
碩士論文
[1]基于SVM算法的文本分類的研究[D]. 王梓諾.吉林大學 2017
[2]漢語篇章零形式識別與填充[D]. 武娟.山西大學 2016
[3]基于詞元語義特征的漢語框架排歧技術研究[D]. 張立凡.山西大學 2013
本文編號:3120019
【文章來源】:山西大學山西省
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
框架元
零形式識別與填充方法及應用研究8論”,它們之間的框架元素具有映射關系,<交談.交談者1>與<討論.交談者1>與<爭論.爭論者1>相對應。圖2.1框架元素間的映射關系2.2零形式零形式(NI)指句子中隱式的、未顯式表達的語義成分[1]。由于某些核心元素的缺失,使得產(chǎn)生了“零形式”現(xiàn)象[1]。按照缺失框架元素在語義理解上的不同[1],CFN將零形式分為無定零形式(用INI表示)與有定零形式(用DNI表示)。2.2.1無定零形式無定零形式(INI)指缺失的語義成分不影響人們對語篇的正確理解,不需要在上下文中為其找回特定的語篇所指[1],如:例2.1:座談會上,[李源潮]Speaker與[基層輔導員和少先隊工作者]Audience一起討論談論話題。[TopicINI]例2.2:中國南方有用“元寶茶”敬客的習慣,就是[在茶杯內]Goal放放置[兩顆金桔]Theme,表示吉祥如意的意思。[AgentINI]例2.1中,核心框架元素“主題|Topic”未在句中出現(xiàn),但并不影響人們對本句語義的正確理解;同理,例2.2中,核心框架元素“施動者|Agent”在句中也未出現(xiàn),同樣不會對本句的理解產(chǎn)生影響。這類框架元素的缺失即為無定零形式,不用在上下交談爭論討論交談者1交談者1爭論者1交談者2交談者2爭論者2交談雙方爭論雙方交談雙方主題問題主題時量時量時量形容形容形容處所處所處所框架框架元素
第二章相關概念介紹及任務描述11圖2.3語篇所涉及框架的例句數(shù)量比例統(tǒng)計圖CFN語篇語料中的每個文本,句子及詞語都給定編號。其中語義角色標注方法如圖2.4所示:在給出語料中,框架名為“行動記憶”,目標詞為編號為“p0_s0_24”的詞,核心框架元素“time”“action”分別被編號“p0_s0_20”到“p0_s0_21”的短語及編號“p0_s0_56”到“p0_s0_27”的短語所填充,而缺失的框架元素“cog”被標記為“DNI”,且被編號為“p0_s0_8”的詞語填充。圖2.4CFN語義角色標注本文將零形式識別與填充任務都看作分類問題,其評價指標包括精確率P、召回率R和F值,并采用五折交叉驗證方法進行實驗。精確率P、召回率R、F值計算公式如2.1-2.3所示:TPPTPFP=+(2.1)TPRTPFN=+(2.2)2PRFPR=+(2.3)其中TP表示模型預測為正類的正樣本,F(xiàn)P表示模型預測為正類的負樣本,F(xiàn)N表示模型預測為負類的正樣本。0.08590.26990.44170.14110.061300.10.20.30.40.50-2020-100100-300300-500500+框架數(shù)比例例句數(shù)量分布
【參考文獻】:
期刊論文
[1]基于BERT的古文斷句研究與應用[J]. 俞敬松,魏一,張永偉. 中文信息學報. 2019(11)
[2]基于詞向量的Jaccard相似度算法[J]. 田星,鄭瑾,張祖平. 計算機科學. 2018(07)
[3]基于漢語框架語義關系的零形式識別與消解[J]. 李茹,郭倩. 山西大學學報(自然科學版). 2018(04)
[4]基于詞分布式表征的漢語框架排歧模型[J]. 張力文,王瑞波,李茹,張晟. 中文信息學報. 2017(06)
[5]漢語篇章中零形式的識別與消解[J]. 武娟,李茹,王智強. 中文信息學報. 2016(03)
[6]基于馬爾可夫邏輯的中文零指代消解[J]. 宋洋,王厚峰. 計算機研究與發(fā)展. 2015(09)
[7]漢語核心框架語義分析[J]. 石佼,李茹,王智強. 中文信息學報. 2014(06)
[8]FrameNet中有定的零形式識別[J]. 雷章章,王寧,李茹,王智強. 中文信息學報. 2013(03)
[9]語言技術平臺[J]. 劉挺,車萬翔,李正華. 中文信息學報. 2011(06)
[10]漢語框架語義知識庫及軟件描述體系[J]. 郝曉燕,劉偉,李茹,劉開瑛. 中文信息學報. 2007(05)
博士論文
[1]漢語句子框架語義結構分析技術研究[D]. 李茹.山西大學 2012
碩士論文
[1]基于SVM算法的文本分類的研究[D]. 王梓諾.吉林大學 2017
[2]漢語篇章零形式識別與填充[D]. 武娟.山西大學 2016
[3]基于詞元語義特征的漢語框架排歧技術研究[D]. 張立凡.山西大學 2013
本文編號:3120019
本文鏈接:http://sikaile.net/guanlilunwen/lindaojc/3120019.html