基于CDTB的篇章結(jié)構(gòu)解析器的自動構(gòu)建研究
發(fā)布時間:2021-06-29 05:07
詞、短語和句子級的相關(guān)研究日趨成熟,篇章成為了自然語言處理領(lǐng)域的研究焦點之一。篇章分析旨在研究篇章特點和篇章組成單元之間的語義關(guān)系,進而從整體上理解篇章。篇章結(jié)構(gòu)解析作為篇章分析的核心任務(wù),其研究目標(biāo)是依據(jù)篇章理論將篇章文本組織成結(jié)構(gòu)化數(shù)據(jù),為下游篇章級應(yīng)用提供支撐。基于中文篇章連接依存樹(Chinese Connective-driven Discourse Tree,CDT)理論和對應(yīng)資源庫CDTB,本文針對中文篇章結(jié)構(gòu)自動解析問題進行了研究,具體工作包括:(1)提出了一種基于長短期記憶神經(jīng)網(wǎng)絡(luò)和圖卷積神經(jīng)網(wǎng)絡(luò)組合的中文基本篇章單元(Elementary Discourse Unit,EDU)識別方法。該方法將EDU識別看作一個序列化標(biāo)記任務(wù),通過對上下文及EDU內(nèi)部各成分間依存結(jié)構(gòu)信息的表征來實現(xiàn)EDU分割點的確認(rèn),在CDTB語料上的實驗驗證了方法的有效性。(2)提出了一個基于神經(jīng)網(wǎng)絡(luò)和轉(zhuǎn)移系統(tǒng)的中文篇章結(jié)構(gòu)自底向上的自動解析方法。該方法將篇章樹的構(gòu)建過程看成狀態(tài)轉(zhuǎn)移過程,通過預(yù)測下一時刻的狀態(tài)轉(zhuǎn)移來完成篇章解析樹的自動構(gòu)建。在CDTB語料上的實驗驗證了方法的有效性。本文基于這一...
【文章來源】:蘇州大學(xué)江蘇省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-2?CDT篇章關(guān)系類別和層次??2.2?CDTB語料庫介紹和統(tǒng)計??CDTB全稱連接依存樹庫篇章結(jié)構(gòu)語料,其在CTB?6.0_基礎(chǔ)上標(biāo)注有500篇??
第二章相關(guān)知識?基于CDTB的篇章結(jié)構(gòu)解析器的自動構(gòu)建研究??有2336個有效的CDT,包含5425個句子,10632個EDU,平均每個CDT包含2.3??個句子、4.5個EDU,每個句子平均可以分割為1.95個EDU。篇章樹的平均高度為??3.42,最低高度為2,最高為10。圖2-3給出了篇章樹的高度分布。可以看出,大部??分的篇章樹高度集中在2到4之間,也意味著大部分的CDT都只有一層到三層內(nèi)??部關(guān)系節(jié)點。圖2-4給出了?CDTB中包含不同EDU個樹的CDT數(shù)量的分布情況。??與圖2-3反應(yīng)的統(tǒng)計特征一致,大部分CDT只包含2到6個EDU,最多包含28個??EDU。??700?-?_??600??圓漏??ill????1|1|??〇1?_____?_I ̄, ̄ ̄??23456789?10?11??篇章樹高度??圖2-3?CDTB篇章樹高度分布??CDTB共包含7321個關(guān)系節(jié)點,每個關(guān)系節(jié)點都標(biāo)注有驅(qū)動的連接詞、核心位??置和篇章關(guān)系。CDT中核心位置分為三類,中心在左、中心在右和所有孩子節(jié)點??都是中心,為方便描述,下文中使用?NS?(Nucleus-Satellite)、SN?(Satellite-Nucleus)??和NN?(Nucleus-Nucleus)分別代表三種中心位置。統(tǒng)計所有關(guān)系節(jié)點的核心位置??得,NN,?NS?和?SN分別占比?51.3%、28.8%?和?38.9%。??所有篇章關(guān)系中,顯式篇章關(guān)系1814個,占比24.8%;隱式篇章關(guān)系5507個,??占比75.2%。從句子層面考慮,可以將CDTB的篇章關(guān)系分為句內(nèi)關(guān)系和句間關(guān)系,??統(tǒng)計得CDTB語料中句內(nèi)關(guān)系510
基于CDTB的篇章結(jié)構(gòu)解析器的自動構(gòu)建研究?第二章相關(guān)知識??其中顯式關(guān)系占比16.4%。??由上述CDTB總體統(tǒng)計結(jié)果可知,以段落為單位標(biāo)注的CDTB中篇章樹高度普??遍較低,多數(shù)只有2到3層關(guān)系,大多包含2到6個EDU。篇章樹內(nèi)部節(jié)點的核心??位置中,NN核心位置超過一半以上。篇章關(guān)系類別中,超過7成是隱式關(guān)系,句間??關(guān)系中隱式關(guān)系占比更高。??600?-I???500?-??400?-??!??V?300?■??樹??個??數(shù)?200?-?^??2?3?4?5?6?7?8?9?10?12?14?16?18?20?22?24?26?28??EDU個數(shù)??圖2-4?CDTB篇章樹EDU數(shù)量分布??2.3數(shù)據(jù)預(yù)處理與數(shù)據(jù)集劃分??在基于CDTB完成中文篇章解析器的自動構(gòu)建之前,我們需要先對CDTB語料??進行預(yù)處理。CDTB在CTB?6.0的句法之上構(gòu)建篇章結(jié)構(gòu)。通過將CTB?6.0中對應(yīng)??句子編號的句法信息映射到CDTB對應(yīng)的句子上,就可以得到CDTB中每個句子和??EDU的中文分詞、詞性信息和每個句子的成分句法信息。2.1節(jié)提到過CDT中標(biāo)注??NN核心位置的關(guān)系節(jié)點孩子節(jié)點可以有多個,這會給篇章結(jié)構(gòu)的自動解析造成不??便。根據(jù)句法分析中的慣用方法,預(yù)處理階段首先通過對這種多元關(guān)系不斷合并最??右端的兩個孩子節(jié)點,將新產(chǎn)生的關(guān)系節(jié)點標(biāo)注與其父節(jié)點同樣的核心位置和篇章??關(guān)系,從而將多元關(guān)系節(jié)點二元化。轉(zhuǎn)化方法如圖2-5所示。轉(zhuǎn)換之后的CDTB語??料內(nèi)部節(jié)點數(shù)量增多到8296個,NN核心位置占比進一步上升,與NN經(jīng)常一起出??11??
【參考文獻】:
期刊論文
[1]漢語篇章連接詞識別與分類[J]. 李艷翠,孫靜,周國棟. 北京大學(xué)學(xué)報(自然科學(xué)版). 2015(02)
[2]漢語隱式篇章關(guān)系識別[J]. 孫靜,李艷翠,周國棟,馮文賀. 北京大學(xué)學(xué)報(自然科學(xué)版). 2014(01)
[3]漢語復(fù)句關(guān)系詞庫的建設(shè)及其利用[J]. 胡金柱,吳鋒文,李瓊,舒江波. 語言科學(xué). 2010(02)
[4]面向中文信息處理的復(fù)句關(guān)系詞提取算法研究[J]. 胡金柱,舒江波,姚雙云,周星,吳鋒文,肖升. 計算機工程與科學(xué). 2009(10)
[5]修辭結(jié)構(gòu)理論與句群研究[J]. 陳莉萍. 蘇州大學(xué)學(xué)報(哲學(xué)社會科學(xué)版). 2008(04)
本文編號:3255794
【文章來源】:蘇州大學(xué)江蘇省
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-2?CDT篇章關(guān)系類別和層次??2.2?CDTB語料庫介紹和統(tǒng)計??CDTB全稱連接依存樹庫篇章結(jié)構(gòu)語料,其在CTB?6.0_基礎(chǔ)上標(biāo)注有500篇??
第二章相關(guān)知識?基于CDTB的篇章結(jié)構(gòu)解析器的自動構(gòu)建研究??有2336個有效的CDT,包含5425個句子,10632個EDU,平均每個CDT包含2.3??個句子、4.5個EDU,每個句子平均可以分割為1.95個EDU。篇章樹的平均高度為??3.42,最低高度為2,最高為10。圖2-3給出了篇章樹的高度分布。可以看出,大部??分的篇章樹高度集中在2到4之間,也意味著大部分的CDT都只有一層到三層內(nèi)??部關(guān)系節(jié)點。圖2-4給出了?CDTB中包含不同EDU個樹的CDT數(shù)量的分布情況。??與圖2-3反應(yīng)的統(tǒng)計特征一致,大部分CDT只包含2到6個EDU,最多包含28個??EDU。??700?-?_??600??圓漏??ill????1|1|??〇1?_____?_I ̄, ̄ ̄??23456789?10?11??篇章樹高度??圖2-3?CDTB篇章樹高度分布??CDTB共包含7321個關(guān)系節(jié)點,每個關(guān)系節(jié)點都標(biāo)注有驅(qū)動的連接詞、核心位??置和篇章關(guān)系。CDT中核心位置分為三類,中心在左、中心在右和所有孩子節(jié)點??都是中心,為方便描述,下文中使用?NS?(Nucleus-Satellite)、SN?(Satellite-Nucleus)??和NN?(Nucleus-Nucleus)分別代表三種中心位置。統(tǒng)計所有關(guān)系節(jié)點的核心位置??得,NN,?NS?和?SN分別占比?51.3%、28.8%?和?38.9%。??所有篇章關(guān)系中,顯式篇章關(guān)系1814個,占比24.8%;隱式篇章關(guān)系5507個,??占比75.2%。從句子層面考慮,可以將CDTB的篇章關(guān)系分為句內(nèi)關(guān)系和句間關(guān)系,??統(tǒng)計得CDTB語料中句內(nèi)關(guān)系510
基于CDTB的篇章結(jié)構(gòu)解析器的自動構(gòu)建研究?第二章相關(guān)知識??其中顯式關(guān)系占比16.4%。??由上述CDTB總體統(tǒng)計結(jié)果可知,以段落為單位標(biāo)注的CDTB中篇章樹高度普??遍較低,多數(shù)只有2到3層關(guān)系,大多包含2到6個EDU。篇章樹內(nèi)部節(jié)點的核心??位置中,NN核心位置超過一半以上。篇章關(guān)系類別中,超過7成是隱式關(guān)系,句間??關(guān)系中隱式關(guān)系占比更高。??600?-I???500?-??400?-??!??V?300?■??樹??個??數(shù)?200?-?^??2?3?4?5?6?7?8?9?10?12?14?16?18?20?22?24?26?28??EDU個數(shù)??圖2-4?CDTB篇章樹EDU數(shù)量分布??2.3數(shù)據(jù)預(yù)處理與數(shù)據(jù)集劃分??在基于CDTB完成中文篇章解析器的自動構(gòu)建之前,我們需要先對CDTB語料??進行預(yù)處理。CDTB在CTB?6.0的句法之上構(gòu)建篇章結(jié)構(gòu)。通過將CTB?6.0中對應(yīng)??句子編號的句法信息映射到CDTB對應(yīng)的句子上,就可以得到CDTB中每個句子和??EDU的中文分詞、詞性信息和每個句子的成分句法信息。2.1節(jié)提到過CDT中標(biāo)注??NN核心位置的關(guān)系節(jié)點孩子節(jié)點可以有多個,這會給篇章結(jié)構(gòu)的自動解析造成不??便。根據(jù)句法分析中的慣用方法,預(yù)處理階段首先通過對這種多元關(guān)系不斷合并最??右端的兩個孩子節(jié)點,將新產(chǎn)生的關(guān)系節(jié)點標(biāo)注與其父節(jié)點同樣的核心位置和篇章??關(guān)系,從而將多元關(guān)系節(jié)點二元化。轉(zhuǎn)化方法如圖2-5所示。轉(zhuǎn)換之后的CDTB語??料內(nèi)部節(jié)點數(shù)量增多到8296個,NN核心位置占比進一步上升,與NN經(jīng)常一起出??11??
【參考文獻】:
期刊論文
[1]漢語篇章連接詞識別與分類[J]. 李艷翠,孫靜,周國棟. 北京大學(xué)學(xué)報(自然科學(xué)版). 2015(02)
[2]漢語隱式篇章關(guān)系識別[J]. 孫靜,李艷翠,周國棟,馮文賀. 北京大學(xué)學(xué)報(自然科學(xué)版). 2014(01)
[3]漢語復(fù)句關(guān)系詞庫的建設(shè)及其利用[J]. 胡金柱,吳鋒文,李瓊,舒江波. 語言科學(xué). 2010(02)
[4]面向中文信息處理的復(fù)句關(guān)系詞提取算法研究[J]. 胡金柱,舒江波,姚雙云,周星,吳鋒文,肖升. 計算機工程與科學(xué). 2009(10)
[5]修辭結(jié)構(gòu)理論與句群研究[J]. 陳莉萍. 蘇州大學(xué)學(xué)報(哲學(xué)社會科學(xué)版). 2008(04)
本文編號:3255794
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3255794.html
最近更新
教材專著