天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于句群的漢語(yǔ)語(yǔ)篇內(nèi)容連貫性分析技術(shù)研究

發(fā)布時(shí)間:2020-05-21 21:15
【摘要】:近幾年,人工智能在各行各業(yè)激起了點(diǎn)點(diǎn)漣漪,進(jìn)一步形成了層層熱浪。在實(shí)現(xiàn)了基本智能之后,更多的學(xué)者為人工智能的“人性化”問(wèn)題投入了更多努力。語(yǔ)篇的銜接與連貫在許多領(lǐng)域中都擔(dān)任著重要的角色,并為相關(guān)領(lǐng)域的研究提供了一定程度的幫助。例如,智能寫(xiě)作在實(shí)現(xiàn)了句子自動(dòng)生成之后,應(yīng)保證句子間的連貫性,使生成的文章通順不生硬。這就需要分析語(yǔ)篇句子之間的連貫性。另外,在閱讀理解任務(wù)中,如果能很好地識(shí)別句子之間的連貫性,在進(jìn)行答案選擇時(shí)就能夠有效地在原文中定位,從而進(jìn)行語(yǔ)義分析,選出較合適的答案。綜上,語(yǔ)篇的銜接與連貫是語(yǔ)篇分析的重點(diǎn),是進(jìn)行更多領(lǐng)域研究的基石。然而,直接在句子層面上進(jìn)行連貫性研究會(huì)遺失很多上下文信息,直接使用整個(gè)篇章進(jìn)行分析研究會(huì)因顆粒度較大存在許多技術(shù)上的問(wèn)題。因此,本文在句群的層面上進(jìn)行語(yǔ)篇連貫性的研究。對(duì)句群的劃分困難度、句群在不同體裁語(yǔ)料中的分布特征、句群的自動(dòng)切分以及句群內(nèi)部句子間關(guān)系的自動(dòng)識(shí)別進(jìn)行了研究,具體如下。首先,本文從多角度總結(jié)了句群邊界以及類(lèi)別的分布特點(diǎn),分析了句群內(nèi)部句間的各種連接關(guān)系,提出了一種基于人工標(biāo)注的語(yǔ)篇困難度識(shí)別模型,并利用雙人標(biāo)注信息的差異性來(lái)驗(yàn)證語(yǔ)篇困難度識(shí)別方法的有效性與準(zhǔn)確性。實(shí)驗(yàn)表明,該模型可以較好地區(qū)分不同體裁新聞?lì)愓Z(yǔ)篇的標(biāo)注難度,為相關(guān)語(yǔ)篇內(nèi)容的分析理解打下了良好的基礎(chǔ)。其次,本文使用新聞、應(yīng)用、散文和百科四個(gè)不同體裁語(yǔ)篇語(yǔ)料,使用雙人獨(dú)立標(biāo)注的方式,對(duì)四個(gè)庫(kù)進(jìn)行人工連貫性分析標(biāo)注。在此基礎(chǔ)上,分析了四類(lèi)語(yǔ)篇語(yǔ)料庫(kù)中的句群相關(guān)的連貫性分布特征,詳細(xì)對(duì)比了不同體裁語(yǔ)篇中的句群連貫性標(biāo)注難度差異情況,為后續(xù)實(shí)現(xiàn)句群邊界的自動(dòng)切分與句間關(guān)系的自動(dòng)分析打下了良好基礎(chǔ)。再次,本文利用卷積神經(jīng)網(wǎng)絡(luò)以及注意力機(jī)制對(duì)語(yǔ)篇句對(duì)進(jìn)行分類(lèi),并結(jié)合句群主題特征來(lái)提升句群邊界識(shí)別的準(zhǔn)確率。利用大規(guī)模弱標(biāo)注段落數(shù)據(jù)集解決句群語(yǔ)料短缺的難題。實(shí)驗(yàn)表明,該方法能夠有效地進(jìn)行句群邊界的自動(dòng)識(shí)別,實(shí)現(xiàn)語(yǔ)篇句群的自動(dòng)切分。最后,本文結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)與詞語(yǔ)序列特征,綜合考慮了語(yǔ)義與結(jié)構(gòu)等多方面的特征,并加入注意力機(jī)制來(lái)深入挖掘句群內(nèi)部間雙核心(連貫關(guān)系、流水關(guān)系)句際關(guān)系。實(shí)驗(yàn)表明,本文方法能夠有效地識(shí)別雙核心句際關(guān)系,并且可移植性強(qiáng)。
【圖文】:

對(duì)比圖,位標(biāo),對(duì)比圖


第 2 章 漢語(yǔ)語(yǔ)篇的連貫性標(biāo)注困難度分析研究 數(shù)據(jù)結(jié)果討論困難度計(jì)算模型的各個(gè)特征的權(quán)重已經(jīng)通過(guò)訓(xùn)練得出,因此目標(biāo)函首先使用標(biāo)注困難度計(jì)算模型對(duì) 45 篇測(cè)試語(yǔ)料進(jìn)行計(jì)算,由于兩位標(biāo)注不同,訓(xùn)練得出的困難度模型各個(gè)特征權(quán)重不相同,因此計(jì)算得完全相同。將經(jīng)過(guò)數(shù)據(jù)處理之后的兩組困難度數(shù)據(jù)進(jìn)行對(duì)比得出,對(duì)標(biāo)注者得出的困難度數(shù)據(jù)不完全相同,但差別較;從總體趨勢(shì)來(lái)?yè)?jù)點(diǎn)左右,困難度呈現(xiàn)出了較大下降,在 32 篇之前,,兩位標(biāo)注者得在 2 以上,而 32 篇以后基本在 2 以下。具體原因?qū)⒃诤竺孢M(jìn)行詳細(xì)分

對(duì)比圖,差異度,對(duì)比圖,位標(biāo)


困難度呈現(xiàn)出了較大下降,在 32 篇之前,兩位標(biāo)注者得在 2 以上,而 32 篇以后基本在 2 以下。具體原因?qū)⒃诤竺孢M(jìn)行詳細(xì)分圖 2.1 兩位標(biāo)注者困難度對(duì)比圖分析困難度數(shù)據(jù)的差異性,以困難度值為 2 作為界限,將前 32 篇 篇語(yǔ)料數(shù)據(jù)分開(kāi)說(shuō)明,可以得出,前 32 篇語(yǔ)料困難度與差異度的總,差異度較大的困難度數(shù)據(jù)也相對(duì)較大,差異度較小的困難度也相對(duì)數(shù)據(jù)較大,最大值達(dá)到 4.98,基本都在 2 以上。具體數(shù)據(jù)如下所示:
【學(xué)位授予單位】:北京信息科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:H15;TP183

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 周文翠;袁春風(fēng);;并列復(fù)句的自動(dòng)識(shí)別初探[J];計(jì)算機(jī)應(yīng)用研究;2008年03期

2 吳晨;張全;;自然語(yǔ)言處理中句群劃分及其判定規(guī)則研究[J];計(jì)算機(jī)工程;2007年04期

3 劉大為;意向動(dòng)詞、言說(shuō)動(dòng)詞與篇章的視域[J];修辭學(xué)習(xí);2004年06期

4 周強(qiáng);漢語(yǔ)句法樹(shù)庫(kù)標(biāo)注體系[J];中文信息學(xué)報(bào);2004年04期

5 喬立山,王玉蘭,曾錦光;實(shí)驗(yàn)數(shù)據(jù)處理中曲線擬合方法探討[J];成都理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年01期

相關(guān)博士學(xué)位論文 前1條

1 黎明潔;敘述學(xué)視角下的新聞寫(xiě)作改革研究[D];復(fù)旦大學(xué);2004年



本文編號(hào):2674915

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/2674915.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)f98a0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com