多動(dòng)詞漢語概念復(fù)合塊的分析與標(biāo)注研究
本文關(guān)鍵詞:多動(dòng)詞漢語概念復(fù)合塊的分析與標(biāo)注研究
更多相關(guān)文章: 句法分析樹庫 標(biāo)注庫規(guī)范化 動(dòng)詞層次分類 “移進(jìn)-歸約”分析 標(biāo)簽預(yù)測(cè)
【摘要】:隨著時(shí)代的發(fā)展,科學(xué)技術(shù)的日益進(jìn)步,數(shù)據(jù)在人們?nèi)粘I钪邪缪葜絹碓街匾慕巧?作為自然語言處理重點(diǎn)研究?jī)?nèi)容的句法分析研究也越來越被學(xué)者們所重視。句法分析是自然語言處理領(lǐng)域的重點(diǎn)研究?jī)?nèi)容,同時(shí)又是難點(diǎn)。對(duì)漢語句子的完全句法分析具有較大的難度,現(xiàn)階段的分析方法仍處于初級(jí)階段,很難在實(shí)際中應(yīng)用。為了降低完全句法分析操作的難度,同時(shí)為現(xiàn)階段的研究提供數(shù)據(jù)支持,組塊分析技術(shù)受到了研究者的青睞。組塊分析是采用“分而治之”的思想,將復(fù)雜問題模塊化,其關(guān)注的主要問題有:塊分割粒度大小的確定、塊內(nèi)和塊外的結(jié)構(gòu)表示等。因此,概念復(fù)合塊描述體系被提出,可以描述句子的基本結(jié)構(gòu),以及各個(gè)塊內(nèi)部結(jié)構(gòu)。目前的句法分析器都是通用型的,在普通句和一般的簡(jiǎn)單句上的分析結(jié)果比較理想,而如果句式復(fù)雜,比如包含多個(gè)動(dòng)詞的情況時(shí),分析器的結(jié)果不理想。原因是分析器對(duì)動(dòng)詞所處位置分析不準(zhǔn)確,造成成分劃分錯(cuò)誤,且國(guó)內(nèi)很少有研究者針對(duì)包含多個(gè)動(dòng)詞的句子設(shè)計(jì)專門的句法分析器。本文針對(duì)以上存在的問題展開了如下幾個(gè)方面的研究工作:首先,本文在概念層次上對(duì)概念復(fù)合塊體系進(jìn)行了描述,然后根據(jù)漢語句子的分析需要,對(duì)目前的概念復(fù)合塊定義中包含多個(gè)動(dòng)詞的內(nèi)容進(jìn)行了描述。本文利用概念復(fù)合塊體系的標(biāo)準(zhǔn)進(jìn)行分析研究,提出了對(duì)句法標(biāo)注樹庫的規(guī)范化研究的方法。句法標(biāo)注樹庫的準(zhǔn)確度對(duì)后續(xù)訓(xùn)練模型、規(guī)則與數(shù)據(jù)抽取過程息息相關(guān)。因而本文首先對(duì)人工標(biāo)注的句法樹庫進(jìn)行觀察與統(tǒng)計(jì)分析,設(shè)計(jì)了規(guī)范化處理方法。利用該方法,本文將句法樹庫中可能包含的一些錯(cuò)誤進(jìn)行修正和剔除,提高樹庫標(biāo)注的可靠度,為構(gòu)建訓(xùn)練數(shù)據(jù)做好準(zhǔn)備工作。其次,本文根據(jù)概念復(fù)合塊自動(dòng)分析過程中對(duì)包含多動(dòng)詞句子分析錯(cuò)誤的類型進(jìn)行分析,提出了一種針對(duì)概念復(fù)合塊的動(dòng)詞層次分類的方法。對(duì)已規(guī)范化處理的句法樹庫,通過分析觀察包含多個(gè)動(dòng)詞的句子的特點(diǎn),以及標(biāo)注錯(cuò)誤類型,得知在包含多個(gè)動(dòng)詞的句子中,通常由于對(duì)動(dòng)詞的分析錯(cuò)誤而導(dǎo)致整句的分析不準(zhǔn)確。本文利用統(tǒng)計(jì)方法,首先將包含多個(gè)動(dòng)詞的句子進(jìn)行抽取,分析動(dòng)詞構(gòu)成規(guī)律,設(shè)計(jì)了一套規(guī)則分析的方法:將句子中的動(dòng)詞所屬的層次進(jìn)行分類,也即確定動(dòng)詞所屬位置,將動(dòng)詞劃分結(jié)果作為下一步分析的輸入。實(shí)驗(yàn)表明,本實(shí)驗(yàn)中利用規(guī)則方法對(duì)動(dòng)詞進(jìn)行分類,可以對(duì)后續(xù)分析器起到較好的作用。最后,本文提出了多動(dòng)詞的自動(dòng)分析方法。通過對(duì)包含多個(gè)動(dòng)詞句子中的動(dòng)詞所屬成分進(jìn)行分析,對(duì)符合規(guī)則的動(dòng)詞內(nèi)容進(jìn)行分類處理,得出動(dòng)詞層次關(guān)系后,利用“移進(jìn)-歸約”的組塊分析方法對(duì)句子進(jìn)行整體分析,并在原始的“移進(jìn)-歸約”結(jié)束條件中加入對(duì)動(dòng)詞是否歸約結(jié)束的判斷:若原屬于同一組塊的動(dòng)詞沒有歸約到同一組塊,則繼續(xù)歸約到同一組塊;對(duì)不屬于同一組塊而分析器卻要?dú)w約到同一組塊的情況不采取規(guī)約操作。在對(duì)加入規(guī)約條件后的組塊中,包含一些無法確定關(guān)系標(biāo)記的部分,采用標(biāo)簽預(yù)測(cè)的方法進(jìn)行處理,最終得到一個(gè)完整的分析句子。實(shí)驗(yàn)表明,本方法在對(duì)包含多個(gè)動(dòng)詞的分析處理中,分析結(jié)果較通用分析器好,對(duì)句子中的動(dòng)詞成分處理更加準(zhǔn)確,從而提升了分析器對(duì)復(fù)雜句處理的整體效果。
【關(guān)鍵詞】:句法分析樹庫 標(biāo)注庫規(guī)范化 動(dòng)詞層次分類 “移進(jìn)-歸約”分析 標(biāo)簽預(yù)測(cè)
【學(xué)位授予單位】:北京信息科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.1
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-14
- 1.1 研究背景10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-11
- 1.3 研究的意義與應(yīng)用前景11-12
- 1.4 本文研究思路和主要工作12
- 1.5 論文組織結(jié)構(gòu)12-14
- 第2章 概念復(fù)合塊簡(jiǎn)介14-19
- 2.1 概念復(fù)合塊目標(biāo)14
- 2.2 概念復(fù)合塊描述體系14-16
- 2.3 多動(dòng)詞概念復(fù)合塊16-19
- 第3章 概念復(fù)合塊標(biāo)注庫規(guī)范化研究19-30
- 3.1 引言19
- 3.2 概念復(fù)合塊標(biāo)注庫規(guī)范化處理目標(biāo)19-20
- 3.3 概念復(fù)合塊標(biāo)注庫規(guī)范化處理方法20-27
- 3.3.1 錯(cuò)誤詞類標(biāo)記自動(dòng)調(diào)整20-23
- 3.3.2 事件句式內(nèi)部特征標(biāo)記自動(dòng)補(bǔ)充23-25
- 3.3.3 空間塊和時(shí)間塊標(biāo)記一致化處理25-27
- 3.4 規(guī)范化結(jié)果評(píng)價(jià)27-29
- 3.5 小結(jié)29-30
- 第4章 概念復(fù)合塊動(dòng)詞層次分類研究30-43
- 4.1 引言30
- 4.2 概念復(fù)合塊動(dòng)詞分布特征分析30-34
- 4.3 規(guī)則庫自動(dòng)提取34-37
- 4.4 概念復(fù)合塊動(dòng)詞層次分類方法37-39
- 4.5 實(shí)驗(yàn)結(jié)果與分析39-42
- 4.5.1 實(shí)驗(yàn)設(shè)置39-41
- 4.5.2 結(jié)果及分析41-42
- 4.6 本章小結(jié)42-43
- 第5章 多動(dòng)詞漢語概念復(fù)合塊自動(dòng)分析研究43-57
- 5.1 引言43
- 5.2 多動(dòng)詞概念復(fù)合塊分析難點(diǎn)43-48
- 5.3 概念復(fù)合塊分析方法48-54
- 5.3.1 移進(jìn)--歸約塊分析方法(SR)48-49
- 5.3.2 改進(jìn)的移進(jìn)—?dú)w約分析方法(ISR)49-51
- 5.3.3 特征選擇51-53
- 5.3.4 標(biāo)簽預(yù)測(cè)53-54
- 5.4 實(shí)驗(yàn)結(jié)果與分析54-56
- 5.4.1 實(shí)驗(yàn)設(shè)置54
- 5.4.2 ISR CCC Parser與SR CCC Parser性能分析比較54-56
- 5.5 本章小結(jié)56-57
- 第6章 工作總結(jié)與展望57-59
- 6.1 本文工作總結(jié)57
- 6.2 下一步工作57-59
- 參考文獻(xiàn)59-62
- 附錄A 表目錄62-63
- 附錄B 圖目錄63-64
- 個(gè)人簡(jiǎn)歷 在校期間發(fā)表論文與研究成果64-65
- 致謝65
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫 前10條
1 姜維;龐秀麗;;面向數(shù)據(jù)稀疏問題的個(gè)性化組合推薦研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年21期
2 馬驥;朱慕華;肖桐;朱靖波;;面向移進(jìn)—?dú)w約句法分析器的單模型系統(tǒng)整合算法[J];中文信息學(xué)報(bào);2012年03期
3 孫廣路;郎非;薛一波;;基于條件隨機(jī)域和語義類的中文組塊分析方法[J];哈爾濱工業(yè)大學(xué)學(xué)報(bào);2011年07期
4 韋向峰;張全;;漢語塊擴(kuò)句的自動(dòng)分析[J];計(jì)算機(jī)科學(xué);2010年04期
5 周強(qiáng);李玉梅;;漢語塊分析評(píng)測(cè)任務(wù)設(shè)計(jì)[J];中文信息學(xué)報(bào);2010年01期
6 宇航;周強(qiáng);;漢語基本塊標(biāo)注系統(tǒng)的內(nèi)部關(guān)系分析[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年10期
7 周俊生;戴新宇;陳家駿;曲維光;;基于大間隔方法的漢語組塊分析[J];軟件學(xué)報(bào);2009年04期
8 劉挺;馬金山;;漢語自動(dòng)句法分析的理論與方法[J];當(dāng)代語言學(xué);2009年02期
9 黃德根;于靜;;分布式策略與CRFs相結(jié)合識(shí)別漢語組塊[J];中文信息學(xué)報(bào);2009年01期
10 孫昂;江銘虎;賀一帆;陳林;袁保宗;;基于句法分析和答案分類的中文問答系統(tǒng)[J];電子學(xué)報(bào);2008年05期
,本文編號(hào):1077563
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1077563.html