天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

面向自然語言文本的否定性與不確定性識別研究

發(fā)布時間:2017-03-20 04:00

  本文關(guān)鍵詞:面向自然語言文本的否定性與不確定性識別研究,由筆耕文化傳播整理發(fā)布。


【摘要】:自然語言文本中存在大量否定性與不確定性語言現(xiàn)象,反映了人類在使用語言表達(dá)觀點時的態(tài)度,亦或者語言信息本身的可信度。語言的否定性指,由否定運算符對命題本身或其某一方面的語義進(jìn)行了反轉(zhuǎn);語言的不確定性指,包含了情態(tài)、言據(jù)性、或然性、主觀性等任何一類語義,介于肯定和否定語義之間。識別并理解自然語言的否定性與不確定性,對更深層次的自然語言理解具有重要意義,并且隨著自然語言處理領(lǐng)域相關(guān)應(yīng)用的不斷增長,該研究受到越來越多的關(guān)注,如信息抽取、情感分析、信息檢索、機(jī)器翻譯等研究。面向自然語言文本的否定性與不確定性識別研究主要包含三個子任務(wù):1)觸發(fā)詞檢測,即識別出文本中表達(dá)否定或不確定語義的關(guān)鍵詞;2)覆蓋域界定,即在句子內(nèi),判定否定或不確定語義的作用范圍;3)聚焦點識別,指在覆蓋域中識別被否定語義強(qiáng)調(diào)的內(nèi)容。本文研究圍繞以上三個任務(wù)展開。首先,本文提出了基于樹核的覆蓋域界定模型,有效并充分地利用結(jié)構(gòu)化句法特征,提高了該任務(wù)的性能;其次,本文提出了基于“詞-主題”雙層結(jié)構(gòu)圖模型的聚焦點識別方法,該方法通過上下文信息判斷聚焦點;為推動該研究在漢語上的進(jìn)展,本文構(gòu)建了首個漢語否定性與不確定性語料庫;最后,本文針對漢語的語言特點提出了一套完整的面向漢語的否定性與不確定性識別方法。具體地,本研究的主要內(nèi)容包括以下四個方面:1.基于樹核的覆蓋域界定模型。覆蓋域是指觸發(fā)詞的語義作用范圍,大量研究表明,句法特征是判定覆蓋域的重要證據(jù),然而,相關(guān)工作通常僅考慮平面化的句法特征,即用特征向量來表示句法結(jié)構(gòu),該表示方法很難恰當(dāng)并全面地反映觸發(fā)詞與覆蓋域在句法結(jié)構(gòu)上的關(guān)系。因此,本文提出了兩種類型的子樹結(jié)構(gòu)來提取觸發(fā)詞與覆蓋域之間的關(guān)系特征,并利用卷積樹核模型衡量這些結(jié)構(gòu)特征之間的相似度,進(jìn)而確定覆蓋域。此外,本文還嘗試采用復(fù)合核將平面化特征與結(jié)構(gòu)化特征進(jìn)行融合,提高了現(xiàn)有覆蓋域界定方法的性能。2.基于“詞-主題”雙層結(jié)構(gòu)圖模型的聚焦點識別方法。不同于面向語音語料的相關(guān)研究能夠利用重音和語調(diào)等特征,面向文本的聚焦點識別研究僅根據(jù)詞法和句法特征識別聚焦點。通過對聚焦點實例的人工標(biāo)注及統(tǒng)計,本文發(fā)現(xiàn)上下文語境中包含了大量判斷聚焦點的線索。因此,本文提出了基于“詞-主題”的雙層結(jié)構(gòu)圖模型,利用上下文中的線索及特征來識別聚焦點。此外,作為無監(jiān)督模型,該方法還減少了人工標(biāo)注的開銷。實驗結(jié)果表明,本文的方法能夠有效地利用上下文中的信息識別否定聚焦點,其性能優(yōu)于目前已知最好的系統(tǒng)。3.構(gòu)建漢語否定性與不確定性語料庫。目前,面向漢語的否定性與不確定性識別研究進(jìn)展緩慢,其中最主要的原因是缺乏一個具有一定規(guī)模的語料庫。因此,本文構(gòu)建了漢語否定性與不確定性語料庫,該語料庫是首個已發(fā)布的針對文本否定性與不確定性研究的漢語語料庫?紤]到語料在領(lǐng)域和文體上應(yīng)具備異構(gòu)性,以便充分反映和體現(xiàn)語言現(xiàn)象和特點,漢語否定性與不確定性語料庫包含了科技文獻(xiàn)、財經(jīng)文章、酒店評論三個類別,其規(guī)模達(dá)到16,841句,包含6,429個實例,與目前英文中使用最頻繁的Bio Scope語料庫規(guī)模相近。相關(guān)統(tǒng)計和實驗結(jié)果表明,本文構(gòu)建的語料庫較全面地體現(xiàn)了漢語中否定性與不確定性語義的特點,為相關(guān)研究提供了語料資源支持。4.面向漢語的否定性與不確定性識別研究。由于漢語與英語在語法結(jié)構(gòu)及語義表達(dá)等諸多方面均存在較大差別,直接將英語中的否定性與不確定性識別方法應(yīng)用在漢語上時,系統(tǒng)性能大幅下降。因此,針對觸發(fā)詞檢測,本文提出了一套適用于漢語的新特征,尤其是詞素特征,同時還采用了跨語言觸發(fā)詞擴(kuò)展策略,識別出現(xiàn)頻率較低的觸發(fā)詞;針對覆蓋域界定,本文提出了基于元決策樹的方法,該方法有效融合了序列化特征和結(jié)構(gòu)化特征。本文工作構(gòu)建了首個面向漢語的否定性與不確定性識別系統(tǒng),希望能夠為相關(guān)研究提供基線系統(tǒng),并促進(jìn)該研究在漢語上的開展?傊,本文致力于面向自然語言文本的否定性與不確定性識別研究,一方面提出了有效方法來提高相關(guān)任務(wù)的性能,一方面嘗試推動該研究在漢語上的進(jìn)展。期待本文取得的初步成果能夠?qū)υ擃I(lǐng)域的相關(guān)研究產(chǎn)生一定的參考價值,促進(jìn)自然語言深層理解技術(shù)的發(fā)展。
【關(guān)鍵詞】:否定 不確定 觸發(fā)詞檢測 覆蓋域界定 聚焦點識別
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP391.1
【目錄】:
  • 摘要4-6
  • Abstract6-13
  • 第1章 緒論13-32
  • 1.1 研究背景和意義13-16
  • 1.1.1 自然語言文本中的否定性與不確定性13-15
  • 1.1.2 否定性與不確定性識別的應(yīng)用15-16
  • 1.2 國內(nèi)外研究現(xiàn)狀16-30
  • 1.2.1 語料資源建設(shè)16-21
  • 1.2.1.1 Bio Scope醫(yī)學(xué)語料庫17-19
  • 1.2.1.2 維基百科語料19-20
  • 1.2.1.3 Conan Doyle小說語料20
  • 1.2.1.4 漢語語料建設(shè)20-21
  • 1.2.2 否定性與不確定性識別相關(guān)研究21-26
  • 1.2.2.1 觸發(fā)詞檢測22-23
  • 1.2.2.2 覆蓋域界定23-26
  • 1.2.2.3 聚焦點識別26
  • 1.2.2.4 面向漢語的否定性與不確定性識別26
  • 1.2.3 否定性與不確定性識別評測26-28
  • 1.2.3.1 評測方法26-28
  • 1.2.3.2 否定性與不確定性識別評測任務(wù)28
  • 1.2.4 尚且存在的問題28-30
  • 1.3 本文的研究內(nèi)容及章節(jié)安排30-32
  • 第2章 基于樹核的否定與不確定覆蓋域界定32-48
  • 2.1 引言32
  • 2.2 基于序列標(biāo)注的否定與不確定觸發(fā)詞檢測32-34
  • 2.3 基于樹核的否定與不確定覆蓋域界定34-40
  • 2.3.1 關(guān)系樹特征34-36
  • 2.3.2 樹核模型36
  • 2.3.3 平面特征與結(jié)構(gòu)化特征融合36-39
  • 2.3.4 詞性驅(qū)動的多分類器融合策略39-40
  • 2.3.5 相關(guān)研究40
  • 2.4 實驗與分析40-47
  • 2.4.1 實驗設(shè)置40-41
  • 2.4.2 實驗結(jié)果及討論41-47
  • 2.4.2.1 對基于序列標(biāo)注的觸發(fā)詞檢測方法的評價41-42
  • 2.4.2.2 覆蓋域界定42-47
  • 2.5 本章小節(jié)47-48
  • 第3章 基于雙層圖模型的否定聚焦點識別48-63
  • 3.1 引言48-49
  • 3.2 相關(guān)研究49
  • 3.3 基于“詞-主題”雙層圖模型的否定聚焦點識別49-56
  • 3.3.1 基于詞的圖模型51-52
  • 3.3.2 主題層52-53
  • 3.3.3“詞-主題”雙層圖模型53-55
  • 3.3.4 否定聚焦點識別55-56
  • 3.4 實驗與分析56-62
  • 3.4.1 實驗設(shè)置56
  • 3.4.2 參數(shù)對方法性能的影響56-60
  • 3.4.3 基于“詞-主題”雙層圖模型的否定聚焦點識別方法評價60-61
  • 3.4.4 本文方法與其它相關(guān)方法的性能比較61-62
  • 3.5 本章小結(jié)62-63
  • 第4章 漢語否定性與不確定性語料庫構(gòu)建63-75
  • 4.1 引言63
  • 4.2 語料資源63-64
  • 4.3 標(biāo)注規(guī)范64-69
  • 4.3.1 標(biāo)注總則64-65
  • 4.3.2 否定性語義標(biāo)注65-66
  • 4.3.3 不確定語義標(biāo)注66-68
  • 4.3.4 特殊標(biāo)注規(guī)則68-69
  • 4.4 語料庫統(tǒng)計與分析69-73
  • 4.4.1 標(biāo)注過程69-70
  • 4.4.2 語料庫統(tǒng)計70-73
  • 4.4.3 一致性分析73
  • 4.5 本章小結(jié)73-75
  • 第5章 面向漢語的否定性與不確定性識別研究75-103
  • 5.1 引言75
  • 5.2 面向漢語的否定與不確定觸發(fā)詞檢測75-79
  • 5.2.1 基于序列標(biāo)注的觸發(fā)詞檢測75-77
  • 5.2.2 跨語言的觸發(fā)詞擴(kuò)展方法77-79
  • 5.3 面向漢語的否定與不確定覆蓋域界定79-85
  • 5.3.1 基于序列標(biāo)注的覆蓋域界定模型79-80
  • 5.3.2 基于卷積樹核的覆蓋域界定模型80-82
  • 5.3.3 基于元決策樹的覆蓋域界定模型82-84
  • 5.3.4 基于依存句法規(guī)則的后處理方法84-85
  • 5.4 實驗與分析85-101
  • 5.4.1 實驗設(shè)置85-88
  • 5.4.2 面向漢語的觸發(fā)詞檢測系統(tǒng)性能及分析88-92
  • 5.4.2.1 基于序列標(biāo)注的觸發(fā)詞檢測性能及分析88-91
  • 5.4.2.2 跨語言觸發(fā)詞擴(kuò)展方法的性能和分析91-92
  • 5.4.3 面向漢語的覆蓋域界定系統(tǒng)性能及分析92-98
  • 5.4.3.1 基于序列標(biāo)注模型的覆蓋域界定性能及分析93-94
  • 5.4.3.2 基于卷積樹核的覆蓋域界定系統(tǒng)性能及分析94-96
  • 5.4.3.3 基于元決策樹的覆蓋域界定系統(tǒng)性能及分析96-97
  • 5.4.3.4 覆蓋域界定后處理方法性能及分析97-98
  • 5.4.4 對比實驗及分析98-101
  • 5.5 本章小結(jié)101-103
  • 第6章 總結(jié)與展望103-106
  • 6.1 總結(jié)103-104
  • 6.2 展望104-106
  • 參考文獻(xiàn)106-115
  • 攻讀博士學(xué)位期間的論文及科研工作115-117
  • 致謝117-119

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 張廷遠(yuǎn);;河南省紅色旅游景區(qū)語言文本現(xiàn)狀的調(diào)查及思考[J];開封大學(xué)學(xué)報;2010年04期

2 高影繁;徐紅姣;于薇;王惠臨;;基于跨語言文本分類的多語資源組織方法研究[J];情報理論與實踐;2011年10期

3 熊超;王明文;吳福英;吳世勇;沈陽;;基于潛在語義對偶空間的跨語言文本分類研究[J];廣西師范大學(xué)學(xué)報(自然科學(xué)版);2010年01期

4 杜家利;于屏方;;自然語言文本語義接受度的在線系統(tǒng)評價研究[J];計算機(jī)工程與應(yīng)用;2008年26期

5 章成志;王惠臨;;多語言文本聚類研究綜述[J];現(xiàn)代圖書情報技術(shù);2009年06期

6 史樹敏;黃河燕;劉東升;;自然語言文本指代消解技術(shù)研究[J];計算機(jī)科學(xué);2007年12期

7 彭靜;羅偉;;一種從自然語言文本到本體模型的轉(zhuǎn)換方法[J];電大理工;2011年02期

8 馮志偉;;漢字的極限熵[J];中文信息;1996年02期

9 陳啟泉;吳揚揚;鄭躍斌;;CTDPS查詢語言文本與實現(xiàn)[J];華僑大學(xué)學(xué)報(自然科學(xué)版);1985年02期

10 楊建龍;王建民;王朝坤;李德毅;;基于胎記技術(shù)的自然語言文本版權(quán)保護(hù)方案[J];計算機(jī)工程;2007年24期

中國重要會議論文全文數(shù)據(jù)庫 前4條

1 伊·達(dá)瓦;井佐原均;;蒙古語多文種-多語言文本-口語語料庫的建設(shè)[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集[C];2005年

2 盧衛(wèi)雄;;一種基于支持向量機(jī)的多國語言文本分類平臺[A];第十六屆全國青年通信學(xué)術(shù)會議論文集(上)[C];2011年

3 俞榮華;田增平;周傲英;;一種基于聚類的多語言文本相似記錄檢測算法[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年

4 曹暉;于洪志;;OpenOffice的國際化與本地化機(jī)制[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集[C];2005年

中國重要報紙全文數(shù)據(jù)庫 前1條

1 袁原;有機(jī)器翻譯還用學(xué)外語嗎?[N];經(jīng)濟(jì)參考報;2014年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條

1 鄒博偉;面向自然語言文本的否定性與不確定性識別研究[D];蘇州大學(xué);2015年

2 朱澤德;網(wǎng)絡(luò)雙語語料挖掘關(guān)鍵技術(shù)研究[D];中國科學(xué)技術(shù)大學(xué);2014年


  本文關(guān)鍵詞:面向自然語言文本的否定性與不確定性識別研究,,由筆耕文化傳播整理發(fā)布。



本文編號:257079

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/257079.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶61b92***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com