基于平行推理機(jī)制的隱式篇章關(guān)系檢測(cè)研究
本文關(guān)鍵詞: 隱式篇章關(guān)系 平行推理 檢索驅(qū)動(dòng) 關(guān)系消歧 雙語協(xié)作 出處:《蘇州大學(xué)》2013年碩士論文 論文類型:學(xué)位論文
【摘要】:篇章關(guān)系分析是自然語言處理的一個(gè)核心問題。在篇章研究領(lǐng)域中,篇章是指一系列連續(xù)子句、句子或語段構(gòu)成的語言整體;而篇章關(guān)系是指同一篇章中,不同論元之間的語義邏輯關(guān)系(如因果關(guān)系、轉(zhuǎn)折關(guān)系等)。其中,論元是一種具有完整語義并表述獨(dú)立觀點(diǎn)的文字片段。篇章關(guān)系分析任務(wù)即是對(duì)兩個(gè)不同論元(也稱一組論元對(duì))之間的具體篇章關(guān)系類型進(jìn)行識(shí)別與判定。根據(jù)論元之間是否存在顯式連接詞(也稱作線索詞,如“因?yàn)椤、“但是”等),可將篇章關(guān)系分為顯式關(guān)系和隱式關(guān)系,相應(yīng)的論元即被稱為顯式論元與隱式論元。現(xiàn)有研究對(duì)顯式關(guān)系分析已具有較好的推理效果,而對(duì)缺失連接詞的隱式關(guān)系尚無法有效處理。 本文針對(duì)兩個(gè)毗鄰且隱式相關(guān)的論元,提出了一種基于平行推理機(jī)制的隱式篇章關(guān)系檢測(cè)方法。核心思想是根據(jù)“論元語義平行,則論元關(guān)系平行”的理論假設(shè),即某顯式論元對(duì)與隱式論元對(duì)在句子結(jié)構(gòu)以及語義層面上均相近,也就是說語義平行,,則這兩個(gè)論元對(duì)的語義連接關(guān)系應(yīng)相同,并借助信息檢索技術(shù),從大規(guī)模數(shù)據(jù)集中挖掘平行的語義論元集合及其論元關(guān)系的顯式線索,從而建立無指導(dǎo)的隱式篇章關(guān)系檢測(cè)系統(tǒng)。主要研究?jī)?nèi)容包括以下三個(gè)方面: 1)檢索驅(qū)動(dòng)的隱式關(guān)系平行推理機(jī)制 借助大規(guī)模Web信息,實(shí)現(xiàn)平行論元的自動(dòng)挖掘和平行關(guān)系的自主推理。一方面,在挖掘平行論元過程中,重點(diǎn)依賴信息檢索技術(shù),通過構(gòu)建高質(zhì)量查詢關(guān)鍵詞,從搜索引擎中挖掘語義表述相近的平行論元及線索;另一方面,構(gòu)建三種篇章關(guān)系推理模型,從各方面對(duì)挖掘出的平行論元及語義線索進(jìn)行質(zhì)量評(píng)估,最終選擇質(zhì)量最優(yōu)的N個(gè)平行論元,借助高質(zhì)量平行論元中語義線索與篇章關(guān)系的映射體系實(shí)現(xiàn)隱式篇章關(guān)系推理。 2)平行推理中歧義線索消歧 在基于平行推理機(jī)制實(shí)現(xiàn)隱式篇章關(guān)系檢測(cè)任務(wù)中,推理線索存在兩方面的歧義: (1)線索連接詞本身的一詞多義現(xiàn)象;(2)混淆連接關(guān)系的偽線索詞存在。兩類歧義都將影響最終隱式篇章關(guān)系檢測(cè)性能。因此,本文從基于局部最優(yōu)的連接詞詞義消歧以及基于潛在連接詞識(shí)別的偽連接詞過濾兩個(gè)方面,對(duì)平行推理過程中的歧義線索進(jìn)行消歧,以提高隱式篇章關(guān)系檢測(cè)性能。 3)基于雙語協(xié)作的平行推理優(yōu)化 在檢索驅(qū)動(dòng)挖掘平行論元及語義線索的過程中,由于部分隱式論元的詞匯信息有限或搜索引擎檢索性能限制,導(dǎo)致挖掘的平行論元數(shù)量少甚至為零,不利于平行論元與隱式論元之間平行關(guān)系的正確推理。因此,本文嘗試通過跨語言信息檢索技術(shù),從搜索引擎中挖掘另一種語言的平行論元及推理線索,以此來擴(kuò)充平行資源,使得平行關(guān)系推理依據(jù)更充分更豐富,從而進(jìn)一步優(yōu)化隱式篇章關(guān)系檢測(cè)。
[Abstract]:Text relation analysis is a core problem of natural language processing . In the field of chapter research , the text refers to a series of continuous clauses , sentences or language whole ; and the chapter relation refers to the semantic logical relation ( such as causality , conversion relationship , etc . ) between different arguments in the same chapter . On the basis of whether there is explicit connection between elements ( also known as clue words , such as " because " , " but " , etc . ) , it can be divided into explicit relation and implicit relationship . In this paper , we propose an implicit text relationship detection method based on parallel inference mechanism for two adjacent and implicit theory elements . The core idea is that the semantic connection relation of the two theory elements should be the same , that is , the semantic parallelism is similar to that of the implicit theory element in the structure of sentence structure and the semantic level , that is , the semantic parallelism , then the explicit clues of the parallel semantic theory element set and its theory element relation are excavated from the large - scale data set , and the hidden chapter relation detection system without guidance is established . 1 ) Parallel Inference Mechanism of Implicit Relations Driven by Retrieval On the one hand , based on the large - scale Web information , the autonomous reasoning of automatic mining and parallel relation of the parallel theory elements is realized . On the one hand , in the process of mining the parallel theory , the emphases are on the information retrieval technology . By constructing the high - quality query key words , the parallel theory elements and the clues that are close to the semantic expressions are excavated from the search engine . On the other hand , three chapters are constructed , and N parallel theory elements with optimal quality are constructed , and the implicit chapter relationship reasoning is realized by the mapping system of the semantic clues and the text relation in the high - quality parallel argument . 2 ) Disambiguity in Parallel Reasoning In the task of realizing implicit text relation detection based on parallel inference mechanism , two aspects of reasoning lead exist : ( 1 ) The word ambiguity of the thread connection word itself ; ( 2 ) the existence of a pseudo - clue word which confuses the connection relation . Both types of ambiguity will affect the performance of the final implicit text relationship detection . Therefore , this paper attempts to disprove the ambiguous clue in the process of parallel inference based on the local optimal connectives and the false connection word filtering based on the potential connection word recognition , so as to improve the detection performance of the implicit text relationship . 3 ) Parallel reasoning optimization based on bilingual collaboration In the process of retrieving and driving parallel argument and semantic clue , due to the limited vocabulary information of partial implicit theory or the search performance limitation of search engine , this paper attempts to expand the parallel resources by using the technique of cross - language information retrieval , mining the parallel theory element and reasoning clue of another language from the search engine , so that the parallel relationship reasoning is more abundant and richer , thus further optimizing the implicit text relation detection .
【學(xué)位授予單位】:蘇州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.1
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 云曉燕;王春英;;基于最大樹法的多文檔文摘子主題劃分[J];遼寧科技大學(xué)學(xué)報(bào);2009年06期
2 王逢鑫;論象聲詞——英漢象聲詞語義比較[J];北京大學(xué)學(xué)報(bào)(英語語言文學(xué)專刊);1992年02期
3 王逢鑫;論感嘆詞——英漢感嘆詞語義比較[J];北京大學(xué)學(xué)報(bào)(外國(guó)語言文學(xué)?);1999年S1期
4 吳娜炯;;格語法在主觀題自動(dòng)閱卷中的應(yīng)用[J];辦公自動(dòng)化;2010年08期
5 胡思康;曹元大;;Web網(wǎng)頁知識(shí)獲取技術(shù)[J];北京理工大學(xué)學(xué)報(bào);2006年12期
6 彭宣維;認(rèn)知發(fā)展、隱喻映射與詞義范疇的延伸——現(xiàn)代漢語詞匯系統(tǒng)形成的認(rèn)知機(jī)制[J];北京師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2004年03期
7 彭宣維,冉永平;英漢數(shù)量語、特征語和類別語比較 .[J];重慶大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);1997年03期
8 羅益民;鄒墨姝;;高級(jí)英漢學(xué)習(xí)詞典中隱喻欄的設(shè)置[J];重慶交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版);2010年05期
9 王彩云;;面向中文信息處理的狀動(dòng)結(jié)構(gòu)語義搭配[J];重慶與世界;2010年11期
10 王惠,李康年;大型詞典編纂的計(jì)算機(jī)輔助開發(fā)與管理系統(tǒng)[J];辭書研究;2004年02期
相關(guān)會(huì)議論文 前10條
1 甘燦;孫星明;劉玉玲;向凌云;;一種改進(jìn)的基于同義詞替換的中文文本信息隱藏方法[A];第七屆全國(guó)信息隱藏暨多媒體信息安全學(xué)術(shù)大會(huì)論文集[C];2007年
2 盧偉清;蘇新春;;詞義開放處理平臺(tái)的研究和實(shí)現(xiàn)[A];第六屆漢語詞匯語義學(xué)研討會(huì)論文集[C];2005年
3 王惠;蘇新春;;XHK基于語法知識(shí)的漢語詞義描述[A];第六屆漢語詞匯語義學(xué)研討會(huì)論文集[C];2005年
4 姚天f ;;一種用于漢語信息抽取的詞匯本體[A];全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
5 呂靜;昝紅英;;基于語義統(tǒng)計(jì)的中文自動(dòng)文摘研究[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
6 劉鳴洋;由麗萍;;漢語感知詞語的語義角色標(biāo)注規(guī)則初探[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
7 伊力亞爾·加爾木哈買提;尼亞子別克·阿不都加勒力;;哈薩克文自動(dòng)文本摘要方法淺談[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
8 邱立坤;邵艷秋;;語義詞典歸類不當(dāng)現(xiàn)象自動(dòng)發(fā)現(xiàn)[A];第六屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2010年
9 李正華;車萬翔;劉挺;;基于XML的語言技術(shù)平臺(tái)[A];第五屆全國(guó)青年計(jì)算語言學(xué)研討會(huì)論文集[C];2010年
10 吳法洲;蘇昊;周明;李春平;;利用英文搜索日志建立中文新詞同義詞詞表[A];第二十三屆中國(guó)數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
相關(guān)碩士學(xué)位論文 前10條
1 付紅艷;Web多文檔自動(dòng)文摘研究[D];哈爾濱工程大學(xué);2010年
2 孔勝;文本資源的知識(shí)抽取研究[D];大連理工大學(xué);2010年
3 胡志敏;互聯(lián)網(wǎng)文本自動(dòng)文摘技術(shù)的研究[D];湘潭大學(xué);2010年
4 柴艷麗;復(fù)音同義詞檢索與分析系統(tǒng)的設(shè)計(jì)與研究[D];廣西民族大學(xué);2010年
5 劉金鳳;面向自然語言處理的漢語句子語義知識(shí)庫構(gòu)建研究[D];魯東大學(xué);2009年
6 林樺;漢英基本色彩詞的文化內(nèi)涵差異及其對(duì)外漢語教學(xué)對(duì)策[D];暨南大學(xué);2010年
7 劉飛榮;SOM算法的改進(jìn)及其在中文文本聚類的應(yīng)用[D];南昌大學(xué);2010年
8 司圣濤;領(lǐng)域知識(shí)庫的構(gòu)建方法及其應(yīng)用研究[D];昆明理工大學(xué);2009年
9 張?jiān)?基于主題劃分的中文單文檔自動(dòng)文摘系統(tǒng)的研究[D];昆明理工大學(xué);2009年
10 吳啟綱;中文文本聚類算法的研究與實(shí)現(xiàn)[D];西安電子科技大學(xué);2010年
本文編號(hào):1502155
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1502155.html