面向高考問答的地理試題文本分析和標(biāo)注研究
本文選題:問題理解 + 句子拆分 ; 參考:《南京大學(xué)》2017年碩士論文
【摘要】:人工智能技術(shù)正在飛速改變這個(gè)世界。在自然語言領(lǐng)域,圍繞著自動(dòng)問答系統(tǒng)(Question Answering,QA)開展了越來越多的研究。高效、智能的問答系統(tǒng),致力于為用戶提供更直接更優(yōu)質(zhì)的答案,可以從大量的知識(shí)儲(chǔ)備中自動(dòng)進(jìn)行檢索、推理,從而將用戶從這些處理中解放出來。2011年,IBM的Watson問答機(jī)器人參加問答類綜藝節(jié)目"Jeopardy!",并戰(zhàn)勝了人類頂尖選手贏得冠軍,自動(dòng)問答系統(tǒng)再一次吸引了世人的眼光。從某種程度上來說,高考作為中國大多數(shù)中學(xué)生最重要的考試,可以看做是一種高水平的問答過程。本文的項(xiàng)目背景是面向中國高考地理試題的問答系統(tǒng),并側(cè)重于對選擇題的解答。在解決高考自動(dòng)問答的過程中,我們面臨很多與傳統(tǒng)問答系統(tǒng)不同的挑戰(zhàn):首先高考題的問答形式與傳統(tǒng)自動(dòng)問答系統(tǒng)存在明顯區(qū)別;其次,高考題的靈活性遠(yuǎn)高于傳統(tǒng)問答系統(tǒng)中的問題,這意味著我們很難從現(xiàn)成的文本中直接匹配、抽取得到答案。作為自動(dòng)問答的第一步,問題理解的作用十分重要,這也是本文的工作重點(diǎn)。本文中將選擇題題面和一個(gè)選項(xiàng)拼接成的完整句子作為分析的對象。對文本的理解可以分為兩種:一是對句子間的篇章關(guān)系分析,二是對句子內(nèi)部的語義關(guān)系理解。因此我們從兩個(gè)方面來研究對于地理試題的理解問題:一方面是問題中子句間關(guān)系分類,另一方面是嘗試使用AMR(Abstract Meaning Representation)對試題文本進(jìn)行深層語義分析。本文中的句子拆分工作,是針對地理選擇題的特點(diǎn),提出了利用逗號(hào)對選擇題的選項(xiàng)進(jìn)行可能的拆分,將較長的原句轉(zhuǎn)換成語義等價(jià)的多個(gè)簡單句,從而簡化后續(xù)處理步驟的輸入,提高后續(xù)步驟的處理能力。在這項(xiàng)工作中,我們使用了最大熵分類器和基于規(guī)則的啟發(fā)式方法,通過兩個(gè)步驟來實(shí)現(xiàn)句子拆分:首先識(shí)別選項(xiàng)中的逗號(hào)是否可以作為一個(gè)分割點(diǎn),然后再識(shí)別句子的從句或并列結(jié)構(gòu)的公共前綴邊界。AMR是一種具有較為強(qiáng)大表達(dá)能力的新型語義表示方法,它可以將一句話的語義用單根的、有向的連通圖表示出來,更強(qiáng)調(diào)句子的抽象語義,而非具象的語法表達(dá)方式。但是由于圍繞AMR的研究才剛剛起步,目前已有的AMR自動(dòng)分析效果還有很大待提升的空間。中文AMR的標(biāo)注語料規(guī)模較小,將AMR應(yīng)用到中文的研究幾乎還是空白。本文在AMR方面的工作主要是對現(xiàn)有AMR分析算法進(jìn)行一些實(shí)驗(yàn)分析,并首次驗(yàn)證AMR標(biāo)注體系及自動(dòng)解析算法在中文上的性能。針對地理試題,我們標(biāo)注了一個(gè)小樣本的AMR語料,并用現(xiàn)有算法來驗(yàn)證AMR在特定領(lǐng)域文本上的處理能力。為了支撐上述兩項(xiàng)問題理解的研究工作,我們還構(gòu)建了一個(gè)地理試題標(biāo)注工具,并通過這個(gè)工具建立一個(gè)高質(zhì)量的地理試題語料庫。除了可以標(biāo)注句子分割和AMR這兩種信息,該工具同時(shí)支持標(biāo)注分詞、詞性、命名實(shí)體、地理術(shù)語、試題模板表示、成分句法等各項(xiàng)數(shù)據(jù)。
[Abstract]:Artificial intelligence is rapidly changing the world.In the field of natural language, more and more researches have been carried out around the question answering system (question answering QA).An efficient, intelligent question-and-answer system, dedicated to providing users with more direct and high-quality answers, can be automatically retrieved and reasoned from a large body of knowledge.In 2011, IBM's Watson Q & A robot took part in the catch-and-answer variety show "Jeopardy!" and beat the top human contestants to win the championship, and the automated question answering system once again attracted the world's attention.To some extent, college entrance examination is the most important examination for most middle school students in China.The background of this paper is a question and answer system for geography questions of Chinese college entrance examination, and focuses on the solution of multiple choice questions.In the process of solving the automatic question and answer system of the college entrance examination, we are faced with many challenges different from the traditional question answering system: first, there are obvious differences between the question and answer form of the college entrance examination questions and the traditional automatic question answering system; secondly,The flexibility of college entrance examination questions is much higher than that of the traditional question answering system, which means that it is difficult for us to directly match and extract answers from ready-made texts.As the first step of automatic question answering, the function of question understanding is very important, which is also the focus of this paper.In this paper, the multiple choice questions and a complete sentence mosaic as the object of analysis.The understanding of the text can be divided into two types: one is the analysis of the text relationship between sentences, the other is the understanding of the semantic relationship within the sentence.Therefore, we study the understanding of geographical questions from two aspects: on the one hand, the classification of the relationship between clauses in the problem, and on the other hand, we try to use AMR(Abstract Meaning representation to analyze the deep semantic of the text of the test.In this paper, according to the characteristics of geographical multiple choice questions, the possible split of multiple choice questions by comma is put forward, and the long original sentence is converted into several simple sentences with semantic equivalence.Thus, the input of subsequent processing steps is simplified and the processing ability of subsequent steps is improved.In this work, we use a maximum entropy classifier and a rule-based heuristic method to split sentences in two steps: first, we identify whether the comma in the option can be used as a split point.The common prefix boundary of the clause or paratactic structure of a sentence is then recognized. AMR is a new semantic representation method with relatively strong expressive ability, which can express the semantics of a sentence with a single root, directed connected graph.More emphasis is placed on the abstract semantics of sentences than on concrete grammatical expressions.However, because the research around AMR is just beginning, there is still much room for improvement in the effect of AMR automatic analysis.The tagging corpus of Chinese AMR is small, so the research of applying AMR to Chinese is almost blank.The main work of this paper in AMR is to do some experimental analysis on existing AMR analysis algorithms, and verify the performance of AMR annotation system and automatic parsing algorithm in Chinese for the first time.For geography questions, we annotate a small sample of AMR corpus, and use existing algorithms to verify the processing ability of AMR on specific domain text.In order to support the research work of understanding the above two questions, we also construct a geographical question marking tool, and establish a high-quality geographical question corpus through this tool.In addition to tagging sentence segmentation and AMR, the tool supports tagging participle, part of speech, naming entities, geographical terms, question template representation, component syntax and other data.
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 倪盛儉;;文本蘊(yùn)涵研究現(xiàn)狀和發(fā)展趨勢[J];云南民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2013年04期
2 費(fèi)多益;;超文本:文本的解構(gòu)與重構(gòu)[J];哲學(xué)動(dòng)態(tài);2006年03期
3 李文;王煒立;;中文文本理解技術(shù)在法律案情文本分類中的應(yīng)用[J];南昌大學(xué)學(xué)報(bào)(工科版);2007年01期
4 姚天f ;程希文;徐飛玉;漢思·烏思克爾特;王睿;;文本意見挖掘綜述[J];中文信息學(xué)報(bào);2008年03期
5 麻志毅,林鴻飛,姚天順,馬佳琳;基于情境的文本中的時(shí)間信息分析[J];東北大學(xué)學(xué)報(bào);1999年03期
6 麻志毅;姚天順;;基于情境的文本理解[J];計(jì)算機(jī)科學(xué);1998年03期
7 熊小梅;劉永浪;;基于LSA的二次降維法在中文法律案情文本分類中的應(yīng)用[J];電子測量技術(shù);2007年10期
8 趙軍;劉康;周光有;蔡黎;;開放式文本信息抽取[J];中文信息學(xué)報(bào);2011年06期
9 石晶;李萬龍;;三種主題分割方法的對比研究[J];計(jì)算機(jī)工程與應(yīng)用;2009年18期
10 楊博;蔡?hào)|風(fēng);楊華;;開放式信息抽取研究進(jìn)展[J];中文信息學(xué)報(bào);2014年04期
相關(guān)會(huì)議論文 前3條
1 周險(xiǎn)峰;;文本理解的張力:中國古代儒家教育智慧的解釋學(xué)視角[A];紀(jì)念《教育史研究》創(chuàng)刊二十周年論文集(2)——中國教育思想史與人物研究[C];2009年
2 易綿竹;南振興;李紹哲;薛恩奎;;文本生成與理解的語言學(xué)模擬——伊戈?duì)枴っ防锴鹂恕兑馑??)文本》模型評介[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集[C];2003年
3 周昭濤;卜東波;程學(xué)旗;;文本的圖表示初探[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2004年
相關(guān)重要報(bào)紙文章 前2條
1 如東縣馬塘鎮(zhèn)邱升中學(xué) 邱亞琴;教師研讀文本[N];學(xué)知報(bào);2011年
2 劉玲;批判之后,還剩下什么?[N];文學(xué)報(bào);2011年
相關(guān)博士學(xué)位論文 前2條
1 周險(xiǎn)峰;教育文本理解論[D];華東師范大學(xué);2006年
2 方寧;基于認(rèn)知的文本語境生成和度量研究[D];上海大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 余懿;崇禎本《金瓶梅》的插圖研究[D];華中師范大學(xué);2016年
2 劉懿;從文本到圖像[D];重慶大學(xué);2016年
3 俞文琳;對小學(xué)語文教材的詮釋學(xué)之教育引論[D];福建師范大學(xué);2016年
4 湯蓮瑞;面向高考問答的地理試題文本分析和標(biāo)注研究[D];南京大學(xué);2017年
5 張?zhí)煊?理解與文本[D];蘇州大學(xué);2003年
6 李曉燕;文學(xué)文本理解中讀者的主觀性[D];福建師范大學(xué);2004年
7 杜云階;基于應(yīng)急知識(shí)模型的文本知識(shí)獲取研究[D];大連理工大學(xué);2009年
8 馬天;俄語新聞標(biāo)題文本的認(rèn)知解析[D];黑龍江大學(xué);2013年
9 趙璞;在詞匯層面上加強(qiáng)中國英語學(xué)習(xí)者的文化意識(shí)與文本理解的實(shí)證研究[D];貴州大學(xué);2006年
10 王艷琴;閱讀教學(xué)中的文本理解及其內(nèi)在邏輯[D];首都師范大學(xué);2014年
,本文編號(hào):1753595
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1753595.html