基于神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言語(yǔ)義表達(dá)及推理方法研究
本文選題:認(rèn)知智能 切入點(diǎn):自然語(yǔ)言理解 出處:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年博士論文 論文類型:學(xué)位論文
【摘要】:認(rèn)知智能旨在實(shí)現(xiàn)機(jī)器具備像人一樣的理解、聯(lián)想、推理等能力,是人工智能的重要領(lǐng)域。自然語(yǔ)言語(yǔ)義表達(dá)與常識(shí)推理是認(rèn)知智能研究的關(guān)鍵任務(wù)。自然語(yǔ)言語(yǔ)義表達(dá)指的是將自然語(yǔ)言轉(zhuǎn)換成機(jī)器可以處理的語(yǔ)義表征形式,是實(shí)現(xiàn)自然語(yǔ)言理解的基礎(chǔ),F(xiàn)階段的語(yǔ)義表達(dá)方法主要基于統(tǒng)計(jì)分布假設(shè),利用海量文本與統(tǒng)計(jì)建模,將自然語(yǔ)言中的語(yǔ)義信息表征為高維稀疏或低維稠密的向量形式。如何提高語(yǔ)義表征向量的精度仍然是當(dāng)前語(yǔ)義表達(dá)研究的關(guān)鍵問(wèn)題。常識(shí)推理關(guān)注機(jī)器對(duì)常識(shí)知識(shí)的運(yùn)用以及推理能力,F(xiàn)階段的常識(shí)推理方法仍以馬爾科夫邏輯網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)等傳統(tǒng)概率邏輯推理方法為代表。這些方法往往存在模型結(jié)構(gòu)復(fù)雜、先驗(yàn)信息依賴性強(qiáng)、效率低、擴(kuò)展性差等問(wèn)題。本文圍繞基于神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言語(yǔ)義表達(dá)及推理方法,在詞語(yǔ)語(yǔ)義表達(dá)、面向常識(shí)推理的神經(jīng)網(wǎng)絡(luò)模型、常識(shí)知識(shí)庫(kù)構(gòu)建方法和自然語(yǔ)言推理系統(tǒng)等方面開(kāi)展研究工作,具體包括:首先,研究了融合多源信息與神經(jīng)網(wǎng)絡(luò)建模的詞語(yǔ)語(yǔ)義表達(dá)方法,F(xiàn)有詞語(yǔ)語(yǔ)義表達(dá)方法單一依賴基于海量文本的統(tǒng)計(jì)分布假設(shè),受文本噪聲和歧義等影響,語(yǔ)義表達(dá)的精度不夠理想。因此本文提出了融合海量文本與詞匯語(yǔ)義知識(shí)的語(yǔ)義詞向量構(gòu)建方法和詞性信息監(jiān)督下的詞性增強(qiáng)詞向量方法,通過(guò)在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中合理利用語(yǔ)義知識(shí)庫(kù)、詞性序列等多源信息,提高了單詞語(yǔ)義表達(dá)精度,取得了多個(gè)自然語(yǔ)言理解任務(wù)上的性能提升。其次,研究了面向常識(shí)推理的神經(jīng)網(wǎng)絡(luò)建模方法。針對(duì)傳統(tǒng)推理方法中存在的事件表達(dá)稀疏性與推廣性問(wèn)題,本文將連續(xù)語(yǔ)義空間表達(dá)引入常識(shí)推理,提出了神經(jīng)聯(lián)想模型。該模型將大量自然事件映射到連續(xù)語(yǔ)義空間中,利用深層人工神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)事件間聯(lián)想關(guān)系的統(tǒng)一建模,最終完成基于事件聯(lián)想的常識(shí)推理。在多個(gè)自然語(yǔ)言理解及推理任務(wù)上的實(shí)驗(yàn)結(jié)果表明,神經(jīng)聯(lián)想模型取得了優(yōu)于現(xiàn)有模型的性能,并且具有良好的知識(shí)遷移學(xué)習(xí)能力。再次,研究了基于海量文本的常識(shí)知識(shí)庫(kù)自動(dòng)構(gòu)建方法。針對(duì)常識(shí)知識(shí)庫(kù)稀缺且人工構(gòu)建代價(jià)高的問(wèn)題,本文提出了基于海量文本的因果知識(shí)獲取方法。該方法首先定義常用詞語(yǔ)詞典用于約束常識(shí)知識(shí)庫(kù)的構(gòu)建空間,然后在海量文本上進(jìn)行核心句抽取與自動(dòng)分析操作,最終得到大量具有因果關(guān)系的短語(yǔ)對(duì)作為常識(shí)知識(shí)庫(kù);谝陨戏椒,本文完成了包含五十余萬(wàn)條因果短語(yǔ)對(duì)的常識(shí)知識(shí)庫(kù)的構(gòu)建,為后續(xù)的自然語(yǔ)言推理系統(tǒng)構(gòu)建提供了數(shù)據(jù)支撐。最后,設(shè)計(jì)實(shí)現(xiàn)了面向認(rèn)知智能評(píng)測(cè)的自然語(yǔ)言推理系統(tǒng)。在上述語(yǔ)義表達(dá)、常識(shí)推理模型、常識(shí)知識(shí)庫(kù)構(gòu)建等研究工作的基礎(chǔ)上,構(gòu)建了面向Winograd Schema Challenge(WSC)評(píng)測(cè)任務(wù)的自然語(yǔ)言推理系統(tǒng)。針對(duì)常識(shí)推理子任務(wù),設(shè)計(jì)實(shí)現(xiàn)了基于常識(shí)知識(shí)庫(kù)和神經(jīng)聯(lián)想模型的因果推理系統(tǒng),首次完成了 WSC因果子集上的自動(dòng)常識(shí)推理;針對(duì)指代消解子任務(wù),提出了基于知識(shí)增強(qiáng)語(yǔ)義模型的推理方法,采用語(yǔ)義詞向量技術(shù)將常識(shí)知識(shí)融入詞向量構(gòu)建過(guò)程,實(shí)現(xiàn)了缺少任務(wù)相關(guān)訓(xùn)練數(shù)據(jù)情況下無(wú)監(jiān)督的語(yǔ)義特征提取與推理,使用該方法構(gòu)建的系統(tǒng)在2016年的WSC評(píng)測(cè)中取得了最優(yōu)的性能表現(xiàn)。
[Abstract]:Cognitive intelligence aims to realize the machine with human like Lenovo, understanding, reasoning ability, is an important field of artificial intelligence. The natural language semantic expression and commonsense reasoning is the key task of cognitive intelligence research. Natural language semantic expression refers to the semantic representation of natural language processing can be converted into machine, is based on natural language understanding. At this stage the main semantic expression method based on the assumption of statistical distribution, and use the massive statistical modeling, the semantic information representation in natural language for high dimensional sparse or dense low dimensional vector form. How to improve the accuracy of semantic representation of vector semantic expression is still the key problems in the research. The use of common sense reasoning pay attention to machine to commonsense knowledge and reasoning ability. Knowledge reasoning method is using Markov logic network, traditional probabilistic network Bias The method of logical reasoning as a representative. These methods are complex model structure, a priori information dependence, low efficiency, poor scalability problems. This paper focuses on natural language semantic expression and reasoning method based on neural network, the expression in terms of semantics, a neural network model for commonsense reasoning, common sense knowledge base construction method and natural language the reasoning system and other aspects of the research work, including: first, the research on semantic integration of multi-source information and neural network modeling method. The expression of existing semantic expression method of statistical dependence on a single massive text distribution based on the assumption by the text noise and ambiguity, semantic expression accuracy is not ideal. So this paper presents a fusion mass the text semantic and lexical knowledge semantic vector construction method and part of speech information under the supervision of the part of speech enhancement method in word vector, by God The rational use of the semantic knowledge base of network training process, part of speech sequences of multi-source data, improve the accuracy of word semantic expression, made a number of natural language understanding and improve the performance of the task. Secondly, study the neural network modeling method for knowledge reasoning. In view of the existing traditional reasoning method in sparse representation and generalization of events in this problem, continuous semantic space expression into commonsense reasoning, proposes a neural associative model. This model will be a large number of natural events are mapped to continuous semantic space, realize the unified modeling association event between the use of deep artificial neural network, the final completion of the event. Based on commonsense reasoning Lenovo in a number of natural language understanding and reasoning the task of experimental results show that the neural associative model has made the performance of the existing model is superior, and has good learning ability of knowledge transfer again, Study on the automatic method to construct a common knowledge base based on the massive text. According to the common knowledge base of scarce and artificial construction costs, this paper proposes a method for massive text based on causal knowledge. This method firstly defines common word dictionary for construction of space constraints common knowledge base, and then in the massive text on core sentence extraction and automatic analysis of operation, finally obtained with a large number of causal phrases for commonsense knowledge base. Based on the above method, this paper completed the construction of the 50 million causal phrase common knowledge base contains, provides data support for the subsequent construction of natural language reasoning system. Finally, the design and implementation of natural language reasoning system for cognitive intelligence the evaluation. In the above expression semantics, general knowledge reasoning model, knowledge base construction of knowledge base and research work on the construction of the surface to Win Ograd Schema Challenge (WSC) natural language inference system evaluation task. For commonsense reasoning task, the design and implementation of causal reasoning system common knowledge base and neural associative model based on the completion of the first WSC for automatic commonsense reasoning on the set of fruit; to refer to the digestion of sub tasks, and puts forward a knowledge enhancement method of semantic reasoning based on the model, using the semantic vector technology will build into the process of word vector commonsense knowledge, the lack of semantic feature extraction and reasoning tasks related to unsupervised training data under the condition of the construction of the system, using the method of performance achieved optimal performance evaluation in WSC in 2016.
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.1;TP18
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王金夫;自然語(yǔ)言檢索的語(yǔ)言邏輯論析[J];圖書情報(bào)工作;2004年08期
2 譚俊明;;自然語(yǔ)言的理解綜述[J];科技廣場(chǎng);2008年05期
3 何祖軍;胡靜;;自然語(yǔ)言的規(guī)范與轉(zhuǎn)化——基于嵌入式系統(tǒng)的描述[J];計(jì)算機(jī)與現(xiàn)代化;2008年11期
4 劉海濤;關(guān)于自然語(yǔ)言計(jì)算機(jī)處理的幾點(diǎn)思考[J];術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù);2001年01期
5 劉三滿,劉荷花;論計(jì)算機(jī)處理自然語(yǔ)言的新趨向[J];科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì);2002年04期
6 胡廣朋;用于計(jì)算機(jī)輔助教學(xué)的自然語(yǔ)言接口[J];微計(jì)算機(jī)應(yīng)用;2003年05期
7 張世紅;胡佳佳;宋繼華;劉會(huì)霞;琚文勝;;網(wǎng)絡(luò)環(huán)境下的自然語(yǔ)言檢索[J];醫(yī)學(xué)情報(bào)工作;2005年06期
8 胡廣朋;錢遙立;沈繼峰;;一種應(yīng)用規(guī)劃識(shí)別建立自然語(yǔ)言接口的方法[J];江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年03期
9 杜津;楊一平;曾雋芳;;自然語(yǔ)言時(shí)間信息的模擬與計(jì)算[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年13期
10 張雪英;閭國(guó)年;宦建;;面向漢語(yǔ)的自然語(yǔ)言路徑描述方法[J];地球信息科學(xué);2008年06期
相關(guān)會(huì)議論文 前7條
1 胡健;黃麗華;劉杰;;基于自然語(yǔ)言的智能決策支持系統(tǒng)人機(jī)接口[A];管理科學(xué)與系統(tǒng)科學(xué)進(jìn)展——全國(guó)青年管理科學(xué)與系統(tǒng)科學(xué)論文集(第4卷)[C];1997年
2 盛新華;柳勁;;自然語(yǔ)言否定的語(yǔ)用功能與交際策略[A];改革開(kāi)放以來(lái)邏輯的歷程——中國(guó)邏輯學(xué)會(huì)成立30周年紀(jì)念文集(上卷)[C];2009年
3 李靈輝;林爾正;林玉婷;林丹紅;;基于自然語(yǔ)言檢索的中醫(yī)中風(fēng)康復(fù)古代文獻(xiàn)數(shù)據(jù)庫(kù)構(gòu)建[A];福建省圖書館學(xué)會(huì)2011年學(xué)術(shù)年會(huì)論文集[C];2011年
4 谷明哲;孟小峰;周勇;;中文自然語(yǔ)言查詢界面NChiql的Java設(shè)計(jì)實(shí)現(xiàn)[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
5 周勇;孟小峰;劉爽;王珊;;數(shù)據(jù)庫(kù)自然語(yǔ)言查詢系統(tǒng)NChiql中語(yǔ)義依存樹向SQL的轉(zhuǎn)換[A];第十六屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1999年
6 萬(wàn)繼華;;基于哲學(xué)本體論的真值演算系統(tǒng)——實(shí)現(xiàn)計(jì)算機(jī)理解自然語(yǔ)言的邏輯方法[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國(guó)邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年
7 才讓加;吉太加;;藏語(yǔ)語(yǔ)料庫(kù)中詞性分類代碼的確定[A];中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年
相關(guān)博士學(xué)位論文 前6條
1 田飛;用于自然語(yǔ)言分布式表達(dá)的聯(lián)合學(xué)習(xí)方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年
2 于墨;自然語(yǔ)言句子級(jí)結(jié)構(gòu)表示的建模與學(xué)習(xí)[D];哈爾濱工業(yè)大學(xué);2016年
3 劉權(quán);基于神經(jīng)網(wǎng)絡(luò)的自然語(yǔ)言語(yǔ)義表達(dá)及推理方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2017年
4 李虎;基于本體和規(guī)則的受控自然語(yǔ)言系統(tǒng)模型研究[D];華中科技大學(xué);2010年
5 孟小峰;中文數(shù)據(jù)庫(kù)自然語(yǔ)言查詢處理研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);1999年
6 朱少楠;面向地理場(chǎng)景的“文—圖—景”轉(zhuǎn)換方法研究[D];南京師范大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 石亞坤;自然語(yǔ)言的人類理解與機(jī)器“理解”對(duì)比研究[D];陜西師范大學(xué);2011年
2 劉曉;面向高德地圖的自然語(yǔ)言接口語(yǔ)義解析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];南京師范大學(xué);2015年
3 孫婷婷;漢語(yǔ)搭配獲取方法研究[D];江蘇科技大學(xué);2015年
4 徐娟;面向地圖搜索領(lǐng)域的自然語(yǔ)言句子g鏌逡饌祭斫夥椒ㄑ芯縖D];復(fù)旦大學(xué);2014年
5 楊瀟;基于隱寫編碼的自然語(yǔ)言信息隱藏技術(shù)研究[D];長(zhǎng)沙理工大學(xué);2015年
6 柳勁;自然語(yǔ)言否定的邏輯思考[D];湘潭大學(xué);2009年
7 裴君波;信息分發(fā)中自然語(yǔ)言訂閱接口的研究[D];北京郵電大學(xué);2015年
8 付勝博;基于自然語(yǔ)言的空間數(shù)據(jù)檢索研究[D];西北工業(yè)大學(xué);2007年
9 武睿峰;自然語(yǔ)言密寫分析及密寫量檢測(cè)[D];西北大學(xué);2014年
10 李霞;自然語(yǔ)言篇章中時(shí)間信息的研究及在產(chǎn)品設(shè)計(jì)領(lǐng)域中的應(yīng)用[D];西安電子科技大學(xué);2013年
,本文編號(hào):1560771
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1560771.html