基于分布表示的跨語言跨任務(wù)自然語言分析
本文選題:自然語言處理 + 多語言。 參考:《哈爾濱工業(yè)大學(xué)》2017年博士論文
【摘要】:特征表示是統(tǒng)計機(jī)器學(xué)習(xí)的基礎(chǔ)工作,也是影響機(jī)器學(xué)習(xí)系統(tǒng)性能的關(guān)鍵因素之一。在基于統(tǒng)計的自然語言處理研究中,最常見的特征表示是離散形式的符號表示,比如對于詞的獨(dú)熱表示(One-Hot)以及對于文檔的詞袋表示(Bag-of-Words)等。這種表示方式直觀簡潔,易于計算,結(jié)合特征工程以及傳統(tǒng)機(jī)器學(xué)習(xí)算法(如最大熵、支持向量機(jī)、條件隨機(jī)場等),可以有效地應(yīng)用于大部分自然語言處理的主流任務(wù)。另一種重要的特征表示機(jī)制稱為分布表示,通常為連續(xù)、稠密、低維的向量表示,比如早期的潛在語義分析(Latent Semantic Analysis)以及近年來應(yīng)用甚廣的“特征嵌入”(Feature Embedding)方法等。近年來,特征的分布表示被廣泛應(yīng)用在基于深度學(xué)習(xí)的自然語言處理模型中。與符號表示相比,分布表示可以更自然地與學(xué)習(xí)能力較強(qiáng)的深度神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,并通過逐層抽象的表示學(xué)習(xí)來獲得更適用于具體任務(wù)的高層語義表示。這也是填補(bǔ)自然語言處理語義鴻溝的一種有效手段。更重要的,分布表示提供了一種通用的語義表示空間,為不同任務(wù)、不同語言、不同模態(tài)數(shù)據(jù)之間的信息交互構(gòu)建了一座橋梁。這種語義表示上的通用性使得多源訓(xùn)練信息能夠相互融合,進(jìn)而起到知識遷移的作用。比如,從無標(biāo)注的生文本中訓(xùn)練神經(jīng)網(wǎng)絡(luò)語言模型而得到的詞匯分布表示,被證明能夠有效地提升大多數(shù)自然語言處理主流任務(wù)的性能。本文正是利用分布表示的這些特點(diǎn),尤其針對其在語義表示上的通用性,研究了分布表示在跨語言、跨數(shù)據(jù)類型以及跨任務(wù)知識遷移中的關(guān)鍵技術(shù)。主要包含以下幾個方面:1.基于雙語數(shù)據(jù)的詞義分布表示學(xué)習(xí)。針對前人提出的詞匯分布表示無法刻畫一詞多義現(xiàn)象的問題,本文提出利用雙語數(shù)據(jù)中所蘊(yùn)含的詞義對齊信息來學(xué)習(xí)詞義級的分布表示。一方面能夠更完整地刻畫詞義信息,另一方面可以結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)對單語數(shù)據(jù)進(jìn)行詞義消歧,進(jìn)而服務(wù)于上層應(yīng)用。2.基于分布表示的跨語言依存句法分析。對于世界上絕大多數(shù)自然語言,句法標(biāo)注資源難以獲取,且人工標(biāo)注代價較高。因此,本文提出多語言分布表示學(xué)習(xí)的方法,將不同語言的詞語表示在一個相同的向量空間之內(nèi),構(gòu)成了句法知識在不同語言之間進(jìn)行遷移的一座橋梁。進(jìn)而利用資源豐富語言(如英語)的句法資源,來對資源稀缺語言進(jìn)行依存句法分析。3.基于深度多任務(wù)學(xué)習(xí)的多類型樹庫遷移學(xué)習(xí)。對于句法分析而言,現(xiàn)有的依存樹庫多種多樣,或來自不同語言、或采用不同的標(biāo)注規(guī)范。本文提出基于多層次分布表示共享的深度多任務(wù)學(xué)習(xí)結(jié)構(gòu),能夠有效地從不同類型的源句法樹庫(不同語言、不同標(biāo)規(guī)范)中進(jìn)行知識萃取,從而提升句法模型在目標(biāo)樹庫上的分析精度。4.面向語義角色標(biāo)注與關(guān)系分類的統(tǒng)一框架。不同任務(wù)之間往往存在一定的共性,比如語義角色標(biāo)注與(實(shí)體)關(guān)系分類,它們都涉及對句子中的語義關(guān)系進(jìn)行分析。本文提出一個統(tǒng)一的深度神經(jīng)網(wǎng)絡(luò)模型,將語義角色標(biāo)注與(實(shí)體)關(guān)系分類任務(wù)進(jìn)行融合,并采用深度多任務(wù)學(xué)習(xí)來提升目標(biāo)任務(wù)上的性能?偟膩碚f,本論文利用分布表示在語義表示上的通用性,深入地研究了其在跨語言、跨任務(wù)與跨數(shù)據(jù)類型學(xué)習(xí)上的應(yīng)用,在詞匯、句法、語義層面上顯著地提升了不同任務(wù)的性能。我們期待這些研究成果可以進(jìn)一步延展至更多類型的數(shù)據(jù)以及任務(wù),甚至應(yīng)用于跨領(lǐng)域分析,以進(jìn)一步推動自然語言處理領(lǐng)域的發(fā)展。
[Abstract]:Feature representation is the basic work of statistical machine learning and one of the key factors affecting the performance of machine learning systems. In statistical based Natural Language Processing research, the most common features are symbolic representations of discrete forms, such as the single heat representation of words (One-Hot) and the word bag representation (Bag-of-Words) for a document (Bag-of-Words). This representation is intuitive and simple, easy to calculate, combined with feature engineering and traditional machine learning algorithms (such as maximum entropy, support vector machines, conditional random fields, etc.), which can be effectively applied to most of the mainstream tasks of Natural Language Processing. Another important feature representation mechanism is called distribution representation, usually continuous, dense and low dimensional. In recent years, the distribution representation of features has been widely used in the Natural Language Processing model based on depth learning. Compared with the symbolic representation, the distribution representation can be more natural than the symbolic representation, such as the early potential semantic analysis (Latent Semantic Analysis) and the most widely used "Feature Embedding" method in recent years. It is also an effective means to fill the Natural Language Processing semantic gap. More importantly, distributed representation provides a general semantic representation space for different tasks, In different languages, the information interaction between different modal data builds a bridge. The generality of this semantic representation enables multi source training information to integrate with each other, and thus plays the role of knowledge migration. For example, the expression of the vocabulary distribution obtained from the training of neural network models from annotated raw text is proved to be possible. The performance of most Natural Language Processing mainstream tasks is effectively enhanced. This article is using these characteristics of distribution representation, especially for the generality of semantic representation, to study the key technologies of distribution representation in cross language, cross data types and cross task knowledge migration. The main aspects are as follows: 1. based on bilingual data In this paper, we propose to use the word meaning aligned information contained in the bilingual data to learn the distribution of word meaning level. On the one hand, it can describe the word meaning information more completely, and on the other hand, it can combine the recurrent neural network to the single word. Language data disambiguate, and then serve the cross language dependency syntactic analysis based on the distribution representation of.2.. For the vast majority of the natural languages in the world, the syntactic annotation resources are difficult to obtain, and the cost of manual annotation is high. Therefore, this paper presents a method of multilingual distribution to express learning in different languages. Within the same vector space, it forms a bridge between the transfer of syntactic knowledge between different languages, and then uses the syntactic resources of rich language (such as English) to carry out dependency parsing on the resource scarce language (.3.) based on the multi class tree base migration learning based on deep multitask learning. The dependency tree library is varied, or from different languages, or with different annotation specifications. This paper proposes a deep multitask learning structure based on multilevel distribution for sharing, which can effectively extract knowledge from different types of source syntax tree libraries (different languages, different standard specifications), and thus improve the syntactic model in the target Tree Library. The analysis precision.4. is oriented to the unified framework of semantic role tagging and relation classification. There are often some commonalities between different tasks, such as semantic role tagging and (entity) relation classification. They all involve the analysis of semantic relations in sentences. Entity relationship classification tasks are fused, and deep multitask learning is used to improve the performance of the target task. In general, this paper makes use of the generality of the distribution representation in semantic representation, and deeply studies its application in cross language, cross task and cross data type learning, which is significantly raised on the lexical, syntactical and semantic level. The performance of different tasks is promoted. We expect that these research results can be further extended to more types of data and tasks, and even applied to cross domain analysis to further promote the development of the Natural Language Processing field.
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊壽勛;《統(tǒng)計自然語言處理基礎(chǔ)》評介[J];外語教學(xué)與研究;2001年04期
2 ;《統(tǒng)計自然語言處理基礎(chǔ)》[J];中文信息學(xué)報;2005年03期
3 徐繼偉;;自然語言處理技術(shù)在生物信息學(xué)中的應(yīng)用(英文)[J];生物信息學(xué);2006年01期
4 王挺;麥范金;劉忠;;自然語言處理及其應(yīng)用前景的研究[J];桂林航天工業(yè)高等?茖W(xué)校學(xué)報;2006年04期
5 ;第二屆全國少數(shù)民族青年自然語言處理學(xué)術(shù)研討會召開[J];模式識別與人工智能;2008年05期
6 高精揓;蕭國政;姬東鴻;;手持嵌入式系統(tǒng)應(yīng)用中的自然語言處理關(guān)鍵技術(shù)[J];長江學(xué)術(shù);2009年02期
7 馮志偉;;自然語言處理中的一些宏觀問題之我見[J];中國外語;2009年05期
8 曹佩;;論自然語言處理[J];信息與電腦(理論版);2010年05期
9 邵澤國;;語言科學(xué)發(fā)展的新分支——自然語言處理[J];電子科技;2013年05期
10 李霞;;面向本科階段開設(shè)的“自然語言處理”課程教學(xué)研究[J];福建電腦;2013年07期
相關(guān)會議論文 前10條
1 馬穎華;蘇貴洋;;基于概念的自然語言處理[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年
2 李生;;哈工大自然語言處理研究進(jìn)展[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
3 ;哈爾濱工業(yè)大學(xué)智能技術(shù)與自然語言處理研究室簡介[A];中國中文信息學(xué)會第六次全國會員代表大會暨成立二十五周年學(xué)術(shù)會議中文信息處理重大成果匯報展資料匯編[C];2006年
4 馮志偉;;自然語言處理中的理性主義和經(jīng)驗(yàn)主義[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
5 宋柔;;自然語言處理中語言知識的基礎(chǔ)性地位[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
6 李文;程華良;彭耀;溫明杰;肖威清;張陳斌;陳宗海;;自然語言處理云平臺[A];系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)論文集(第15卷)[C];2014年
7 徐超;畢玉德;;面向自然語言處理的韓國語隱喻知識庫構(gòu)建研究[A];中國計算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
8 周國棟;孔芳;朱巧明;;指代消解:國內(nèi)外研究現(xiàn)狀及趨勢[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
9 ;SWCL-2006組織機(jī)構(gòu)[A];第三屆學(xué)生計算語言學(xué)研討會論文集[C];2006年
10 張sソ,
本文編號:1895209
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/1895209.html