一種基于細(xì)粒度文本分析的可控文本生成模型框架
發(fā)布時(shí)間:2020-12-11 05:29
自然語(yǔ)言處理中很多任務(wù)都可以被看作是序列標(biāo)注(Sequence labeling,SL)問(wèn)題而得以有效地處理,F(xiàn)有研究大多將這些任務(wù)作為獨(dú)立的序列標(biāo)注問(wèn)題來(lái)解決,或者以多個(gè)輔助任務(wù)實(shí)現(xiàn)對(duì)某個(gè)特定目標(biāo)任務(wù)的性能提高,這些研究忽略了自然語(yǔ)言處理中多個(gè)任務(wù)之間可能存在的潛在關(guān)系和影響。為此,本文提出了一種基于自注意力機(jī)制的聯(lián)合序列標(biāo)注框架模型(self-attention based joint sequence model,SA-JSL),該模型可充分利用多個(gè)序列標(biāo)注任務(wù)之間的可能存在的相互作用和影響,從而實(shí)現(xiàn)同時(shí)促進(jìn)和提高各個(gè)序列標(biāo)注任務(wù)性能。具體來(lái)說(shuō),該框架模型通過(guò)將自注意力機(jī)制和聯(lián)合標(biāo)簽機(jī)制融合,將多個(gè)序列任務(wù)轉(zhuǎn)換為一個(gè)統(tǒng)一的序列標(biāo)注任務(wù)來(lái)處理,有效地利用率這些任務(wù)之間可能存在的潛在關(guān)系,從而實(shí)現(xiàn)多個(gè)任務(wù)相互促進(jìn)和提高。該聯(lián)合模型與自注意力機(jī)制相結(jié)合,獲取更加豐富的上下文信息,從而提高模型的性能。為了驗(yàn)證模型的有效性,在七個(gè)常見(jiàn)的公開(kāi)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),所提聯(lián)合學(xué)習(xí)模型分別在中文分詞(Chinese Word Segmentation,CWS)和詞性(Part-of-Speec...
【文章來(lái)源】:中原工學(xué)院河南省
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
整體框架
11圖2.1軟注意力機(jī)制工作原理(2)自注意力機(jī)制之前提到軟注意力機(jī)制需要輸入序列和輸出序列是等長(zhǎng)的,而在文本生成中,輸入和輸出是不等長(zhǎng)的,前面的軟注意力機(jī)制是作用在輸入與輸出文本之間,自注意力機(jī)制[43]是用多頭(Multi-head)注意力機(jī)制代替了RNN搭建了整個(gè)模型框架,它記錄了文本生成中機(jī)器翻譯任務(wù)的性能改進(jìn)。在編碼器和解碼器中大量的使用了多頭自注意力機(jī)制,這樣自注意力機(jī)制就作用于輸入序列內(nèi)部,或者作用于輸出序列內(nèi)部,這種做法就可以捕獲到同一個(gè)句子或者段落里間隔較遠(yuǎn)的單詞之間的聯(lián)系。所以自注意力機(jī)制可以建立序列內(nèi)部的長(zhǎng)距離依賴(lài)關(guān)系。圖2.2中的Q,K,V分別為Query,Key,Value,這三者經(jīng)過(guò)線(xiàn)性變換后進(jìn)入多頭注意力機(jī)制中,每個(gè)多頭注意力機(jī)制是一個(gè)放縮點(diǎn)積注意力機(jī)制,要進(jìn)行多次,這就成為了多頭注意力機(jī)制,那么里面的每個(gè)詞都要和該句子中的所有詞進(jìn)行注意力計(jì)算。目的是學(xué)習(xí)句子內(nèi)部的詞依賴(lài)關(guān)系,捕獲句子的內(nèi)部結(jié)構(gòu)。
12圖2.2多頭注意力機(jī)制結(jié)構(gòu)圖通過(guò)對(duì)各種注意力機(jī)制的優(yōu)缺點(diǎn)分析,在本文中選取了自注意力機(jī)制進(jìn)一步提取文本的特征,本文中選取的自注意力機(jī)制是Multi-headattention(多頭注意力機(jī)制),可以多角度,多層次的獲取文本自身的特征,該注意力機(jī)制的結(jié)構(gòu)是Transformer的多頭注意力機(jī)制有助于序列標(biāo)注任務(wù)的識(shí)別。2.1.3中文分詞中文相較于英文有其自己的獨(dú)特性和特殊性,英文里的是通過(guò)空格來(lái)將詞與詞之間分割開(kāi)的,而在中文里卻不能這樣識(shí)別,中文里的字符都是整體連續(xù)的。中文分詞[44]的定義是將完整的文本通過(guò)語(yǔ)意劃分為獨(dú)立的詞。這個(gè)處理的過(guò)程就叫做分詞。中文較于英文,結(jié)構(gòu)更復(fù)雜,語(yǔ)義更豐富,所以在分詞這方面會(huì)更困難。盡管在做任務(wù)時(shí)也可以不需要分詞,可以基于字符去做下游任務(wù),然而這樣就無(wú)法獲取更多的語(yǔ)義信息,字所表達(dá)的信息是很有限的,很多上下文信息都無(wú)法準(zhǔn)確的體現(xiàn)出來(lái),而詞所給信息則會(huì)給的更加詳細(xì),能夠更加客觀地描述某個(gè)事物或者某種情感。2.1.4中文命名實(shí)體識(shí)別命名實(shí)體識(shí)別(NamedEntityRecognition,NER)是指識(shí)別出非結(jié)構(gòu)化文本中出現(xiàn)的包括人
本文編號(hào):2909981
【文章來(lái)源】:中原工學(xué)院河南省
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
整體框架
11圖2.1軟注意力機(jī)制工作原理(2)自注意力機(jī)制之前提到軟注意力機(jī)制需要輸入序列和輸出序列是等長(zhǎng)的,而在文本生成中,輸入和輸出是不等長(zhǎng)的,前面的軟注意力機(jī)制是作用在輸入與輸出文本之間,自注意力機(jī)制[43]是用多頭(Multi-head)注意力機(jī)制代替了RNN搭建了整個(gè)模型框架,它記錄了文本生成中機(jī)器翻譯任務(wù)的性能改進(jìn)。在編碼器和解碼器中大量的使用了多頭自注意力機(jī)制,這樣自注意力機(jī)制就作用于輸入序列內(nèi)部,或者作用于輸出序列內(nèi)部,這種做法就可以捕獲到同一個(gè)句子或者段落里間隔較遠(yuǎn)的單詞之間的聯(lián)系。所以自注意力機(jī)制可以建立序列內(nèi)部的長(zhǎng)距離依賴(lài)關(guān)系。圖2.2中的Q,K,V分別為Query,Key,Value,這三者經(jīng)過(guò)線(xiàn)性變換后進(jìn)入多頭注意力機(jī)制中,每個(gè)多頭注意力機(jī)制是一個(gè)放縮點(diǎn)積注意力機(jī)制,要進(jìn)行多次,這就成為了多頭注意力機(jī)制,那么里面的每個(gè)詞都要和該句子中的所有詞進(jìn)行注意力計(jì)算。目的是學(xué)習(xí)句子內(nèi)部的詞依賴(lài)關(guān)系,捕獲句子的內(nèi)部結(jié)構(gòu)。
12圖2.2多頭注意力機(jī)制結(jié)構(gòu)圖通過(guò)對(duì)各種注意力機(jī)制的優(yōu)缺點(diǎn)分析,在本文中選取了自注意力機(jī)制進(jìn)一步提取文本的特征,本文中選取的自注意力機(jī)制是Multi-headattention(多頭注意力機(jī)制),可以多角度,多層次的獲取文本自身的特征,該注意力機(jī)制的結(jié)構(gòu)是Transformer的多頭注意力機(jī)制有助于序列標(biāo)注任務(wù)的識(shí)別。2.1.3中文分詞中文相較于英文有其自己的獨(dú)特性和特殊性,英文里的是通過(guò)空格來(lái)將詞與詞之間分割開(kāi)的,而在中文里卻不能這樣識(shí)別,中文里的字符都是整體連續(xù)的。中文分詞[44]的定義是將完整的文本通過(guò)語(yǔ)意劃分為獨(dú)立的詞。這個(gè)處理的過(guò)程就叫做分詞。中文較于英文,結(jié)構(gòu)更復(fù)雜,語(yǔ)義更豐富,所以在分詞這方面會(huì)更困難。盡管在做任務(wù)時(shí)也可以不需要分詞,可以基于字符去做下游任務(wù),然而這樣就無(wú)法獲取更多的語(yǔ)義信息,字所表達(dá)的信息是很有限的,很多上下文信息都無(wú)法準(zhǔn)確的體現(xiàn)出來(lái),而詞所給信息則會(huì)給的更加詳細(xì),能夠更加客觀地描述某個(gè)事物或者某種情感。2.1.4中文命名實(shí)體識(shí)別命名實(shí)體識(shí)別(NamedEntityRecognition,NER)是指識(shí)別出非結(jié)構(gòu)化文本中出現(xiàn)的包括人
本文編號(hào):2909981
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/2909981.html
最近更新
教材專(zhuān)著