面向中文分類的自抑制殘差網(wǎng)絡(luò)研究
發(fā)布時(shí)間:2021-02-07 13:37
隨著深度學(xué)習(xí)的在圖像領(lǐng)域和語(yǔ)音處理領(lǐng)域的廣泛應(yīng)用,卷積神經(jīng)網(wǎng)絡(luò)也已經(jīng)成為大多數(shù)自然語(yǔ)言處理任務(wù)的主流方法。文本分類作為自然語(yǔ)言處理一個(gè)非常有代表性的研究領(lǐng)域,是很多上層應(yīng)用的基礎(chǔ)。然而,目前應(yīng)用于這一場(chǎng)景的網(wǎng)絡(luò)模型層數(shù)通常比較淺,相比于圖像分類領(lǐng)域精心設(shè)計(jì)的深層網(wǎng)絡(luò)而言,這些淺層網(wǎng)絡(luò)無(wú)法捕捉到文本的層次化結(jié)構(gòu)信息。此外,傳統(tǒng)的文本表示以詞袋表示為主,這種表示對(duì)單詞之間的互信息缺乏準(zhǔn)確的度量。詞向量的提出一定程度上解決了這一問(wèn)題,利用無(wú)監(jiān)督學(xué)習(xí)得到單詞的向量表示,引入了單詞的共現(xiàn)信息。目前也有工作針對(duì)字符級(jí)別的文本表示提出自己方法,但這些模型對(duì)中文的預(yù)處理都非常粗糙,這個(gè)過(guò)程中損失了豐富的語(yǔ)義信息。探索了目前在文本分類領(lǐng)域的各種文本表達(dá)和各種深度學(xué)習(xí)網(wǎng)絡(luò)之后,針對(duì)中文短文本這一領(lǐng)域提出了自己的自抑制殘差網(wǎng)絡(luò)模型,對(duì)于此前許多工作中中文文本預(yù)處理過(guò)程過(guò)于粗糙導(dǎo)致信息丟失的問(wèn)題,該模型采用字跟詞聯(lián)合作為輸入數(shù)據(jù),充分利用了中文獨(dú)特的漢字信息。同時(shí),對(duì)于采用更深的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)獲取文本的層次化表達(dá)之后導(dǎo)致的網(wǎng)絡(luò)模型訓(xùn)練的難題,創(chuàng)新性的采用自抑制殘差卷積模塊取代之前的通用卷積模塊來(lái)提高網(wǎng)絡(luò)的綜合表現(xiàn)...
【文章來(lái)源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW模型(左)和skip-gram模型(右)
14圖 2.2 經(jīng)典的五層卷積神經(jīng)網(wǎng)絡(luò)上討論的是一個(gè)卷積核如何得到一個(gè)特征,但模型通常是采用眾多卷的窗口大小得到多種特征的,這些特征最后傳送到一個(gè)全連接層最后的概率分布。 2.2 是一個(gè)非常清晰形象的例子,對(duì)于一個(gè)輸入長(zhǎng)度為 7 的字符序列,符映射為維度為 5 的向量,整個(gè)文本就轉(zhuǎn)化為了一個(gè) 7*5 的矩陣,然同大小的卷積核去卷積輸入,大小分別為 2,3,4,每個(gè)卷積核數(shù)量為際實(shí)驗(yàn)中卷積核的數(shù)量遠(yuǎn)大于這個(gè),卷積得到的特征長(zhǎng)度分別為 6,5一個(gè)最大池化層得到特征序列中最顯著的特征,最后將它們分組拼接起 softmax 層就能得到最終的分類結(jié)果。
圖 2.4 卷積操作的細(xì)節(jié)對(duì)于文本中卷積操作,思想和圖像處理中的卷積一樣,每一個(gè)卷積核相當(dāng)于去學(xué)習(xí)圖像的的特征信息,例如邊,形狀,紋理等等,如果圖像的感受野內(nèi)出現(xiàn)了與卷積核匹配的特征,那么這一區(qū)域計(jì)算到的特征的取值會(huì)變的很大,從而獲取特征信息。唯一的區(qū)別在于圖像的卷積操作是多通道二維卷積,而文本是時(shí)序序列,采用的是一維卷積,即在文本書(shū)寫(xiě)方向上的卷積操作。以圖 2.4 為例詳細(xì)講解一個(gè)卷積核的卷積操作,綠色部分為圖像,黃色部分為卷積核的感受野,右邊粉色部分為學(xué)習(xí)到的特征,黃色部分右下角的數(shù)字即為卷積核,用于學(xué)習(xí)該圖片的哪一部分有該卷積核所檢測(cè)的特征,觀察上圖中的卷積核可以發(fā)現(xiàn)它為一個(gè) X 形的特征檢測(cè)器,去匹配圖像矩陣中哪個(gè)部位有類似的 X 形狀,顯然越像 X 的圖像部位得分越高,例如黃色視野內(nèi)的得分就比較高。同樣的,在文本處理中,每個(gè)卷積核也用于學(xué)習(xí)一種文本上隱藏的特征(比如去學(xué)習(xí)情感分類中“喜歡”這種文字特征),如果對(duì)應(yīng)感受野內(nèi)表達(dá)了類似的特征,這個(gè)特定卷積核操作之后的
本文編號(hào):3022305
【文章來(lái)源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CBOW模型(左)和skip-gram模型(右)
14圖 2.2 經(jīng)典的五層卷積神經(jīng)網(wǎng)絡(luò)上討論的是一個(gè)卷積核如何得到一個(gè)特征,但模型通常是采用眾多卷的窗口大小得到多種特征的,這些特征最后傳送到一個(gè)全連接層最后的概率分布。 2.2 是一個(gè)非常清晰形象的例子,對(duì)于一個(gè)輸入長(zhǎng)度為 7 的字符序列,符映射為維度為 5 的向量,整個(gè)文本就轉(zhuǎn)化為了一個(gè) 7*5 的矩陣,然同大小的卷積核去卷積輸入,大小分別為 2,3,4,每個(gè)卷積核數(shù)量為際實(shí)驗(yàn)中卷積核的數(shù)量遠(yuǎn)大于這個(gè),卷積得到的特征長(zhǎng)度分別為 6,5一個(gè)最大池化層得到特征序列中最顯著的特征,最后將它們分組拼接起 softmax 層就能得到最終的分類結(jié)果。
圖 2.4 卷積操作的細(xì)節(jié)對(duì)于文本中卷積操作,思想和圖像處理中的卷積一樣,每一個(gè)卷積核相當(dāng)于去學(xué)習(xí)圖像的的特征信息,例如邊,形狀,紋理等等,如果圖像的感受野內(nèi)出現(xiàn)了與卷積核匹配的特征,那么這一區(qū)域計(jì)算到的特征的取值會(huì)變的很大,從而獲取特征信息。唯一的區(qū)別在于圖像的卷積操作是多通道二維卷積,而文本是時(shí)序序列,采用的是一維卷積,即在文本書(shū)寫(xiě)方向上的卷積操作。以圖 2.4 為例詳細(xì)講解一個(gè)卷積核的卷積操作,綠色部分為圖像,黃色部分為卷積核的感受野,右邊粉色部分為學(xué)習(xí)到的特征,黃色部分右下角的數(shù)字即為卷積核,用于學(xué)習(xí)該圖片的哪一部分有該卷積核所檢測(cè)的特征,觀察上圖中的卷積核可以發(fā)現(xiàn)它為一個(gè) X 形的特征檢測(cè)器,去匹配圖像矩陣中哪個(gè)部位有類似的 X 形狀,顯然越像 X 的圖像部位得分越高,例如黃色視野內(nèi)的得分就比較高。同樣的,在文本處理中,每個(gè)卷積核也用于學(xué)習(xí)一種文本上隱藏的特征(比如去學(xué)習(xí)情感分類中“喜歡”這種文字特征),如果對(duì)應(yīng)感受野內(nèi)表達(dá)了類似的特征,這個(gè)特定卷積核操作之后的
本文編號(hào):3022305
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3022305.html
最近更新
教材專著