面向可解釋性雙向編碼語(yǔ)言模型的文本分類研究
發(fā)布時(shí)間:2021-03-25 04:50
深度學(xué)習(xí)作為大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的重要手段,近些年來(lái)得到了國(guó)內(nèi)外科研界的廣泛關(guān)注。文本分類任務(wù)是在給定的分類體系中,按照一定的規(guī)則,將文本分到某個(gè)或幾個(gè)類別中。文本分類應(yīng)用場(chǎng)景一般包括新聞分類、情感分類、社交網(wǎng)站評(píng)論分類等,因此,為了實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)中海量文本數(shù)據(jù)的計(jì)算,人工智能領(lǐng)域研究者提出具有深層網(wǎng)絡(luò)的深度學(xué)習(xí)算法來(lái)解決文本分類問(wèn)題,對(duì)于當(dāng)今社會(huì)各界的科技進(jìn)步具有重要意義。信息時(shí)代的迅猛發(fā)展,面對(duì)海量非結(jié)構(gòu)化的文本數(shù)據(jù),研究者和科技人員們所面臨的問(wèn)題不再是如何獲得所需要的文本數(shù)據(jù),而是如何在大數(shù)據(jù)背景下從海量文本數(shù)據(jù)中準(zhǔn)確高效地獲取滿足需求的信息。本文梳理機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在文本分類任務(wù)上的發(fā)展歷史,進(jìn)而引出近年來(lái)預(yù)訓(xùn)練微調(diào)體系結(jié)構(gòu)中的BERT模型,詳細(xì)介紹了BERT模型的內(nèi)部機(jī)制和訓(xùn)練方法,進(jìn)一步了解了語(yǔ)言模型在預(yù)訓(xùn)練和微調(diào)方面的多種技術(shù)方法,經(jīng)過(guò)深入的研究,本文提出在BERT模型的基礎(chǔ)上做出幾點(diǎn)創(chuàng)新和改進(jìn),使得本文模型能夠有效的解決BERT模型預(yù)訓(xùn)練方法的不足,通過(guò)一些技巧增加模型的可解釋性,在下游任務(wù)針對(duì)文本分類做微調(diào),得到面向可解釋性雙向編碼語(yǔ)言模型,本文工作歸納如下:(1)因式...
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
xh)(與ostyxhC)),((的關(guān)系圖
第2章相關(guān)技術(shù)概述14加快學(xué)習(xí)算法的一個(gè)辦法是隨時(shí)間慢慢減少學(xué)習(xí)率,稱為學(xué)習(xí)率衰減,在學(xué)習(xí)初期,學(xué)習(xí)率a較大,學(xué)習(xí)相對(duì)較快,當(dāng)開始收斂的時(shí)候,學(xué)習(xí)率a變小,學(xué)習(xí)步伐慢一些。拆分出不同的mini-batch,第一次遍歷訓(xùn)練集叫做第一代。第二次就是第二代,依此類推,將a學(xué)習(xí)率設(shè)為011anumepochdecayratea++=,(decay-rate稱為衰減率,epoch-num為代數(shù),0a為初始學(xué)習(xí)率)。深度學(xué)習(xí)的優(yōu)化技巧對(duì)于模型的訓(xùn)練至關(guān)重要,這些優(yōu)化指標(biāo)也是評(píng)估深度學(xué)習(xí)模型好壞的重要標(biāo)準(zhǔn),在實(shí)踐過(guò)程中,根據(jù)不同的模型在不同的應(yīng)用場(chǎng)景中,使用的優(yōu)化方法各有不同,為達(dá)到模型最好實(shí)驗(yàn)性能,需要在不斷調(diào)參的過(guò)程中,找出最優(yōu)化方案。2.2基于深度學(xué)習(xí)的文本分類深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域中的研究已經(jīng)將高深莫測(cè)的人類語(yǔ)言撕開一層神秘的面紗。其中是“詞向量”技術(shù)是進(jìn)行基于深度學(xué)習(xí)的文本分類任務(wù)的敲門磚,將單詞用“詞向量”的方式表示可謂是將深度學(xué)習(xí)算法引入自然語(yǔ)言處理領(lǐng)域的一個(gè)核心技術(shù)。2.2.1詞向量自然語(yǔ)言處理相關(guān)任務(wù)中,首要任務(wù)是語(yǔ)言符號(hào)數(shù)字化。向量是人對(duì)機(jī)器輸入的主要方式。詞向量就是用來(lái)將語(yǔ)言中的詞進(jìn)行數(shù)學(xué)化的一種方式,顧名思義,詞向量將詞表示為一個(gè)向量。在NLP中最直觀最簡(jiǎn)單的詞表示方法是One-Hot向量,如圖2.5所示。圖2.5One-hot詞向量表示形式
第2章相關(guān)技術(shù)概述16圖2.6FastText模型結(jié)構(gòu)圖TextCNN是Kim在2014年的論文[2]中用于解決句子分類問(wèn)題的模型。將CNN應(yīng)用到文本分類任務(wù),卷積操作中利用多個(gè)不同大小的卷積核來(lái)提取句子中的特征信息(類似于多窗口大小的n-gram),從而能夠更好地捕捉局部相關(guān)性,TextCNN模型結(jié)構(gòu)如圖2.7所示。圖2.7TextCNN模型結(jié)構(gòu)圖Bi-LSTM介紹了LSTM用于文本分類問(wèn)題的設(shè)計(jì),在自然語(yǔ)言處理中最常用的RNN能夠更好的表達(dá)上下文信息。在文本分類任務(wù)中,雙向LSTM可以捕獲變長(zhǎng)且雙向的“n-gram”信息,Bi-LSTM模型結(jié)構(gòu)如圖2.8所示。
本文編號(hào):3099059
【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
xh)(與ostyxhC)),((的關(guān)系圖
第2章相關(guān)技術(shù)概述14加快學(xué)習(xí)算法的一個(gè)辦法是隨時(shí)間慢慢減少學(xué)習(xí)率,稱為學(xué)習(xí)率衰減,在學(xué)習(xí)初期,學(xué)習(xí)率a較大,學(xué)習(xí)相對(duì)較快,當(dāng)開始收斂的時(shí)候,學(xué)習(xí)率a變小,學(xué)習(xí)步伐慢一些。拆分出不同的mini-batch,第一次遍歷訓(xùn)練集叫做第一代。第二次就是第二代,依此類推,將a學(xué)習(xí)率設(shè)為011anumepochdecayratea++=,(decay-rate稱為衰減率,epoch-num為代數(shù),0a為初始學(xué)習(xí)率)。深度學(xué)習(xí)的優(yōu)化技巧對(duì)于模型的訓(xùn)練至關(guān)重要,這些優(yōu)化指標(biāo)也是評(píng)估深度學(xué)習(xí)模型好壞的重要標(biāo)準(zhǔn),在實(shí)踐過(guò)程中,根據(jù)不同的模型在不同的應(yīng)用場(chǎng)景中,使用的優(yōu)化方法各有不同,為達(dá)到模型最好實(shí)驗(yàn)性能,需要在不斷調(diào)參的過(guò)程中,找出最優(yōu)化方案。2.2基于深度學(xué)習(xí)的文本分類深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域中的研究已經(jīng)將高深莫測(cè)的人類語(yǔ)言撕開一層神秘的面紗。其中是“詞向量”技術(shù)是進(jìn)行基于深度學(xué)習(xí)的文本分類任務(wù)的敲門磚,將單詞用“詞向量”的方式表示可謂是將深度學(xué)習(xí)算法引入自然語(yǔ)言處理領(lǐng)域的一個(gè)核心技術(shù)。2.2.1詞向量自然語(yǔ)言處理相關(guān)任務(wù)中,首要任務(wù)是語(yǔ)言符號(hào)數(shù)字化。向量是人對(duì)機(jī)器輸入的主要方式。詞向量就是用來(lái)將語(yǔ)言中的詞進(jìn)行數(shù)學(xué)化的一種方式,顧名思義,詞向量將詞表示為一個(gè)向量。在NLP中最直觀最簡(jiǎn)單的詞表示方法是One-Hot向量,如圖2.5所示。圖2.5One-hot詞向量表示形式
第2章相關(guān)技術(shù)概述16圖2.6FastText模型結(jié)構(gòu)圖TextCNN是Kim在2014年的論文[2]中用于解決句子分類問(wèn)題的模型。將CNN應(yīng)用到文本分類任務(wù),卷積操作中利用多個(gè)不同大小的卷積核來(lái)提取句子中的特征信息(類似于多窗口大小的n-gram),從而能夠更好地捕捉局部相關(guān)性,TextCNN模型結(jié)構(gòu)如圖2.7所示。圖2.7TextCNN模型結(jié)構(gòu)圖Bi-LSTM介紹了LSTM用于文本分類問(wèn)題的設(shè)計(jì),在自然語(yǔ)言處理中最常用的RNN能夠更好的表達(dá)上下文信息。在文本分類任務(wù)中,雙向LSTM可以捕獲變長(zhǎng)且雙向的“n-gram”信息,Bi-LSTM模型結(jié)構(gòu)如圖2.8所示。
本文編號(hào):3099059
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3099059.html
最近更新
教材專著