基于RNN在文本分類中的改進及應(yīng)用
發(fā)布時間:2021-01-18 02:20
所謂文本分類,就是針對一段文本信息,在所給定的類別中,選出與該文本相匹配的類別作為輸出的一個重要手段。文本分類屬于自然語言處理領(lǐng)域的一個基本問題,是機器學(xué)習(xí)等領(lǐng)域中非;钴S的研究方向,并有許多重要的實際應(yīng)用。因此,研究具有較高精度與較強魯棒性的文本分類算法有著重要的理論意義與實際意義。本文選擇經(jīng)典RNN的變體LSTM(Long Short-Term Memory)作為文本分類的基礎(chǔ)工具有以下原因:一方面,LSTM模型由于引入新的“門”結(jié)構(gòu),可以很好的解決文本訓(xùn)練過程中樣本長度過長學(xué)習(xí)能力不足的問題,使得與關(guān)鍵詞距離較遠的詞語在學(xué)習(xí)過程中也可以得到很好的保留。當(dāng)數(shù)據(jù)集較大時,就可以更好的對原文本想表達的意思進行學(xué)習(xí),從而增強該算法的魯棒性,并有效地提高了模型的泛化能力。另一方面,該模型在實驗過程中可以表現(xiàn)出較高的準(zhǔn)確精度,使我們的預(yù)測過程從一開始就更加接近事實情況。本文主要針對神經(jīng)網(wǎng)絡(luò)方面有監(jiān)督學(xué)習(xí)對比研究了one-hot模型、word2vec模型等詞嵌入模型、text CNN、Bi LSTM等神經(jīng)網(wǎng)絡(luò)框架、注意力模型等,最后部分還對Google最新提出的一些無監(jiān)督學(xué)習(xí)模型,如BERT算...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:47 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類如果可以更精準(zhǔn)的對于文本信息進行分類,那么不僅對于對應(yīng)事物的判斷將更加準(zhǔn)
第2章詞嵌入層5圖2.1例句1中的one-hot編碼圖圖2.2例句2中的one-hot編碼圖圖2.3例句3中的one-hot編碼圖經(jīng)過這樣的處理,最終可以得到每句話的特征向量為:我喜歡游泳:(1,1,1,0,0)爸爸媽媽喜歡游泳:(0,1,1,1,1)爸爸媽媽喜歡我:(1,1,0,1,1)這樣處理數(shù)據(jù)的優(yōu)勢:可以更方便的擴充要補充的特征;增強了模型的非線性能力;不需要對變量進行歸一化;加速參數(shù)的更新速度;降低了特征值擾動對模型穩(wěn)定性的影響。然而這個預(yù)處理的方式有個缺點,就是它對文本的刻畫方式僅僅是存在或不存在,因此對于詞與詞之間的相似性關(guān)系,這個處理方式所產(chǎn)生的結(jié)果均為線性無關(guān),從而不能進行很好的描述。除此之外,還有一個很大的問題,就是當(dāng)數(shù)據(jù)集足夠大時,對于整個語料庫的特征提取組成的包則會很占內(nèi)存,即維度會過高。當(dāng)最開始對幾個句子進行預(yù)處理的
第2章詞嵌入層5圖2.1例句1中的one-hot編碼圖圖2.2例句2中的one-hot編碼圖圖2.3例句3中的one-hot編碼圖經(jīng)過這樣的處理,最終可以得到每句話的特征向量為:我喜歡游泳:(1,1,1,0,0)爸爸媽媽喜歡游泳:(0,1,1,1,1)爸爸媽媽喜歡我:(1,1,0,1,1)這樣處理數(shù)據(jù)的優(yōu)勢:可以更方便的擴充要補充的特征;增強了模型的非線性能力;不需要對變量進行歸一化;加速參數(shù)的更新速度;降低了特征值擾動對模型穩(wěn)定性的影響。然而這個預(yù)處理的方式有個缺點,就是它對文本的刻畫方式僅僅是存在或不存在,因此對于詞與詞之間的相似性關(guān)系,這個處理方式所產(chǎn)生的結(jié)果均為線性無關(guān),從而不能進行很好的描述。除此之外,還有一個很大的問題,就是當(dāng)數(shù)據(jù)集足夠大時,對于整個語料庫的特征提取組成的包則會很占內(nèi)存,即維度會過高。當(dāng)最開始對幾個句子進行預(yù)處理的
本文編號:2984074
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:47 頁
【學(xué)位級別】:碩士
【部分圖文】:
文本分類如果可以更精準(zhǔn)的對于文本信息進行分類,那么不僅對于對應(yīng)事物的判斷將更加準(zhǔn)
第2章詞嵌入層5圖2.1例句1中的one-hot編碼圖圖2.2例句2中的one-hot編碼圖圖2.3例句3中的one-hot編碼圖經(jīng)過這樣的處理,最終可以得到每句話的特征向量為:我喜歡游泳:(1,1,1,0,0)爸爸媽媽喜歡游泳:(0,1,1,1,1)爸爸媽媽喜歡我:(1,1,0,1,1)這樣處理數(shù)據(jù)的優(yōu)勢:可以更方便的擴充要補充的特征;增強了模型的非線性能力;不需要對變量進行歸一化;加速參數(shù)的更新速度;降低了特征值擾動對模型穩(wěn)定性的影響。然而這個預(yù)處理的方式有個缺點,就是它對文本的刻畫方式僅僅是存在或不存在,因此對于詞與詞之間的相似性關(guān)系,這個處理方式所產(chǎn)生的結(jié)果均為線性無關(guān),從而不能進行很好的描述。除此之外,還有一個很大的問題,就是當(dāng)數(shù)據(jù)集足夠大時,對于整個語料庫的特征提取組成的包則會很占內(nèi)存,即維度會過高。當(dāng)最開始對幾個句子進行預(yù)處理的
第2章詞嵌入層5圖2.1例句1中的one-hot編碼圖圖2.2例句2中的one-hot編碼圖圖2.3例句3中的one-hot編碼圖經(jīng)過這樣的處理,最終可以得到每句話的特征向量為:我喜歡游泳:(1,1,1,0,0)爸爸媽媽喜歡游泳:(0,1,1,1,1)爸爸媽媽喜歡我:(1,1,0,1,1)這樣處理數(shù)據(jù)的優(yōu)勢:可以更方便的擴充要補充的特征;增強了模型的非線性能力;不需要對變量進行歸一化;加速參數(shù)的更新速度;降低了特征值擾動對模型穩(wěn)定性的影響。然而這個預(yù)處理的方式有個缺點,就是它對文本的刻畫方式僅僅是存在或不存在,因此對于詞與詞之間的相似性關(guān)系,這個處理方式所產(chǎn)生的結(jié)果均為線性無關(guān),從而不能進行很好的描述。除此之外,還有一個很大的問題,就是當(dāng)數(shù)據(jù)集足夠大時,對于整個語料庫的特征提取組成的包則會很占內(nèi)存,即維度會過高。當(dāng)最開始對幾個句子進行預(yù)處理的
本文編號:2984074
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2984074.html
最近更新
教材專著