基于和諧競爭自編碼的文本表示學(xué)習(xí)研究
發(fā)布時間:2020-09-19 16:10
無監(jiān)督文本表示是一項有趣且富有挑戰(zhàn)性的任務(wù),無監(jiān)督文本表示通過無監(jiān)督學(xué)習(xí)方式學(xué)習(xí)文本在向量空間中的向量表示,然后用以后續(xù)各種文本處理或數(shù)據(jù)挖掘的任務(wù)。網(wǎng)絡(luò)中大部分?jǐn)?shù)據(jù)為文本數(shù)據(jù),為有效利用這些數(shù)據(jù)同時降低人工標(biāo)注與人為干預(yù)的人力成本,目前急需一種準(zhǔn)確高效的文本表示方式。自動編碼器是一種無監(jiān)督神經(jīng)網(wǎng)絡(luò),它可以通過嘗試在輸出層重建其輸入來自動學(xué)習(xí)數(shù)據(jù)表示。最近,眾多的研究提出了多種不同的自動編碼器,然而自動編碼器僅僅在圖像數(shù)據(jù)的表示學(xué)習(xí)方面被成功應(yīng)用,其在文本數(shù)據(jù)上面的表現(xiàn)還沒有被廣泛研究。在本文中,我們進行了傳統(tǒng)自動編碼器AE、K稀疏自動編碼器KSAE以及K競爭自動編碼器KATE在文本表示學(xué)習(xí)方面的實驗探究,旨在探究在文本數(shù)據(jù)上自動編碼機制、競爭機制以及各種模型結(jié)構(gòu)對表示學(xué)習(xí)的影響,嘗試找出能使競爭自動編碼器有效作用于文本表示的機理。同時本次工作在自動編碼器中引入了和諧競爭機制,提出和諧競爭自動編碼器HCAE,優(yōu)化競爭機制使競爭過程更加靈活,該模型在不同文本處理任務(wù)評測上均取得不錯效果。
【學(xué)位單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP181;TP391.1
【部分圖文】:
圖 2-1 用 Bag of Words 方式表示文本內(nèi)容因為文本數(shù)據(jù)常常符合冪律分布,低頻詞占文本數(shù)據(jù)的很大一部分,常用詞頻可能又非常高,所以我們這里采用對數(shù)化之后的 Bag of Words 模型。對每篇文本的嵌入向量 Rd,向量中的每一維度表示如下: i £ ( ) £ ( ) V ( )其中,V 代表所有文本共用的詞典,¢i是單詞 i 在文本中的詞頻統(tǒng)計。一篇文本進行對數(shù)化詞頻統(tǒng)計之后作為輸入灌入自動編碼器模型,可以看對于每一次的輸入,每一維度的值 i 。因為自編碼輸出層要重構(gòu)輸入,以理論上輸出層每一維度的值 ,所以在自動編碼器的輸出層我們可采用 sigmoid 激活函數(shù)。.1.2 損失函數(shù)1. 均方誤差損失函數(shù)(MSE)對于回歸問題,損失函數(shù)通常采用均方誤差(MSE),定義如下:MSE( ) ( ) ( )
義為:我們的期望輸出, 是此神經(jīng)元的真實輸出( 。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,我們通過梯度下降算置項 b,因此需要計算損失函數(shù)對 w 和 b 的導(dǎo)數(shù) ( ) ′( ) ′( ) ( ) ′( ) ′( ) 下降算法更新 w、b: ′( ) ′( ) -2 所示,由于 sigmoid 激活函數(shù)的性質(zhì),導(dǎo)致 ′( 2-2 非中間區(qū)域)都會比較小,由上述梯度下降 的更新會變的非常慢,造成了梯度消失現(xiàn)象。
圖 2-3 經(jīng)典自動編碼器結(jié)構(gòu)的自動編碼器常被用于降維或者特征學(xué)習(xí),通過反向傳播算法進如圖 2-3 所示,輸入層和輸出層表示相同的含義,具有相同的節(jié)點的神經(jīng)元數(shù)量完全等于輸入層神經(jīng)元數(shù)量,隱藏層的神經(jīng)元數(shù)量的神經(jīng)元數(shù)量。算法的流程可以由圖 2-4 表示:圖 2-4 經(jīng)典自動編碼算法流程圖訓(xùn)練過程嘗試將自動編碼器的輸出盡量重構(gòu)輸入,中間經(jīng)由隱藏,所以編碼可以看做含有輸入有效信息的表示。訓(xùn)練完成后這部
【學(xué)位單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP181;TP391.1
【部分圖文】:
圖 2-1 用 Bag of Words 方式表示文本內(nèi)容因為文本數(shù)據(jù)常常符合冪律分布,低頻詞占文本數(shù)據(jù)的很大一部分,常用詞頻可能又非常高,所以我們這里采用對數(shù)化之后的 Bag of Words 模型。對每篇文本的嵌入向量 Rd,向量中的每一維度表示如下: i £ ( ) £ ( ) V ( )其中,V 代表所有文本共用的詞典,¢i是單詞 i 在文本中的詞頻統(tǒng)計。一篇文本進行對數(shù)化詞頻統(tǒng)計之后作為輸入灌入自動編碼器模型,可以看對于每一次的輸入,每一維度的值 i 。因為自編碼輸出層要重構(gòu)輸入,以理論上輸出層每一維度的值 ,所以在自動編碼器的輸出層我們可采用 sigmoid 激活函數(shù)。.1.2 損失函數(shù)1. 均方誤差損失函數(shù)(MSE)對于回歸問題,損失函數(shù)通常采用均方誤差(MSE),定義如下:MSE( ) ( ) ( )
義為:我們的期望輸出, 是此神經(jīng)元的真實輸出( 。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,我們通過梯度下降算置項 b,因此需要計算損失函數(shù)對 w 和 b 的導(dǎo)數(shù) ( ) ′( ) ′( ) ( ) ′( ) ′( ) 下降算法更新 w、b: ′( ) ′( ) -2 所示,由于 sigmoid 激活函數(shù)的性質(zhì),導(dǎo)致 ′( 2-2 非中間區(qū)域)都會比較小,由上述梯度下降 的更新會變的非常慢,造成了梯度消失現(xiàn)象。
圖 2-3 經(jīng)典自動編碼器結(jié)構(gòu)的自動編碼器常被用于降維或者特征學(xué)習(xí),通過反向傳播算法進如圖 2-3 所示,輸入層和輸出層表示相同的含義,具有相同的節(jié)點的神經(jīng)元數(shù)量完全等于輸入層神經(jīng)元數(shù)量,隱藏層的神經(jīng)元數(shù)量的神經(jīng)元數(shù)量。算法的流程可以由圖 2-4 表示:圖 2-4 經(jīng)典自動編碼算法流程圖訓(xùn)練過程嘗試將自動編碼器的輸出盡量重構(gòu)輸入,中間經(jīng)由隱藏,所以編碼可以看做含有輸入有效信息的表示。訓(xùn)練完成后這部
【相似文獻】
相關(guān)期刊論文 前10條
1 李成升;于洋;;基于行波特征量與堆疊自動編碼器的電纜早期故障定位方法[J];四川電力技術(shù);2019年04期
2 王憲保;何文秀;王辛剛;姚明海;錢l勌
本文編號:2822721
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2822721.html
最近更新
教材專著