天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于和諧競爭自編碼的文本表示學(xué)習(xí)研究

發(fā)布時間:2020-09-19 16:10
   無監(jiān)督文本表示是一項有趣且富有挑戰(zhàn)性的任務(wù),無監(jiān)督文本表示通過無監(jiān)督學(xué)習(xí)方式學(xué)習(xí)文本在向量空間中的向量表示,然后用以后續(xù)各種文本處理或數(shù)據(jù)挖掘的任務(wù)。網(wǎng)絡(luò)中大部分?jǐn)?shù)據(jù)為文本數(shù)據(jù),為有效利用這些數(shù)據(jù)同時降低人工標(biāo)注與人為干預(yù)的人力成本,目前急需一種準(zhǔn)確高效的文本表示方式。自動編碼器是一種無監(jiān)督神經(jīng)網(wǎng)絡(luò),它可以通過嘗試在輸出層重建其輸入來自動學(xué)習(xí)數(shù)據(jù)表示。最近,眾多的研究提出了多種不同的自動編碼器,然而自動編碼器僅僅在圖像數(shù)據(jù)的表示學(xué)習(xí)方面被成功應(yīng)用,其在文本數(shù)據(jù)上面的表現(xiàn)還沒有被廣泛研究。在本文中,我們進行了傳統(tǒng)自動編碼器AE、K稀疏自動編碼器KSAE以及K競爭自動編碼器KATE在文本表示學(xué)習(xí)方面的實驗探究,旨在探究在文本數(shù)據(jù)上自動編碼機制、競爭機制以及各種模型結(jié)構(gòu)對表示學(xué)習(xí)的影響,嘗試找出能使競爭自動編碼器有效作用于文本表示的機理。同時本次工作在自動編碼器中引入了和諧競爭機制,提出和諧競爭自動編碼器HCAE,優(yōu)化競爭機制使競爭過程更加靈活,該模型在不同文本處理任務(wù)評測上均取得不錯效果。
【學(xué)位單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP181;TP391.1
【部分圖文】:

文本數(shù)據(jù),低頻詞,冪律分布,內(nèi)容


圖 2-1 用 Bag of Words 方式表示文本內(nèi)容因為文本數(shù)據(jù)常常符合冪律分布,低頻詞占文本數(shù)據(jù)的很大一部分,常用詞頻可能又非常高,所以我們這里采用對數(shù)化之后的 Bag of Words 模型。對每篇文本的嵌入向量 Rd,向量中的每一維度表示如下: i £ ( ) £ ( ) V ( )其中,V 代表所有文本共用的詞典,¢i是單詞 i 在文本中的詞頻統(tǒng)計。一篇文本進行對數(shù)化詞頻統(tǒng)計之后作為輸入灌入自動編碼器模型,可以看對于每一次的輸入,每一維度的值 i 。因為自編碼輸出層要重構(gòu)輸入,以理論上輸出層每一維度的值 ,所以在自動編碼器的輸出層我們可采用 sigmoid 激活函數(shù)。.1.2 損失函數(shù)1. 均方誤差損失函數(shù)(MSE)對于回歸問題,損失函數(shù)通常采用均方誤差(MSE),定義如下:MSE( ) ( ) ( )

激活函數(shù),梯度下降


義為:我們的期望輸出, 是此神經(jīng)元的真實輸出( 。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,我們通過梯度下降算置項 b,因此需要計算損失函數(shù)對 w 和 b 的導(dǎo)數(shù) ( ) ′( ) ′( ) ( ) ′( ) ′( ) 下降算法更新 w、b: ′( ) ′( ) -2 所示,由于 sigmoid 激活函數(shù)的性質(zhì),導(dǎo)致 ′( 2-2 非中間區(qū)域)都會比較小,由上述梯度下降 的更新會變的非常慢,造成了梯度消失現(xiàn)象。

經(jīng)典,神經(jīng)元,輸入層,自動編碼


圖 2-3 經(jīng)典自動編碼器結(jié)構(gòu)的自動編碼器常被用于降維或者特征學(xué)習(xí),通過反向傳播算法進如圖 2-3 所示,輸入層和輸出層表示相同的含義,具有相同的節(jié)點的神經(jīng)元數(shù)量完全等于輸入層神經(jīng)元數(shù)量,隱藏層的神經(jīng)元數(shù)量的神經(jīng)元數(shù)量。算法的流程可以由圖 2-4 表示:圖 2-4 經(jīng)典自動編碼算法流程圖訓(xùn)練過程嘗試將自動編碼器的輸出盡量重構(gòu)輸入,中間經(jīng)由隱藏,所以編碼可以看做含有輸入有效信息的表示。訓(xùn)練完成后這部

【相似文獻】

相關(guān)期刊論文 前10條

1 李成升;于洋;;基于行波特征量與堆疊自動編碼器的電纜早期故障定位方法[J];四川電力技術(shù);2019年04期

2 王憲保;何文秀;王辛剛;姚明海;錢l勌

本文編號:2822721


資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2822721.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶31664***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com