基于和諧競爭自編碼的文本表示學(xué)習(xí)研究

發(fā)布時間：2020-09-19 16:10

　　無監(jiān)督文本表示是一項有趣且富有挑戰(zhàn)性的任務(wù),無監(jiān)督文本表示通過無監(jiān)督學(xué)習(xí)方式學(xué)習(xí)文本在向量空間中的向量表示,然后用以后續(xù)各種文本處理或數(shù)據(jù)挖掘的任務(wù)。網(wǎng)絡(luò)中大部分?jǐn)?shù)據(jù)為文本數(shù)據(jù),為有效利用這些數(shù)據(jù)同時降低人工標(biāo)注與人為干預(yù)的人力成本,目前急需一種準(zhǔn)確高效的文本表示方式。自動編碼器是一種無監(jiān)督神經(jīng)網(wǎng)絡(luò),它可以通過嘗試在輸出層重建其輸入來自動學(xué)習(xí)數(shù)據(jù)表示。最近,眾多的研究提出了多種不同的自動編碼器,然而自動編碼器僅僅在圖像數(shù)據(jù)的表示學(xué)習(xí)方面被成功應(yīng)用,其在文本數(shù)據(jù)上面的表現(xiàn)還沒有被廣泛研究。在本文中,我們進行了傳統(tǒng)自動編碼器AE、K稀疏自動編碼器KSAE以及K競爭自動編碼器KATE在文本表示學(xué)習(xí)方面的實驗探究,旨在探究在文本數(shù)據(jù)上自動編碼機制、競爭機制以及各種模型結(jié)構(gòu)對表示學(xué)習(xí)的影響,嘗試找出能使競爭自動編碼器有效作用于文本表示的機理。同時本次工作在自動編碼器中引入了和諧競爭機制,提出和諧競爭自動編碼器HCAE,優(yōu)化競爭機制使競爭過程更加靈活,該模型在不同文本處理任務(wù)評測上均取得不錯效果。
【學(xué)位單位】：哈爾濱工業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位年份】：2019
【中圖分類】：TP181;TP391.1
【部分圖文】：

文本數(shù)據(jù),低頻詞,冪律分布,內(nèi)容

圖 2-1 用 Bag of Words 方式表示文本內(nèi)容因為文本數(shù)據(jù)常常符合冪律分布，低頻詞占文本數(shù)據(jù)的很大一部分，常用詞頻可能又非常高，所以我們這里采用對數(shù)化之后的 Bag of Words 模型。對每篇文本的嵌入向量 Rd，向量中的每一維度表示如下： i ￡ ( ) ￡ ( ) V ( )其中，V 代表所有文本共用的詞典，￠i是單詞 i 在文本中的詞頻統(tǒng)計。一篇文本進行對數(shù)化詞頻統(tǒng)計之后作為輸入灌入自動編碼器模型，可以看對于每一次的輸入，每一維度的值 i 。因為自編碼輸出層要重構(gòu)輸入，以理論上輸出層每一維度的值，所以在自動編碼器的輸出層我們可采用 sigmoid 激活函數(shù)。.1.2 損失函數(shù)1. 均方誤差損失函數(shù)（MSE）對于回歸問題，損失函數(shù)通常采用均方誤差（MSE），定義如下：MSE( ) ( ) ( )

激活函數(shù),梯度下降

義為：我們的期望輸出，是此神經(jīng)元的真實輸出（。在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中，我們通過梯度下降算置項 b，因此需要計算損失函數(shù)對 w 和 b 的導(dǎo)數(shù) ( ) ′( ) ′( ) ( ) ′( ) ′( ) 下降算法更新 w、b： ′( ) ′( ) -2 所示，由于 sigmoid 激活函數(shù)的性質(zhì)，導(dǎo)致 ′( 2-2 非中間區(qū)域）都會比較小，由上述梯度下降的更新會變的非常慢，造成了梯度消失現(xiàn)象。

經(jīng)典,神經(jīng)元,輸入層,自動編碼

圖 2-3 經(jīng)典自動編碼器結(jié)構(gòu)的自動編碼器常被用于降維或者特征學(xué)習(xí)，通過反向傳播算法進如圖 2-3 所示，輸入層和輸出層表示相同的含義，具有相同的節(jié)點的神經(jīng)元數(shù)量完全等于輸入層神經(jīng)元數(shù)量，隱藏層的神經(jīng)元數(shù)量的神經(jīng)元數(shù)量。算法的流程可以由圖 2-4 表示：圖 2-4 經(jīng)典自動編碼算法流程圖訓(xùn)練過程嘗試將自動編碼器的輸出盡量重構(gòu)輸入，中間經(jīng)由隱藏，所以編碼可以看做含有輸入有效信息的表示。訓(xùn)練完成后這部

【相似文獻】

相關(guān)期刊論文前10條

1 李成升;于洋;;基于行波特征量與堆疊自動編碼器的電纜早期故障定位方法[J];四川電力技術(shù);2019年04期

2 王憲保;何文秀;王辛剛;姚明海;錢l勌

本文編號：2822721

資料下載

論文發(fā)表

本文鏈接：http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2822721.html

上一篇：CPS-Service運行支撐平臺關(guān)鍵技術(shù)研究
下一篇：基于深度卷積網(wǎng)絡(luò)的若干圖像識別應(yīng)用研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于和諧競爭自編碼的文本表示學(xué)習(xí)研究