天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于詞匯表征學(xué)習(xí)的詞義演變及其評價研究

發(fā)布時間:2021-08-20 13:21
  隨著信息化技術(shù)蓬勃發(fā)展,對于傳統(tǒng)紙質(zhì)文獻的數(shù)字化工作也逐漸展開,同時近年來社交網(wǎng)絡(luò)和新聞媒體爆炸式增長,帶來的是大量的橫跨長期時間的數(shù)據(jù),如何從這些跨時間數(shù)據(jù)中挖掘有效的信息成為了當(dāng)前學(xué)術(shù)界和工業(yè)界的研究工作焦點。近年來深度學(xué)習(xí)的廣泛應(yīng)用和快速發(fā)展為挖掘這些跨時間數(shù)據(jù)提供了可能,特別是深度學(xué)習(xí)在文本上強大的表示學(xué)習(xí)能力,幾乎被應(yīng)用在基于深度學(xué)習(xí)進行自然語言處理相關(guān)的所有工作中。作為自然語言處理相關(guān)任務(wù)的基石,對于詞語的表示學(xué)習(xí)(詞匯表征學(xué)習(xí))經(jīng)歷了從最初的簡單的統(tǒng)計、詞袋模型等傳統(tǒng)的基于統(tǒng)計的表示方法到對詞語的共現(xiàn)關(guān)系進行學(xué)習(xí)、對句子中的詞語序列進行學(xué)習(xí)等基于深度學(xué)習(xí)模型的方法,已經(jīng)取得了不俗的成就。但是現(xiàn)有的算法對于跨時間的詞匯表征學(xué)習(xí)仍然存在一些問題,比如現(xiàn)在的一些研究更多的是將這些模型應(yīng)用在不同的時間片上,然后通過對齊算法來將多個時間片上的詞匯表征結(jié)果進行對齊,對于此類方法的詞匯演變分析效果不僅依賴于詞匯表征學(xué)習(xí)算法本身,還依賴于對齊算法的效果,而現(xiàn)有的對齊算法比較容易陷入過對齊的狀態(tài)。本文主要研究跨時間的詞匯表征學(xué)習(xí)算法在對齊上的改進,通過引入基于深度學(xué)習(xí)的相關(guān)算法結(jié)合我們提出... 

【文章來源】:西南大學(xué)重慶市 211工程院校 教育部直屬院校

【文章頁數(shù)】:72 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于詞匯表征學(xué)習(xí)的詞義演變及其評價研究


簡單的情感分類模型

序列,內(nèi)容,詞語,詞匯表


西南大學(xué)碩士學(xué)位論文6詞語相關(guān)的廣泛研究上的意義。我們介紹了我們所提出的Tagged-SGNS模型,它通過合并不同時間段的語料庫片段來擴展SGNS[60]。TSGNS具有類似SGNS的低維嵌入表示的高性能和PPMI等高維方法在不同時間段的向量空間平滑對齊的優(yōu)點。為了驗證TSGNS的有效性,我們在GoogleBooksN-gram語料集(105GB)、MENS數(shù)據(jù)集[61](3000個具有人類標記的相似度的單詞對)和牛津詞典的數(shù)據(jù)集(412個具有人類識標記語義隨時間變化的單詞)上進行了實驗。實驗結(jié)果表明,TSGNS相對于目前的最新技術(shù)具有獨特的優(yōu)勢。圖1.2本文主要研究內(nèi)容(2)分布假說表明,詞語的語義是是隱含在共現(xiàn)關(guān)系中的。目前大部分研究詞語的詞匯表征學(xué)習(xí)是基于語料庫中句子中固定范圍內(nèi)的上下文詞共現(xiàn)統(tǒng)計的。并且現(xiàn)有的研究基本上只關(guān)注中心詞的上下文詞語隨時間的共現(xiàn)頻率,而忽略了深層上下文關(guān)系,即對應(yīng)上下文的語義也可能會隨著時間的推移而發(fā)生變化,這意味著上下文詞語可能會隨著時間的推移而發(fā)生語義演變。我們提出了基于句子的詞嵌入(SWE),它解決了以下挑戰(zhàn):1.句子通常有不同的長度,支持詞匯表征學(xué)習(xí)時輸入的詞語序列長度為變長,避免了傳統(tǒng)學(xué)習(xí)過程中需要指定上下文考慮范圍的情況2.目標詞通常在句子中的不同位置。受到Elmo[62]和CBOW兩種方法的啟發(fā),我們提出來的詞匯表征學(xué)習(xí)模型是通過訓(xùn)練一個學(xué)習(xí)模型來推導(dǎo)的,該模型使用句子中的其他單詞預(yù)測目標單詞。此外,我們還討論了SWE是否能夠滿足免對齊的條件,本研究通過在大型語料庫(即Arxiv數(shù)據(jù)集)上比較不同環(huán)境下的詞匯表征學(xué)習(xí)效果,驗證了所提出的解決方案的獨特優(yōu)勢。(3)本文使用搜狗搜索引擎抓取的網(wǎng)頁數(shù)據(jù)集進行分析。在使用三種不同的詞匯表征學(xué)習(xí)算法對該漢語語料庫進行訓(xùn)練后,使用不同的

神經(jīng)網(wǎng)絡(luò)模型


相關(guān)研究綜述92.相關(guān)研究綜述深度學(xué)習(xí)技術(shù)源于對人工神經(jīng)網(wǎng)路的研究。它是在多層感知器的基礎(chǔ)上,使用線性或者非線性的前向連接把多層神經(jīng)網(wǎng)絡(luò)層疊在一起,來發(fā)現(xiàn)數(shù)據(jù)樣本的特征分布。深度學(xué)習(xí)的概念由Hinton等人提出[3]。之后在2015年,Hinton、Lecun和Bengio三個深度學(xué)習(xí)領(lǐng)域的元老在[7]上發(fā)表綜述文章,就深度學(xué)習(xí)的模型和應(yīng)用領(lǐng)域進行了深入全面的探討,奠定了深度學(xué)習(xí)在圖像(含視頻)、音頻和自然語言等研究領(lǐng)域的地位。深度學(xué)習(xí)是一種表征學(xué)習(xí)方法,可以用來學(xué)習(xí)數(shù)據(jù)樣本的特征分布。圖2.1展示了一個多層神經(jīng)網(wǎng)絡(luò)的模型。模型每一層由多個神經(jīng)元構(gòu)成,每個神經(jīng)元表示一個特征值。同一層的所有特征值構(gòu)成特征向量,用來表示對某個事物的整體特征描述。同層之間神經(jīng)元沒有聯(lián)系,即同層之間的特征值之間趨于正交(特征向量所在希爾伯特空間中每一維和其它維都是正交的)。層與層之間一般采用全連接方式,即下一層中每個神經(jīng)元都是上一層中所有神經(jīng)元的權(quán)重之和。神經(jīng)網(wǎng)絡(luò)輸出的特征向量可以看作是神經(jīng)網(wǎng)絡(luò)對事物進行表征學(xué)習(xí)的結(jié)果,這種結(jié)果是對人為定義特征(輸入)進行多層映射計算,通過神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)到的抽象特征(輸出)。圖2.1多層神經(jīng)網(wǎng)絡(luò)模型對于人為定義的特征(也就是輸入),具有很多種表現(xiàn)形式,對于采用深度學(xué)習(xí)進行相關(guān)表征學(xué)習(xí)比較成熟的領(lǐng)域-圖像領(lǐng)域而言,通常為以圖像的每一個像素對應(yīng)的數(shù)據(jù)作為基本單元,將整個圖片表示為一個像素數(shù)據(jù)組成的矩陣,作為神經(jīng)網(wǎng)絡(luò)的輸入;而在自然語言處理領(lǐng)域,根據(jù)不同的維度,我們可以將文本以字母(筆畫)、單詞等方式來表示,然后輸入到神經(jīng)網(wǎng)絡(luò)中。而對于事物的表征學(xué)習(xí),傳統(tǒng)的方法通常通過手動設(shè)置抽取規(guī)則,或者計算規(guī)則對根據(jù)輸入的數(shù)據(jù)進行處理,進而形成對應(yīng)事物的表?


本文編號:3353573

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3353573.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5d014***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com