天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于詞匯表征學(xué)習(xí)的詞義演變及其評(píng)價(jià)研究

發(fā)布時(shí)間:2021-08-20 13:21
  隨著信息化技術(shù)蓬勃發(fā)展,對(duì)于傳統(tǒng)紙質(zhì)文獻(xiàn)的數(shù)字化工作也逐漸展開(kāi),同時(shí)近年來(lái)社交網(wǎng)絡(luò)和新聞媒體爆炸式增長(zhǎng),帶來(lái)的是大量的橫跨長(zhǎng)期時(shí)間的數(shù)據(jù),如何從這些跨時(shí)間數(shù)據(jù)中挖掘有效的信息成為了當(dāng)前學(xué)術(shù)界和工業(yè)界的研究工作焦點(diǎn)。近年來(lái)深度學(xué)習(xí)的廣泛應(yīng)用和快速發(fā)展為挖掘這些跨時(shí)間數(shù)據(jù)提供了可能,特別是深度學(xué)習(xí)在文本上強(qiáng)大的表示學(xué)習(xí)能力,幾乎被應(yīng)用在基于深度學(xué)習(xí)進(jìn)行自然語(yǔ)言處理相關(guān)的所有工作中。作為自然語(yǔ)言處理相關(guān)任務(wù)的基石,對(duì)于詞語(yǔ)的表示學(xué)習(xí)(詞匯表征學(xué)習(xí))經(jīng)歷了從最初的簡(jiǎn)單的統(tǒng)計(jì)、詞袋模型等傳統(tǒng)的基于統(tǒng)計(jì)的表示方法到對(duì)詞語(yǔ)的共現(xiàn)關(guān)系進(jìn)行學(xué)習(xí)、對(duì)句子中的詞語(yǔ)序列進(jìn)行學(xué)習(xí)等基于深度學(xué)習(xí)模型的方法,已經(jīng)取得了不俗的成就。但是現(xiàn)有的算法對(duì)于跨時(shí)間的詞匯表征學(xué)習(xí)仍然存在一些問(wèn)題,比如現(xiàn)在的一些研究更多的是將這些模型應(yīng)用在不同的時(shí)間片上,然后通過(guò)對(duì)齊算法來(lái)將多個(gè)時(shí)間片上的詞匯表征結(jié)果進(jìn)行對(duì)齊,對(duì)于此類方法的詞匯演變分析效果不僅依賴于詞匯表征學(xué)習(xí)算法本身,還依賴于對(duì)齊算法的效果,而現(xiàn)有的對(duì)齊算法比較容易陷入過(guò)對(duì)齊的狀態(tài)。本文主要研究跨時(shí)間的詞匯表征學(xué)習(xí)算法在對(duì)齊上的改進(jìn),通過(guò)引入基于深度學(xué)習(xí)的相關(guān)算法結(jié)合我們提出... 

【文章來(lái)源】:西南大學(xué)重慶市 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:72 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于詞匯表征學(xué)習(xí)的詞義演變及其評(píng)價(jià)研究


簡(jiǎn)單的情感分類模型

序列,內(nèi)容,詞語(yǔ),詞匯表


西南大學(xué)碩士學(xué)位論文6詞語(yǔ)相關(guān)的廣泛研究上的意義。我們介紹了我們所提出的Tagged-SGNS模型,它通過(guò)合并不同時(shí)間段的語(yǔ)料庫(kù)片段來(lái)擴(kuò)展SGNS[60]。TSGNS具有類似SGNS的低維嵌入表示的高性能和PPMI等高維方法在不同時(shí)間段的向量空間平滑對(duì)齊的優(yōu)點(diǎn)。為了驗(yàn)證TSGNS的有效性,我們?cè)贕oogleBooksN-gram語(yǔ)料集(105GB)、MENS數(shù)據(jù)集[61](3000個(gè)具有人類標(biāo)記的相似度的單詞對(duì))和牛津詞典的數(shù)據(jù)集(412個(gè)具有人類識(shí)標(biāo)記語(yǔ)義隨時(shí)間變化的單詞)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,TSGNS相對(duì)于目前的最新技術(shù)具有獨(dú)特的優(yōu)勢(shì)。圖1.2本文主要研究?jī)?nèi)容(2)分布假說(shuō)表明,詞語(yǔ)的語(yǔ)義是是隱含在共現(xiàn)關(guān)系中的。目前大部分研究詞語(yǔ)的詞匯表征學(xué)習(xí)是基于語(yǔ)料庫(kù)中句子中固定范圍內(nèi)的上下文詞共現(xiàn)統(tǒng)計(jì)的。并且現(xiàn)有的研究基本上只關(guān)注中心詞的上下文詞語(yǔ)隨時(shí)間的共現(xiàn)頻率,而忽略了深層上下文關(guān)系,即對(duì)應(yīng)上下文的語(yǔ)義也可能會(huì)隨著時(shí)間的推移而發(fā)生變化,這意味著上下文詞語(yǔ)可能會(huì)隨著時(shí)間的推移而發(fā)生語(yǔ)義演變。我們提出了基于句子的詞嵌入(SWE),它解決了以下挑戰(zhàn):1.句子通常有不同的長(zhǎng)度,支持詞匯表征學(xué)習(xí)時(shí)輸入的詞語(yǔ)序列長(zhǎng)度為變長(zhǎng),避免了傳統(tǒng)學(xué)習(xí)過(guò)程中需要指定上下文考慮范圍的情況2.目標(biāo)詞通常在句子中的不同位置。受到Elmo[62]和CBOW兩種方法的啟發(fā),我們提出來(lái)的詞匯表征學(xué)習(xí)模型是通過(guò)訓(xùn)練一個(gè)學(xué)習(xí)模型來(lái)推導(dǎo)的,該模型使用句子中的其他單詞預(yù)測(cè)目標(biāo)單詞。此外,我們還討論了SWE是否能夠滿足免對(duì)齊的條件,本研究通過(guò)在大型語(yǔ)料庫(kù)(即Arxiv數(shù)據(jù)集)上比較不同環(huán)境下的詞匯表征學(xué)習(xí)效果,驗(yàn)證了所提出的解決方案的獨(dú)特優(yōu)勢(shì)。(3)本文使用搜狗搜索引擎抓取的網(wǎng)頁(yè)數(shù)據(jù)集進(jìn)行分析。在使用三種不同的詞匯表征學(xué)習(xí)算法對(duì)該漢語(yǔ)語(yǔ)料庫(kù)進(jìn)行訓(xùn)練后,使用不同的

神經(jīng)網(wǎng)絡(luò)模型


相關(guān)研究綜述92.相關(guān)研究綜述深度學(xué)習(xí)技術(shù)源于對(duì)人工神經(jīng)網(wǎng)路的研究。它是在多層感知器的基礎(chǔ)上,使用線性或者非線性的前向連接把多層神經(jīng)網(wǎng)絡(luò)層疊在一起,來(lái)發(fā)現(xiàn)數(shù)據(jù)樣本的特征分布。深度學(xué)習(xí)的概念由Hinton等人提出[3]。之后在2015年,Hinton、Lecun和Bengio三個(gè)深度學(xué)習(xí)領(lǐng)域的元老在[7]上發(fā)表綜述文章,就深度學(xué)習(xí)的模型和應(yīng)用領(lǐng)域進(jìn)行了深入全面的探討,奠定了深度學(xué)習(xí)在圖像(含視頻)、音頻和自然語(yǔ)言等研究領(lǐng)域的地位。深度學(xué)習(xí)是一種表征學(xué)習(xí)方法,可以用來(lái)學(xué)習(xí)數(shù)據(jù)樣本的特征分布。圖2.1展示了一個(gè)多層神經(jīng)網(wǎng)絡(luò)的模型。模型每一層由多個(gè)神經(jīng)元構(gòu)成,每個(gè)神經(jīng)元表示一個(gè)特征值。同一層的所有特征值構(gòu)成特征向量,用來(lái)表示對(duì)某個(gè)事物的整體特征描述。同層之間神經(jīng)元沒(méi)有聯(lián)系,即同層之間的特征值之間趨于正交(特征向量所在希爾伯特空間中每一維和其它維都是正交的)。層與層之間一般采用全連接方式,即下一層中每個(gè)神經(jīng)元都是上一層中所有神經(jīng)元的權(quán)重之和。神經(jīng)網(wǎng)絡(luò)輸出的特征向量可以看作是神經(jīng)網(wǎng)絡(luò)對(duì)事物進(jìn)行表征學(xué)習(xí)的結(jié)果,這種結(jié)果是對(duì)人為定義特征(輸入)進(jìn)行多層映射計(jì)算,通過(guò)神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)到的抽象特征(輸出)。圖2.1多層神經(jīng)網(wǎng)絡(luò)模型對(duì)于人為定義的特征(也就是輸入),具有很多種表現(xiàn)形式,對(duì)于采用深度學(xué)習(xí)進(jìn)行相關(guān)表征學(xué)習(xí)比較成熟的領(lǐng)域-圖像領(lǐng)域而言,通常為以圖像的每一個(gè)像素對(duì)應(yīng)的數(shù)據(jù)作為基本單元,將整個(gè)圖片表示為一個(gè)像素?cái)?shù)據(jù)組成的矩陣,作為神經(jīng)網(wǎng)絡(luò)的輸入;而在自然語(yǔ)言處理領(lǐng)域,根據(jù)不同的維度,我們可以將文本以字母(筆畫)、單詞等方式來(lái)表示,然后輸入到神經(jīng)網(wǎng)絡(luò)中。而對(duì)于事物的表征學(xué)習(xí),傳統(tǒng)的方法通常通過(guò)手動(dòng)設(shè)置抽取規(guī)則,或者計(jì)算規(guī)則對(duì)根據(jù)輸入的數(shù)據(jù)進(jìn)行處理,進(jìn)而形成對(duì)應(yīng)事物的表?


本文編號(hào):3353573

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3353573.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5d014***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com