天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 碩博論文 > 信息類博士論文 >

基于深度學(xué)習(xí)的文本向量化研究與應(yīng)用

發(fā)布時(shí)間:2017-12-17 21:15

  本文關(guān)鍵詞:基于深度學(xué)習(xí)的文本向量化研究與應(yīng)用


  更多相關(guān)文章: 自然語(yǔ)言處理 深度學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò) 詞向量 文本向量


【摘要】:文本向量化是指將文本表示成低維、稠密、實(shí)數(shù)向量的一種方法。隨著深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用,基于神經(jīng)網(wǎng)絡(luò)的文本向量化成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn),尤其是對(duì)單詞的向量化研究。單詞作為自然語(yǔ)言的最基本語(yǔ)義單位,對(duì)理解語(yǔ)句、文本的重要性不言而喻,其向量化學(xué)習(xí)方法被大量提出,并已成功應(yīng)用于各種自然語(yǔ)言理解任務(wù)中。傳統(tǒng)的單詞表示法,比如獨(dú)熱表示(one-hot representation)、矩陣表示等,往往存在數(shù)據(jù)稀疏、維度高等問(wèn)題。而詞向量,又稱為詞嵌入(word embedding)或詞分布式表示(distributed word representation),相對(duì)于傳統(tǒng)的單詞表示法具有明顯優(yōu)勢(shì):1)維度低,通常在幾十維到數(shù)百維之間;2)語(yǔ)義可計(jì)算性,即語(yǔ)義相似的單詞也具有相似的向量表示,其相似性可通過(guò)向量間的距離計(jì)算得到。本文首先在研究、分析現(xiàn)有的各種詞向量學(xué)習(xí)方法的基礎(chǔ)上,提出了一種新穎的、編碼isA語(yǔ)義關(guān)系的詞向量模型,然后將向量表示技術(shù)進(jìn)一步推廣到短文本和長(zhǎng)文本領(lǐng)域,分別設(shè)計(jì)、實(shí)現(xiàn)了將短文本和長(zhǎng)文本語(yǔ)義編碼到向量的方法,并深入探索了本文提出的各種文本向量化技術(shù)在自然語(yǔ)言處理任務(wù)中的應(yīng)用價(jià)值。主要研究?jī)?nèi)容包括以下三個(gè)方面:1.IsA關(guān)系詞向量的學(xué)習(xí):IsA語(yǔ)義關(guān)系具有很強(qiáng)的泛化能力,對(duì)文本理解、關(guān)系推斷等有著重要作用。本文設(shè)計(jì)了一種新穎的神經(jīng)網(wǎng)絡(luò)模型,可以快速、有效地將isA語(yǔ)義關(guān)系編碼到詞向量中。將生成的isA詞向量作為模型的特征輸入,本文進(jìn)一步設(shè)計(jì)了兩種機(jī)器學(xué)習(xí)預(yù)測(cè)模型,分別用以判斷任意兩個(gè)單詞之間是否存在上下位語(yǔ)義關(guān)系和主題-修飾詞語(yǔ)義關(guān)系。2.短文本的向量化表示:主要包括語(yǔ)義增強(qiáng)和語(yǔ)義哈希兩部分。短文本廣泛存在于各種應(yīng)用中,像微博,查詢搜索,新聞標(biāo)題等。由于短文本缺乏語(yǔ)義信息,且句法結(jié)構(gòu)隨意,如何快速、有效地比較任意兩個(gè)短文本的語(yǔ)義相似性成為自然語(yǔ)言處理領(lǐng)域的一個(gè)難點(diǎn)。受詞向量學(xué)習(xí)方法的啟發(fā),如果能將短文本通過(guò)神經(jīng)網(wǎng)絡(luò)技術(shù)表示成向量形式,則該問(wèn)題迎刃而解。但是,由于短文本缺乏足夠的上下文信息,直接使用神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)到的向量往往無(wú)法精確地捕獲其語(yǔ)義。針對(duì)這些問(wèn)題,本文提出了一種結(jié)合語(yǔ)義豐富機(jī)制和語(yǔ)義哈希模型的方法。首先,基于Probase語(yǔ)義網(wǎng)提供的知識(shí),為短文本中的每一個(gè)詞語(yǔ)增加概念詞和共現(xiàn)詞,然后使用深層神經(jīng)網(wǎng)絡(luò)將短文本信息映射到低維的二進(jìn)制編碼上,使得該編碼向量能夠表示短文本語(yǔ)義信息,因此該編碼可看做短文本的向量表示。最終,通過(guò)比較任意兩個(gè)短文本的編碼表示之間的海明距離能夠快速、有效地測(cè)量它們的語(yǔ)義相似性。3.長(zhǎng)文本的向量化:基于已有詞向量,本文進(jìn)一步探討了如何高效地將長(zhǎng)文本進(jìn)行向量化的技術(shù),并分析了使用該向量對(duì)文本進(jìn)行聚類和分類的效果。不同于傳統(tǒng)的文本表示方法,本文的主要目的是將長(zhǎng)文本的典型含義而非整體語(yǔ)義信息編碼到向量中。其基本思想是:基于詞向量對(duì)文本單詞進(jìn)行聚類,然后從結(jié)果中挑選出最具語(yǔ)義代表性的單詞聚類,使用該聚類的詞向量生成最終的文本向量。最后,本文進(jìn)行了大量的實(shí)驗(yàn)分析和驗(yàn)證,證明了上述三種向量化學(xué)習(xí)技術(shù)的可靠性和有效性,且訓(xùn)練出的向量表示能廣泛應(yīng)用于各種自然語(yǔ)言處理任務(wù),包括文本分類、聚類,信息檢索,語(yǔ)義關(guān)系識(shí)別等。
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條

1 黃宇棟;李翔;林祥;;互聯(lián)網(wǎng)媒體信息熱點(diǎn)主動(dòng)發(fā)現(xiàn)技術(shù)研究與應(yīng)用[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年05期

2 ;[J];;年期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 于政;基于深度學(xué)習(xí)的文本向量化研究與應(yīng)用[D];華東師范大學(xué);2016年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條

1 丁若堯;基于博客的網(wǎng)絡(luò)話題發(fā)現(xiàn)及追蹤的研究[D];北京交通大學(xué);2011年

2 湯佳園;個(gè)性化學(xué)習(xí)系統(tǒng)的研究與開(kāi)發(fā)[D];江西師范大學(xué);2011年

3 胡俊;基于關(guān)聯(lián)領(lǐng)域的文獻(xiàn)趨勢(shì)分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2013年

,

本文編號(hào):1301568

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1301568.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶6d553***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com