天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

用于自然語言分布式表達(dá)的聯(lián)合學(xué)習(xí)方法研究

發(fā)布時(shí)間:2018-04-12 16:30

  本文選題:自然語言處理 + 神經(jīng)網(wǎng)絡(luò); 參考:《中國科學(xué)技術(shù)大學(xué)》2016年博士論文


【摘要】:自然語言分布式表達(dá)(Distributed Representations of Natural Language)技術(shù)是指利用深度神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練得到自然語言對(duì)象(單詞、短語、句子、段落和文檔等)的向量表達(dá)的技術(shù),這種向量也被稱為自然語言嵌入向量(Natural Language Embedding Vector)。一般來講,分布式表達(dá)向量是從大規(guī)模無監(jiān)督的語料中學(xué)習(xí)得來的低維、稠密實(shí)數(shù)值向量,因?yàn)槠涑休d了該自然語言對(duì)象的語義信息,所以可以作為自然語言的一種有效的表達(dá),應(yīng)用于各項(xiàng)自然語言處理的任務(wù)中,并取得了非常優(yōu)異的實(shí)際表現(xiàn)。在本論文中,與以往完全從原始文本語料學(xué)習(xí)(Learning From Scratch)得到自然語言分布式表達(dá)的方法不同,我們?cè)噲D融入更多的信息,達(dá)到聯(lián)合訓(xùn)練自然語言分布式表達(dá)向量的目的。這些信息有可能是外源信息(例如字典信息與知識(shí)圖譜信息),也有可能是原始語料信息的其他抽象、或者高層次表達(dá)(例如單詞的多義性信息與主題信息)。這種聯(lián)合訓(xùn)練的方法一方面可以利用更多的信息提升原始分布式表達(dá)向量的質(zhì)量,另外一方面可以利用自然語言的分布式表達(dá)更好地幫助相應(yīng)的任務(wù)(例如主題建模),從而達(dá)到更佳的實(shí)際表現(xiàn)。具體來說,1)我們通過單詞多義性信息與單詞分布式表達(dá)聯(lián)合訓(xùn)練的方法來克服傳統(tǒng)單詞分布式表達(dá)以單詞作為基本語義嵌入單元的限制,所提出的算法可以精確表達(dá)多義單詞的不同語義,取得了良好的實(shí)際效果,同時(shí)我們?cè)诒疚闹薪榻B了該算法的大規(guī)模并行實(shí)現(xiàn):2)我們通過知識(shí)圖譜表示與單詞分布式表達(dá)聯(lián)合訓(xùn)練的方法來克服原始文本驅(qū)動(dòng)的單詞嵌入向量無法表示復(fù)雜知識(shí)關(guān)系的限制;3)基于這兩種聯(lián)合訓(xùn)練的方式我們提出了一種利用單詞分布式表達(dá)來完成自動(dòng)智商測(cè)試的方法,在標(biāo)準(zhǔn)詞匯智商測(cè)試任務(wù)上取得了比該測(cè)試的人類參與者的表現(xiàn)更高的準(zhǔn)確率;4)更進(jìn)一步,我們提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)的句子分布式表達(dá)模型和主題模型的聯(lián)合訓(xùn)練方法,利用該方法訓(xùn)練得到的主題模型可以建模單詞序列性信息,與忽略該信息的傳統(tǒng)主題模型相比在定量任務(wù)和定性任務(wù)上都有更好的表現(xiàn)。
[Abstract]:Distributed Representations of Natural language (NLP) is a technique that uses the depth neural network algorithm to train the vector representation of natural language objects (words, phrases, sentences, paragraphs, documents, etc.).This kind of vector is also called Natural Language Embedding vector.In general, distributed representation vectors are low-dimensional, dense real-value vectors that are learned from large-scale unsupervised corpus because they carry the semantic information of the natural language object.Therefore, it can be used as an effective expression of natural language, and it can be applied to various tasks of natural language processing, and it has achieved excellent practical performance.In this thesis, we try to integrate more information into the distributed expression of natural language, and achieve the purpose of training distributed expression vector of natural language.These information may be exogenous information (such as dictionary information and knowledge map information), other abstractions of original corpus information, or high-level expressions (such as polysemous information and subject information of words).On the one hand, this joint training method can use more information to improve the quality of the original distributed expression vector.On the other hand, the distributed representation of natural language can be used to better help the corresponding tasks (such as topic modeling), so as to achieve better practical performance.Specifically, we can overcome the limitation of traditional word distributed expression by using word polysemous information and word distributed expression as the basic semantic embedding unit.The proposed algorithm can accurately express the different semantics of polysemous words, and achieves good practical results.At the same time, we introduce the large-scale parallel implementation of the algorithm: 2) We use the method of knowledge map representation and word distributed expression training to overcome the complexity of original text-driven word embedding vector.Based on these two methods of joint training, we propose a method of using word distributed expression to complete the automatic IQ test.In the standard vocabulary IQ test task, we achieved a higher accuracy rate than the human participants in the test.In this paper, we propose a joint training method of sentence distributed expression model and topic model based on recursive neural network (Recurrent Neural Network), which can be used to model the sequential information of words.Compared with the traditional thematic model which ignores this information, it has better performance in quantitative and qualitative tasks.
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 譚俊明;;自然語言的理解綜述[J];科技廣場(chǎng);2008年05期

2 何祖軍;胡靜;;自然語言的規(guī)范與轉(zhuǎn)化——基于嵌入式系統(tǒng)的描述[J];計(jì)算機(jī)與現(xiàn)代化;2008年11期

3 劉海濤;關(guān)于自然語言計(jì)算機(jī)處理的幾點(diǎn)思考[J];術(shù)語標(biāo)準(zhǔn)化與信息技術(shù);2001年01期

4 劉三滿,劉荷花;論計(jì)算機(jī)處理自然語言的新趨向[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2002年04期

5 胡廣朋;用于計(jì)算機(jī)輔助教學(xué)的自然語言接口[J];微計(jì)算機(jī)應(yīng)用;2003年05期

6 張世紅;胡佳佳;宋繼華;劉會(huì)霞;琚文勝;;網(wǎng)絡(luò)環(huán)境下的自然語言檢索[J];醫(yī)學(xué)情報(bào)工作;2005年06期

7 胡廣朋;錢遙立;沈繼峰;;一種應(yīng)用規(guī)劃識(shí)別建立自然語言接口的方法[J];江蘇科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年03期

8 杜津;楊一平;曾雋芳;;自然語言時(shí)間信息的模擬與計(jì)算[J];計(jì)算機(jī)工程與設(shè)計(jì);2006年13期

9 張雪英;閭國年;宦建;;面向漢語的自然語言路徑描述方法[J];地球信息科學(xué);2008年06期

10 彭程;;基于本體論的電子商務(wù)自然語言研究[J];微計(jì)算機(jī)信息;2008年18期

相關(guān)會(huì)議論文 前7條

1 胡健;黃麗華;劉杰;;基于自然語言的智能決策支持系統(tǒng)人機(jī)接口[A];管理科學(xué)與系統(tǒng)科學(xué)進(jìn)展——全國青年管理科學(xué)與系統(tǒng)科學(xué)論文集(第4卷)[C];1997年

2 盛新華;柳勁;;自然語言否定的語用功能與交際策略[A];改革開放以來邏輯的歷程——中國邏輯學(xué)會(huì)成立30周年紀(jì)念文集(上卷)[C];2009年

3 李靈輝;林爾正;林玉婷;林丹紅;;基于自然語言檢索的中醫(yī)中風(fēng)康復(fù)古代文獻(xiàn)數(shù)據(jù)庫構(gòu)建[A];福建省圖書館學(xué)會(huì)2011年學(xué)術(shù)年會(huì)論文集[C];2011年

4 谷明哲;孟小峰;周勇;;中文自然語言查詢界面NChiql的Java設(shè)計(jì)實(shí)現(xiàn)[A];第十六屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集[C];1999年

5 周勇;孟小峰;劉爽;王珊;;數(shù)據(jù)庫自然語言查詢系統(tǒng)NChiql中語義依存樹向SQL的轉(zhuǎn)換[A];第十六屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集[C];1999年

6 萬繼華;;基于哲學(xué)本體論的真值演算系統(tǒng)——實(shí)現(xiàn)計(jì)算機(jī)理解自然語言的邏輯方法[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會(huì)議論文集[C];2008年

7 才讓加;吉太加;;藏語語料庫中詞性分類代碼的確定[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C];2006年

相關(guān)博士學(xué)位論文 前4條

1 田飛;用于自然語言分布式表達(dá)的聯(lián)合學(xué)習(xí)方法研究[D];中國科學(xué)技術(shù)大學(xué);2016年

2 李虎;基于本體和規(guī)則的受控自然語言系統(tǒng)模型研究[D];華中科技大學(xué);2010年

3 孟小峰;中文數(shù)據(jù)庫自然語言查詢處理研究[D];中國科學(xué)院研究生院(計(jì)算技術(shù)研究所);1999年

4 朱少楠;面向地理場(chǎng)景的“文—圖—景”轉(zhuǎn)換方法研究[D];南京師范大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 石亞坤;自然語言的人類理解與機(jī)器“理解”對(duì)比研究[D];陜西師范大學(xué);2011年

2 劉曉;面向高德地圖的自然語言接口語義解析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];南京師范大學(xué);2015年

3 孫婷婷;漢語搭配獲取方法研究[D];江蘇科技大學(xué);2015年

4 徐娟;面向地圖搜索領(lǐng)域的自然語言句子g鏌逡饌祭斫夥椒ㄑ芯縖D];復(fù)旦大學(xué);2014年

5 蔡靜怡;基于概念圖的關(guān)聯(lián)規(guī)則的自然語言表示方法[D];河北師范大學(xué);2015年

6 柳勁;自然語言否定的邏輯思考[D];湘潭大學(xué);2009年

7 裴君波;信息分發(fā)中自然語言訂閱接口的研究[D];北京郵電大學(xué);2015年

8 付勝博;基于自然語言的空間數(shù)據(jù)檢索研究[D];西北工業(yè)大學(xué);2007年

9 武睿峰;自然語言密寫分析及密寫量檢測(cè)[D];西北大學(xué);2014年

10 李霞;自然語言篇章中時(shí)間信息的研究及在產(chǎn)品設(shè)計(jì)領(lǐng)域中的應(yīng)用[D];西安電子科技大學(xué);2013年



本文編號(hào):1740532

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1740532.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶475ea***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
精品国产av一区二区三区不卡蜜 | 东京热电东京热一区二区三区 | 欧美日韩国产精品自在自线| 丰满少妇被粗大猛烈进出视频| 亚洲一区二区三区日韩91| 欧美日韩国产精品自在自线| 国产精品内射婷婷一级二级| 日韩精品区欧美在线一区| 久久精品亚洲欧美日韩| 亚洲精品中文字幕欧美| 丰满少妇被粗大猛烈进出视频| 丰满少妇高潮一区二区| 欧美成人一区二区三区在线| 午夜精品一区二区av| 小黄片大全欧美一区二区| 精品久久av一二三区| 91人妻丝袜一区二区三区| 亚洲性生活一区二区三区| 亚洲高清欧美中文字幕| 亚洲国产成人爱av在线播放下载| 欧美野外在线刺激在线观看| 欧美一区二区三区高潮菊竹| 人妻精品一区二区三区视频免精| 日韩人妻欧美一区二区久久| 插进她的身体里在线观看骚| 精品香蕉国产一区二区三区| 在线免费看国产精品黄片| 美女露小粉嫩91精品久久久| 内用黄老外示儒术出处| 精品一区二区三区乱码中文| 99视频精品免费视频播放| 国产午夜福利一区二区| 欧洲精品一区二区三区四区| 日本不卡一本二本三区| 国产一级内射麻豆91| 久久国产青偷人人妻潘金莲| 精品亚洲香蕉久久综合网| 日韩欧美高清国内精品| 日韩人妻毛片中文字幕| 亚洲国产黄色精品在线观看 | 国产亚洲精品俞拍视频福利区|