天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

自然語言句子級結(jié)構(gòu)表示的建模與學習

發(fā)布時間:2017-12-17 22:19

  本文關鍵詞:自然語言句子級結(jié)構(gòu)表示的建模與學習


  更多相關文章: 表示學習 張量模型 半監(jiān)督學習 自然語言處理 深度學習 關系抽取


【摘要】:表示學習方法可以為自然語言處理任務學習低維的平滑特征表示,從而緩解數(shù)據(jù)稀疏問題對于基于有監(jiān)督學習的自然語言處理方法的影響。近年來,服務于如短語和句法樹等自然語言結(jié)構(gòu)的表示學習方法得到了廣泛的關注。然而已有方法往往局限于對于特定類型結(jié)構(gòu)的表示,而且只能使用受限的語言學標注信息從而描述能力有限。受到以上現(xiàn)狀的啟發(fā),本文考慮通過結(jié)合語言學知識和無監(jiān)督的表示學習方法,從而更好地建立自然語言的結(jié)構(gòu)表示。為了實現(xiàn)這一目標,本文提出了一種新的結(jié)構(gòu)表示模型,并為該模型的訓練過程提出了新的方法。同時本文對于結(jié)構(gòu)表示在自然語言處理中的應用進行了新的探索。本文研究的核心在于表示自然語言結(jié)構(gòu)各關鍵信息之間的合取。第一,為了說明合取思想的重要性,本文首先從最簡單的n元詞組表示的構(gòu)造方法及應用開始,基于n元詞組本身是其各組成詞之間的合取這一事實,展示了詞表示的合取對于構(gòu)建n元詞組表示的重要性。傳統(tǒng)的基于詞嵌入的n元詞組表示方法通過對詞嵌入向量進行拼接來表示n元詞組,然而正如本文的的分析所示,這樣的方法不能反映n元詞組各組成詞之間的合取信息。本文則通過對詞嵌入進行聚類,并對離散的聚類進行合取對n元詞組進行表示。這一方法相比詞嵌入拼接得到了更好的實驗結(jié)果,從而證明了合取信息的重要性。本文進一步在訓練樣本的去噪問題中展示了上述n元詞組表示的有效性。第二,本文提出了一個通用的結(jié)構(gòu)表示模型。對于任意的輸入結(jié)構(gòu),只要我們可以將其表示為以詞為節(jié)點的圖,該模型便可為其構(gòu)造結(jié)構(gòu)表示。本文的這一模型首先將輸入結(jié)構(gòu)分解為子結(jié)構(gòu),每個子結(jié)構(gòu)包含了一些詞節(jié)點(表示為詞嵌入),和一些帶有結(jié)構(gòu)信息屬性的邊(表示為語言學特征)。本文的模型通過對上述兩種信息對應的向量求外積來獲得它們的合取信息,從而得到每個子結(jié)構(gòu)的表示。我們對所有子結(jié)構(gòu)表示求和,得到原始輸入結(jié)構(gòu)的表示。在上述結(jié)構(gòu)表示的基礎上,本文的模型通過一個參數(shù)張量獲得目標任務的輸出。這一模型被稱為基于豐富特征的結(jié)構(gòu)表示合成模型(Feature-rich Compositional Embedding Model,FCM)。本文主要關注該模型在句子級別結(jié)構(gòu)的表示任務上的應用,并證明該模型在多個關系抽取任務上都獲得了業(yè)界領先的結(jié)果。第三,上面的FCM模型當子結(jié)構(gòu)包含詞節(jié)點較多,或者當張量的某個輸入視角維度較高時,會因為模型的參數(shù)過多而易于過擬合。本文通過張量低秩近似的方法,對FCM進行了近似,得到一種稱為低秩FCM的新模型(Low-Rank FCM,LRFCM)。這一近似的結(jié)果是每一個視角上的輸入都被映射到更低維的向量,減小了模型的參數(shù)空間。同時,通過張量的CP模式近似,我們將原本耗時的張量乘法近似為上述低維向量之間的點積。上述改進有效地減小了FCM的參數(shù)空間并提升了模型的運行速度,并在多個任務上取得了實驗結(jié)果的提升。第四,本文提出了一種基于有標記數(shù)據(jù)和無標記數(shù)據(jù)的聯(lián)合訓練方法,用于對上述模型進行更充分的訓練。相比傳統(tǒng)的流水線式半監(jiān)督訓練方法,本文提出的方法有利于更充分地訓練未被有標記數(shù)據(jù)覆蓋的詞的詞嵌入。為了利用無標記數(shù)據(jù),本文提出了一種基于語言模型思想的方法,使用一個結(jié)構(gòu)的表示預測該結(jié)構(gòu)的上下文詞。最后,本文以短語嵌入的學習為例,展示了本文所提出的通用表示模型(及其低秩近似)以及聯(lián)合訓練方法的重要作用。上述方法在多個短語相似度任務上都取得了較大的提升。本文提出的方法在包括關系抽取、短語相似度、序列標注和跨語言映射等多個任務上都取得了業(yè)界領先的結(jié)果。同時本文所提出的基于合取的表示建模思想也為未來的表示學習的研究提供了新的方法和視角。
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP391.1

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 譚俊明;;自然語言的理解綜述[J];科技廣場;2008年05期

2 何祖軍;胡靜;;自然語言的規(guī)范與轉(zhuǎn)化——基于嵌入式系統(tǒng)的描述[J];計算機與現(xiàn)代化;2008年11期

3 劉海濤;關于自然語言計算機處理的幾點思考[J];術(shù)語標準化與信息技術(shù);2001年01期

4 劉三滿,劉荷花;論計算機處理自然語言的新趨向[J];科技情報開發(fā)與經(jīng)濟;2002年04期

5 胡廣朋;用于計算機輔助教學的自然語言接口[J];微計算機應用;2003年05期

6 張世紅;胡佳佳;宋繼華;劉會霞;琚文勝;;網(wǎng)絡環(huán)境下的自然語言檢索[J];醫(yī)學情報工作;2005年06期

7 胡廣朋;錢遙立;沈繼峰;;一種應用規(guī)劃識別建立自然語言接口的方法[J];江蘇科技大學學報(自然科學版);2006年03期

8 杜津;楊一平;曾雋芳;;自然語言時間信息的模擬與計算[J];計算機工程與設計;2006年13期

9 張雪英;閭國年;宦建;;面向漢語的自然語言路徑描述方法[J];地球信息科學;2008年06期

10 彭程;;基于本體論的電子商務自然語言研究[J];微計算機信息;2008年18期

中國重要會議論文全文數(shù)據(jù)庫 前7條

1 胡健;黃麗華;劉杰;;基于自然語言的智能決策支持系統(tǒng)人機接口[A];管理科學與系統(tǒng)科學進展——全國青年管理科學與系統(tǒng)科學論文集(第4卷)[C];1997年

2 盛新華;柳勁;;自然語言否定的語用功能與交際策略[A];改革開放以來邏輯的歷程——中國邏輯學會成立30周年紀念文集(上卷)[C];2009年

3 李靈輝;林爾正;林玉婷;林丹紅;;基于自然語言檢索的中醫(yī)中風康復古代文獻數(shù)據(jù)庫構(gòu)建[A];福建省圖書館學會2011年學術(shù)年會論文集[C];2011年

4 谷明哲;孟小峰;周勇;;中文自然語言查詢界面NChiql的Java設計實現(xiàn)[A];第十六屆全國數(shù)據(jù)庫學術(shù)會議論文集[C];1999年

5 周勇;孟小峰;劉爽;王珊;;數(shù)據(jù)庫自然語言查詢系統(tǒng)NChiql中語義依存樹向SQL的轉(zhuǎn)換[A];第十六屆全國數(shù)據(jù)庫學術(shù)會議論文集[C];1999年

6 萬繼華;;基于哲學本體論的真值演算系統(tǒng)——實現(xiàn)計算機理解自然語言的邏輯方法[A];邏輯學及其應用研究——第四屆全國邏輯系統(tǒng)、智能科學與信息科學學術(shù)會議論文集[C];2008年

7 才讓加;吉太加;;藏語語料庫中詞性分類代碼的確定[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術(shù)會議論文集[C];2006年

中國博士學位論文全文數(shù)據(jù)庫 前5條

1 田飛;用于自然語言分布式表達的聯(lián)合學習方法研究[D];中國科學技術(shù)大學;2016年

2 于墨;自然語言句子級結(jié)構(gòu)表示的建模與學習[D];哈爾濱工業(yè)大學;2016年

3 李虎;基于本體和規(guī)則的受控自然語言系統(tǒng)模型研究[D];華中科技大學;2010年

4 孟小峰;中文數(shù)據(jù)庫自然語言查詢處理研究[D];中國科學院研究生院(計算技術(shù)研究所);1999年

5 朱少楠;面向地理場景的“文—圖—景”轉(zhuǎn)換方法研究[D];南京師范大學;2013年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 石亞坤;自然語言的人類理解與機器“理解”對比研究[D];陜西師范大學;2011年

2 柳勁;自然語言否定的邏輯思考[D];湘潭大學;2009年

3 裴君波;信息分發(fā)中自然語言訂閱接口的研究[D];北京郵電大學;2015年

4 付勝博;基于自然語言的空間數(shù)據(jù)檢索研究[D];西北工業(yè)大學;2007年

5 武睿峰;自然語言密寫分析及密寫量檢測[D];西北大學;2014年

6 李霞;自然語言篇章中時間信息的研究及在產(chǎn)品設計領域中的應用[D];西安電子科技大學;2013年

7 汪志南;農(nóng)業(yè)信息自然語言控制系統(tǒng)的研究[D];中國農(nóng)業(yè)科學院;2001年

8 徐娟;面向地圖搜索領域的自然語言句子g鏌逡饌祭斫夥椒ㄑ芯縖D];復旦大學;2014年

9 詹思瑜;自然語言的計算機處理模型[D];電子科技大學;2003年

10 周洪楷;基于數(shù)據(jù)庫的自然語言智能接口的研究與實現(xiàn)[D];西安電子科技大學;2011年



本文編號:1301786

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xxkjbs/1301786.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶97023***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com