天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學習的中文詞表示學習技術研究

發(fā)布時間:2020-10-24 02:28
   隨著中國國力的日益增強,中文信息處理(CLP,Chinese Language Processing)受到越來越多的重視。目前基于深度學習的自然語言處理的研究主要集中在字母語言(Alphabetic Language)領域,中文基于深度學習的自然語言處理方法大多借鑒自字母語言。無論在詞法、句法、語義等不同的層面上,還是在詞匯、短語、句子和篇章等不同的語言單位上,中文與英語等字母語言相比即有共性也存在差異。字符級(Character-level)信息處理方法能夠有效解決未登錄詞(Out of Vocabulary)問題和低頻詞(Low frequency Words)問題,現(xiàn)階段中文信息處理并沒有將處理粒度拆分到足夠細的程度,因此中文依然面臨未登錄詞和低頻詞的困擾。由于漢字種類繁多,無法與其他字符進行統(tǒng)一處理。由于漢字編碼的問題,數(shù)據處理開銷較大。本文通過對中文詞的構造特性以及漢字內部特征,構造了中文特有的基于筆畫的中文詞向量表示學習方法。在此基礎上,結合中文語言各粒度和維度的層次特征,結合字、詞、音、形等多種特征,構建全新的中文詞表示,并運用到中文信息處理任務中。最后,針對數(shù)據訓練過程中的數(shù)據預處理問題,結合分布式處理手段對模型訓練進行加速。本文針對上述問題分別展開研究,所做的主要工作及創(chuàng)新點包括:1.本文提出了基于通用筆畫的漢字編碼方法,經過多次增補覆蓋了 CJK統(tǒng)一漢字20902個漢字,為基于筆畫的表示學習奠定了堅實的基礎。并將漢字筆畫編碼引入手寫漢字識別,為手寫漢字識別提供了新的解決思路。2.本文提出了基于筆畫的中文詞向量表示學習方法,為中文自然語言處理提供了一種真正字符級(Character-level)的表示學習思路,有效解決了中文詞表示學習的未登錄詞和低頻詞的問題。使用相似部件對筆畫向量進行訓練,能夠更好地提取漢字之間的關聯(lián)特征。3.通過對不同粒度特征的分析,本文提出了基于多維度特征的中文詞表示學習算法。該方法結合中文詞的音、形、字、詞多個維度的特征,在保證細粒度特征在未登陸詞和低頻詞上優(yōu)勢的前提下,更好地結合更多維度的特征。在一定程度上,解決了形近錯別字、諧音同音錯別字對文本理解帶來的影響。4.針對模型預處理過程的效率問題,本文提出了基于內存的數(shù)據備份策略與數(shù)據遷移策略,以解決數(shù)據預處理的熱點數(shù)據問題及熱點數(shù)據匯聚問題。
【學位單位】:中國科學技術大學
【學位級別】:博士
【學位年份】:2018
【中圖分類】:TP391.1;TP181
【部分圖文】:

柱狀圖,中文,英語,自然語言處理


翻譯質量的數(shù)據為例,如表1.2所示。在該評分體系中,分數(shù)越高說明翻譯的質??量越好,最高分設定為6分。我們將與中文相關的各翻譯放置在一起,繪制成重??疊柱狀圖1.2,更清晰地比較中文與字母語言的差異性。如表1.2所示,涉及中文??的翻譯質量明顯低于其他語言間的翻譯質量。由于中文的特殊性,在文本分類、??表1.2翻譯質量平均評分??PBMT?GNMT?人類??英語->西班牙語?4.885?5.428?5.504??西班牙語->?英語?4.872?5.187?5.372??英語->?法語?4.932?5.295?5.496??法語->?英語?5.046?5.343?5.404??英語->?漢語?4.035?4.594?4.987??漢語->?英語?3.694?4.263?4.636??自動文本摘要等自然語言處理的基本任務中使用基于深度學習的方法也有類似??3??

柱狀圖,柱狀圖,中文,使用人


?伯語?牙語??■母語使用人數(shù)(1.000,000)??第二語言使用人數(shù)(1,000,000)??圖1.1世界主要語種使用人數(shù)柱狀圖??目前基于深度學習的自然語言處理的研究主要集中在字母語言領域,中文??基于深度學習的自然語言處理方法大多借鑒自字母語言。由于結構語法上的差??異,中文與字母語言的語言單位有著各自的特點。例如,字母語言的詞與詞之間??有明顯的界限,而中文的基本書寫單位是漢字,詞與詞之間沒有明確的界限。想??要使用中文詞作為基本單位,必須首先要對文本進行分詞。分詞的準確度往往能??夠直接影響上層應用的性能,給中文信息處理又增加一些難度。??我們。玻埃保赌旯雀韫驹跈C器翻譯領域一個突破性的模型GNMT[5I中對??翻譯質量的數(shù)據為例,如表1.2所示。在該評分體系中,分數(shù)越高說明翻譯的質??量越好,最高分設定為6分。我們將與中文相關的各翻譯放置在一起,繪制成重??疊柱狀圖1.2

示意圖,示意圖,中文,漢字


圖1.3本文各項工作間關系示意圖??1.3論文的組織結構??本文著眼于基于深度學習的中文表示學習,通過理論分析和實驗對比,探索??中文表示學習現(xiàn)有方法的優(yōu)劣,并提出自己的中文表示學習方法。??本文一共分為七章,組織結構如下:??第一章首先介紹了中文信息處理的研究現(xiàn)狀,分析了中文表示學習存在的??挑戰(zhàn)性問題以及這些問題的研究意義,進而引出本文的研究內容并對研究方法??進行簡要的說明。??第二章介紹了現(xiàn)有的詞表示學習的方法,并簡要分析了不同方法的優(yōu)勢和??劣勢,作為本文模型設計的基礎。??第三章提出了?C2S模型實現(xiàn)漢字向筆畫序列的轉換。并將該對應關系應用??到手寫漢字勢識別,在手寫漢字識別中對該對應關系簡化,并增加漢字結構部??。,,
【相似文獻】

相關期刊論文 前10條

1 煜;;信息處理用中文詞庫系統(tǒng)等成果通過部級鑒定[J];科技信息;1987年10期

2 張敏;中文詞認知研究綜述[J];心理科學;1991年05期

3 劉超超;;大數(shù)據環(huán)境下中文詞庫動態(tài)更新系統(tǒng)模型研究[J];濟寧學院學報;2017年05期

4 王永成,蘇海菊,莫燕;中文詞的自動辦理[J];中文信息學報;1990年04期

5 劉瑜;;喜歡一個人,像曇花一現(xiàn)[J];時代青年(悅讀);2015年07期

6 林亞平;異或哈希算法查找中文詞組性能評價[J];中文信息學報;1995年01期

7 詹海生;王啟戶;;一種自適應字長的中文詞庫的構建方法[J];計算機研究與發(fā)展;2011年S1期

8 沈筱彥;陳俊亮;孟祥武;張玉潔;張磊;;可并行中文同主題詞聚類新算法[J];北京郵電大學學報;2009年04期

9 林亞平;異或哈希算法查找中文詞組性能評價[J];湖南大學學報(自然科學版);1994年05期

10 馬松濤;高級中文詞組生成系統(tǒng)GJCZ[J];微電子學與計算機;1986年05期


相關博士學位論文 前2條

1 莊航;基于深度學習的中文詞表示學習技術研究[D];中國科學技術大學;2018年

2 龍騰;旋轉方向無關的無約束手寫中文詞組識別[D];華南理工大學;2008年


相關碩士學位論文 前6條

1 劉世柯;基于神經網絡的中文詞表示方法研究[D];大連理工大學;2017年

2 關爾群;多媒體課件中不同色彩文字材料對閱讀影響的眼動研究[D];遼寧師范大學;2003年

3 張若昕;漢英“借(borrow/lend)”的構式對比研究[D];吉林大學;2013年

4 何水霞;基于B-Tree索引和BerkeleyDB的中文詞庫的設計和實現(xiàn)[D];華中科技大學;2009年

5 于芳;中英雙語跨語言詞匯通達啟動實驗研究[D];河北大學;2009年

6 張永田;詞激活力模型在中文詞發(fā)現(xiàn)中的應用研究[D];北京郵電大學;2013年



本文編號:2853893

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2853893.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶e6eb7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com