天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于字詞對(duì)齊的中文字詞向量表示方法

發(fā)布時(shí)間:2018-04-13 17:19

  本文選題:自然語(yǔ)言處理 + 表示學(xué)習(xí)。 參考:《中國(guó)科學(xué)技術(shù)大學(xué)》2017年碩士論文


【摘要】:詞語(yǔ)是構(gòu)成文本的最小語(yǔ)義單元,很多自然語(yǔ)言處理任務(wù)都會(huì)涉及詞語(yǔ)表示的問(wèn)題。詞語(yǔ)表示的方法最常見(jiàn)的是獨(dú)熱表示.然而此方法存在稀疏問(wèn)題,且不能捕捉詞語(yǔ)間的語(yǔ)義聯(lián)系。以表示學(xué)習(xí)為基礎(chǔ)的詞語(yǔ)表示旨在用稠密的低維向量來(lái)表示詞語(yǔ)的語(yǔ)義信息,其中分布式語(yǔ)義表示是表示學(xué)習(xí)中最常見(jiàn)的詞語(yǔ)表示方法。這種方法得到的詞向量在很多自然語(yǔ)言處理問(wèn)題上取得了成功。借鑒于英文的詞向量表示方法,一些學(xué)者對(duì)中文詞向量的表示進(jìn)行了研究。最近的一些研究表明,中文詞語(yǔ)內(nèi)部的漢字也具有豐富的語(yǔ)義信息,基于字詞聯(lián)合學(xué)習(xí)的模型在一些中文自然語(yǔ)言處理任務(wù)上取得了一定的成功。然而現(xiàn)有的處理方法均沒(méi)有考慮詞語(yǔ)內(nèi)部漢字對(duì)詞語(yǔ)語(yǔ)義貢獻(xiàn)的差異性,使得學(xué)習(xí)的詞向量在一些任務(wù)上的表現(xiàn)不盡如人意。本文基于此問(wèn)題,提出了一種計(jì)算組成詞語(yǔ)的漢字對(duì)詞語(yǔ)的語(yǔ)義貢獻(xiàn)的方法,這種方法利用了其他語(yǔ)言的語(yǔ)義信息。我們使用了這種基于相似度的方法來(lái)聯(lián)合學(xué)習(xí)字詞向量。并且通過(guò)實(shí)驗(yàn),這種方法對(duì)漢字消歧和識(shí)別非語(yǔ)義可組合詞也有很好的效果。本文具體工作如下:(1)本文根據(jù)中文的特點(diǎn),提出了一種基于字詞相似度的字詞向量學(xué)習(xí)模型。該方法在詞語(yǔ)訓(xùn)練過(guò)程中,計(jì)算了不同內(nèi)部漢字對(duì)詞語(yǔ)的語(yǔ)義貢獻(xiàn),更好地對(duì)中文的詞語(yǔ)進(jìn)行建模,使?jié)h字對(duì)學(xué)習(xí)到的詞向量起到很好的平滑效果,并且通過(guò)字的關(guān)聯(lián)使詞的上下文信息更加豐富。(2)與傳統(tǒng)的基于上下文聚類(lèi)的漢字消歧方法不同,本文創(chuàng)新地融入了英文這種富信息語(yǔ)言的優(yōu)勢(shì),提出了一種新的方法來(lái)對(duì)漢字進(jìn)行消歧。這種方法利用了外部資源,使用了類(lèi)似K-means的方式進(jìn)行了分類(lèi)。(3)并非所有的詞都是語(yǔ)義可組合的。例如命名實(shí)體,舶來(lái)詞等等。本文在現(xiàn)有工作的基礎(chǔ)上,提出了一種辨別非語(yǔ)義可組合詞的方法。(4)在實(shí)驗(yàn)部分,通過(guò)在多個(gè)不同數(shù)據(jù)集上,不同維度的比較,驗(yàn)證了本文提出算法的有效性。
[Abstract]:Words are the smallest semantic unit of text, and many natural language processing tasks involve the representation of words.The most common way to express words is to express heat alone.However, this method has the problem of sparse, and can not capture the semantic relationship between words.The representation of words based on representation learning aims to represent the semantic information of words with dense low-dimensional vectors, in which distributed semantic representation is the most common representation of words in learning.The word vectors obtained by this method are successful in many natural language processing problems.Some scholars have studied the representation of Chinese word vectors for reference to English word vector representation.Some recent studies have shown that Chinese characters have abundant semantic information, and the model based on word combination learning has been successful in some Chinese natural language processing tasks.However, the existing processing methods do not take into account the differences of the Chinese characters' contribution to the semantic meaning of the words, which makes the performance of the learning word vector unsatisfactory in some tasks.Based on this problem, this paper proposes a method to calculate the semantic contribution of Chinese characters to words, which utilizes the semantic information of other languages.We use this similarity-based approach to learn word vectors jointly.The experiment shows that this method has good effect on Chinese character disambiguation and recognition of non-semantic combinable words.The main work of this paper is as follows: (1) according to the characteristics of Chinese, this paper proposes a word vector learning model based on word similarity.In the process of word training, this method calculates the semantic contribution of different internal Chinese characters to the words, and models the Chinese words better, so that the Chinese characters have a good smoothing effect on the word vectors learned.Moreover, the contextual information of words is enriched by the association of words, which is different from the traditional Chinese character disambiguation method based on contextual clustering. This paper innovatively integrates the advantages of English, which is a rich information language, in this paper.A new method is proposed to disambiguate Chinese characters.Not all words are semantically combinable.For example, naming entities, foreign words and so on.Based on the existing work, this paper proposes a method of identifying non-semantically combinable words. In the experimental part, the effectiveness of the proposed algorithm is verified by comparing different dimensions on many different datasets.
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前5條

1 趙文;高速中英文翻譯字典卡[J];中國(guó)對(duì)外貿(mào)易;1994年01期

2 史穎;《CRS-漢語(yǔ)拼字方案》再續(xù)[J];信息技術(shù)與標(biāo)準(zhǔn)化;2005年09期

3 金山;;雇個(gè)責(zé)任編輯[J];軟件;2000年08期

4 林春;王嘉梅;張建營(yíng);樊津瑜;;彝文網(wǎng)頁(yè)敏感信息監(jiān)測(cè)系統(tǒng)的研究[J];中國(guó)新通信;2013年24期

5 王坤,董少明;計(jì)算機(jī)錄入技術(shù)專(zhuān)用周的安排[J];機(jī)械職業(yè)教育;1996年10期

相關(guān)碩士學(xué)位論文 前4條

1 王麗婷;兩種文言文字詞演示型學(xué)習(xí)資源學(xué)習(xí)效果比較研究[D];華中師范大學(xué);2015年

2 高芳菲;遷移理論在初中文言文字詞教學(xué)中的應(yīng)用研究[D];閩南師范大學(xué);2015年

3 徐健;基于字詞對(duì)齊的中文字詞向量表示方法[D];中國(guó)科學(xué)技術(shù)大學(xué);2017年

4 楊璐;高中文言文字詞教學(xué)存在的問(wèn)題及應(yīng)對(duì)策略[D];信陽(yáng)師范學(xué)院;2017年



本文編號(hào):1745454

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/1745454.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)c8f03***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com
欧美不卡一区二区在线视频| 黄色美女日本的美女日人| 正在播放玩弄漂亮少妇高潮| 日本一二三区不卡免费| 国产成人精品一区在线观看| 国产精品欧美激情在线观看| 国产成人av在线免播放观看av| 亚洲中文字幕在线综合视频| 中文字幕人妻av不卡| 69精品一区二区蜜桃视频| 国产又长又粗又爽免费视频| 最新国产欧美精品91| 亚洲一区二区三区三州| 91日韩在线观看你懂的| 99久久精品午夜一区二区| 老司机精品一区二区三区| 亚洲国产另类久久精品| 中文字日产幕码三区国产| 国产一区二区久久综合| 日韩人妻毛片中文字幕| 欧美日韩成人在线一区| 国产欧美日韩精品一区二| 伊人欧美一区二区三区| 风韵人妻丰满熟妇老熟女av| 暴力三级a特黄在线观看| 国产免费观看一区二区| 一区二区三区四区亚洲另类| 欧美午夜不卡在线观看| 欧美黑人巨大一区二区三区 | 精品少妇人妻av一区二区蜜桃| 亚洲永久一区二区三区在线| 视频一区中文字幕日韩| 真实偷拍一区二区免费视频| 五月情婷婷综合激情综合狠狠 | 欧美一级内射一色桃子| 欧美一级黄片免费视频| 超碰在线播放国产精品| 亚洲另类女同一二三区| 国内女人精品一区二区三区| 日本办公室三级在线观看| 亚洲精品偷拍一区二区三区|