天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于神經(jīng)網(wǎng)絡(luò)的文本特征表示關(guān)鍵技術(shù)研究

發(fā)布時(shí)間:2021-03-14 19:45
  隨著互聯(lián)網(wǎng)時(shí)代的到來,文本類型的數(shù)據(jù)量有了爆發(fā)式的增長。面對海量文本數(shù)據(jù),如何從其中提取出有意義的信息是自然語言處理的研究重點(diǎn)。近年來,隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)在圖像、語音等方面的研究均取得了較好的成果,在部分實(shí)際任務(wù)中,甚至可以達(dá)到或超越人類水平。然而在自然語言處理方面,由于語言的復(fù)雜性和抽象性,對語言的理解一直是人工智能領(lǐng)域較難突破的一部分。文本表示是大部分自然語言處理任務(wù)的基礎(chǔ)。文本表示的核心是將自然語言轉(zhuǎn)變?yōu)橛?jì)算機(jī)可處理的形式,并保留文本對應(yīng)的語義等信息,以便將其運(yùn)用在具體的實(shí)際任務(wù)中。本文以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)模型,以文本的特征表示為研究重點(diǎn),針對不同層級(jí)和粒度的文本單元,提出基于神經(jīng)網(wǎng)絡(luò)的文本特征表示方法,對文本內(nèi)部的特征進(jìn)行提取,其主要的研究內(nèi)容和創(chuàng)新點(diǎn)如下。1.基于字形結(jié)構(gòu)的中文繁體字向量模型研究。本文針對中文繁體字,提出了一種基于文字圖形特征的低于字符級(jí)別的字向量表示方式。通過對象形文字的字形特征學(xué)習(xí),得到字形所表示的語義結(jié)構(gòu)等信息,豐富了字向量的含義。在模型方面,首先提取中文繁體字的偏旁信息,使用連續(xù)詞袋模型作為基礎(chǔ),將偏旁信息作為輸入信息的一部分參與模型運(yùn)算,根據(jù)上... 

【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:117 頁

【學(xué)位級(jí)別】:博士

【部分圖文】:

基于神經(jīng)網(wǎng)絡(luò)的文本特征表示關(guān)鍵技術(shù)研究


圖1-1?2018年各大網(wǎng)站每分鐘產(chǎn)生的電子數(shù)據(jù)[2]??以Google搜索引擎為例,2018年平均每分鐘用戶在Google搜索引擎下搜??索次數(shù)達(dá)到3877140次

基于神經(jīng)網(wǎng)絡(luò)的文本特征表示關(guān)鍵技術(shù)研究


圖2-1語言模型結(jié)構(gòu)圖W??圖中最下方的w表示輸入字符的索引,這里可以理解為是字符w的單熱表示??形式,需要通過前n?-?1字測下一w

基于神經(jīng)網(wǎng)絡(luò)的文本特征表示關(guān)鍵技術(shù)研究


圖2-2神經(jīng)網(wǎng)絡(luò)發(fā)展時(shí)間表[u】??神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)分為三部分,分別是輸?

【參考文獻(xiàn)】:
期刊論文
[1]語言·認(rèn)知·隱喻[J]. 胡壯麟.  現(xiàn)代外語. 1997(04)
[2]論漢字簡化的必然趨勢及其優(yōu)化的原則——紀(jì)念《漢字簡化方案》公布35周年[J]. 王寧.  語文建設(shè). 1991(02)



本文編號(hào):3082840

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3082840.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d9098***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com