基于神經(jīng)網(wǎng)絡(luò)的中文分詞研究
發(fā)布時(shí)間:2021-01-22 14:21
近年來,隨著中文互聯(lián)網(wǎng)世界的不斷發(fā)展和人工智能研究的不斷深入,中文自然語言處理變得愈加重要。在中文自然語言處理領(lǐng)域中,中文分詞是一項(xiàng)基礎(chǔ)技術(shù),在諸多應(yīng)用中不可或缺。將中文分詞視為一種基于字符的序列標(biāo)注問題以便采用機(jī)器學(xué)習(xí)的方法去處理是當(dāng)前較為有效的一種思路,這種思路簡(jiǎn)稱為字標(biāo)注法。然而傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法需要人工仔細(xì)地設(shè)計(jì)大量特征,特征設(shè)計(jì)的好壞依賴人的經(jīng)驗(yàn),進(jìn)一步提高模型效果受到制約。深度神經(jīng)網(wǎng)絡(luò)模型近年來在諸多模式識(shí)別任務(wù)中大放異彩。從計(jì)算機(jī)視覺領(lǐng)域、語音識(shí)別領(lǐng)域到自然語言處理領(lǐng)域,采用基于深度神經(jīng)網(wǎng)絡(luò)的研究方法成為一種趨勢(shì)。中文分詞任務(wù)中同樣涌現(xiàn)了很多出色的神經(jīng)網(wǎng)絡(luò)方法,其中比較主流的是基于可以處理長(zhǎng)距離依賴信息的長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)的模型。但是,一方面,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)固有的序列特性使其訓(xùn)練時(shí)間較長(zhǎng),不利于神經(jīng)網(wǎng)絡(luò)模型的實(shí)際應(yīng)用;另一方面,當(dāng)使用包括長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)在內(nèi)的神經(jīng)網(wǎng)絡(luò)方法處理中文分詞問題時(shí),很多工作依然需要必要的特征工程來增強(qiáng)模型捕獲局部特征的能力。有鑒于此,本文主要做了以下的工作:一是針對(duì)現(xiàn)有的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型訓(xùn)...
【文章來源】:鄭州大學(xué)河南省 211工程院校
【文章頁數(shù)】:84 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
加權(quán)求和過程
曾經(jīng)比較常見的激活函數(shù)是圖 2. 3 sigmoid 函數(shù)及其導(dǎo)數(shù)圖 Fig.2.3 Sigmoid and its derivatives tanh 函數(shù),函數(shù)的值在 [- -1, 1]之
【參考文獻(xiàn)】:
期刊論文
[1]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學(xué)報(bào). 2007(03)
[2]中文信息處理中的分詞問題[J]. 黃昌寧. 語言文字應(yīng)用. 1997(01)
本文編號(hào):2993383
【文章來源】:鄭州大學(xué)河南省 211工程院校
【文章頁數(shù)】:84 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
加權(quán)求和過程
曾經(jīng)比較常見的激活函數(shù)是圖 2. 3 sigmoid 函數(shù)及其導(dǎo)數(shù)圖 Fig.2.3 Sigmoid and its derivatives tanh 函數(shù),函數(shù)的值在 [- -1, 1]之
【參考文獻(xiàn)】:
期刊論文
[1]中文分詞十年回顧[J]. 黃昌寧,趙海. 中文信息學(xué)報(bào). 2007(03)
[2]中文信息處理中的分詞問題[J]. 黃昌寧. 語言文字應(yīng)用. 1997(01)
本文編號(hào):2993383
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/2993383.html
最近更新
教材專著