【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,各種互聯(lián)網(wǎng)信息如語(yǔ)音信息,圖片信息,文本信息等也在爆發(fā)式的增長(zhǎng),我們每天都能接觸到大量的多樣的信息,比如來(lái)自新聞報(bào)導(dǎo),博客,微博等各個(gè)渠道的文本信息。那么如何讓對(duì)這些海量的信息進(jìn)行快速、高效地分析和處理,讓機(jī)器準(zhǔn)確理解這些信息,經(jīng)研究發(fā)現(xiàn),基于高語(yǔ)義保持度的文本簡(jiǎn)化就是一個(gè)可行的方法。在短文本語(yǔ)義簡(jiǎn)化的研究中采用了以下幾種方式和方法,一種是基于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)方法;一種是基于長(zhǎng)短時(shí)記憶模型的方法;還有一種是基于時(shí)間遞歸序列模型的方法。主要研究工作如下:1.研究了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)工作原理,及其訓(xùn)練模型和效率,文本簡(jiǎn)化在循環(huán)神經(jīng)網(wǎng)絡(luò)中的應(yīng)用,參考了相關(guān)文獻(xiàn)以及對(duì)比了相關(guān)研究中的優(yōu)劣勢(shì)。2.分別建立傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)模型、LSTM(Long Short-Term Memory)模型、seq2seq(Sequence to Sequence)模型以及TRSM(Time Recursive Sequence Model)模型,分析各個(gè)模型的實(shí)驗(yàn)原理、訓(xùn)練方法以及優(yōu)缺點(diǎn)。對(duì)比各個(gè)模型并適當(dāng)結(jié)合幾個(gè)模型再建立針對(duì)短文本語(yǔ)義簡(jiǎn)化任務(wù)最高效的模型。3.針對(duì)傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法無(wú)法處理梯度消失和梯度爆炸等問(wèn)題,結(jié)合基于循環(huán)神經(jīng)網(wǎng)絡(luò)建立的LSTM模型和seq2seq模型,提出時(shí)間遞歸序列模型TRSM,處理序列中間隔和延遲相對(duì)較長(zhǎng)的輸入,再使用BPTT(Back Propagation Trough Time)反向傳播算法對(duì)中文微博語(yǔ)料庫(kù)進(jìn)行訓(xùn)練。4.建立三組不同的實(shí)驗(yàn)作為對(duì)比,以原始參數(shù)值、改變訓(xùn)練循環(huán)次數(shù)和改變學(xué)習(xí)速率為差異項(xiàng)作對(duì)比,再對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析。實(shí)驗(yàn)結(jié)果表明TRSM模型處理后的微博文本更加簡(jiǎn)潔精煉,更適合文本語(yǔ)義的提取,大大減少了計(jì)算量,文字縮減率達(dá)到60%以上,語(yǔ)義保持率達(dá)到1.8,簡(jiǎn)化了用戶要處理的大量信息,處理后結(jié)果能夠更好地用于幾個(gè)關(guān)鍵的中文語(yǔ)義處理任務(wù)。
【學(xué)位授予單位】:廣西民族大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP183;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 王宏濤;孫劍偉;;基于BP神經(jīng)網(wǎng)絡(luò)和SVM的分類方法研究[J];軟件;2015年11期
2 景秀麗;;Hedge Trimmer句子壓縮技術(shù)的算法實(shí)現(xiàn)及改進(jìn)[J];沈陽(yáng)師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年04期
3 曾承;陳桂生;杜鋼;林晨;;按需智能問(wèn)答系統(tǒng)Uniponse[J];計(jì)算機(jī)科學(xué);2011年01期
4 蘇金樹;張博鋒;徐昕;;基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展[J];軟件學(xué)報(bào);2006年09期
5 曹勇剛;曹羽中;金茂忠;劉超;;面向信息檢索的自適應(yīng)中文分詞系統(tǒng)[J];軟件學(xué)報(bào);2006年03期
6 薛為民;陸玉昌;;文本挖掘技術(shù)研究[J];北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年04期
7 鄭家恒,盧嬌麗;關(guān)鍵詞抽取方法的研究[J];計(jì)算機(jī)工程;2005年18期
8 戴新宇;尹存燕;陳家駿;鄭國(guó)梁;;機(jī)器翻譯研究現(xiàn)狀與展望[J];計(jì)算機(jī)科學(xué);2004年11期
9 朱大奇;人工神經(jīng)網(wǎng)絡(luò)研究現(xiàn)狀及其展望[J];江南大學(xué)學(xué)報(bào);2004年01期
10 趙晉泉,侯志儉,吳際舜;改進(jìn)最優(yōu)潮流牛頓算法有效性的對(duì)策研究[J];中國(guó)電機(jī)工程學(xué)報(bào);1999年12期
相關(guān)碩士學(xué)位論文 前1條
1 龐超;神經(jīng)網(wǎng)絡(luò)在新聞標(biāo)題生成中的研究[D];北京交通大學(xué);2018年
,
本文編號(hào):
2681857
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2681857.html