基于深度學(xué)習(xí)的科技資源多標(biāo)簽文本分類方法研究
發(fā)布時(shí)間:2021-04-01 10:04
科技服務(wù)業(yè)是現(xiàn)代服務(wù)業(yè)的重要組成部分,其中,科技資源作為科技服務(wù)業(yè)發(fā)展的基石,其數(shù)量、種類、分布量均達(dá)到了空前的壯大和發(fā)展。但科技資源分布分散孤立、多樣復(fù)雜,導(dǎo)致資源集成度和有效利用率低,難以切實(shí)發(fā)揮其對(duì)科技與實(shí)體經(jīng)濟(jì)的支撐作用。為此“集成”并“科學(xué)分析利用”科技資源成為我國科技服務(wù)的關(guān)鍵核心任務(wù)和必然趨勢(shì)。其中,“分類”是科技資源“集成”與“科學(xué)分析利用”的前提和基礎(chǔ)。而在科技資源中,大部分資源都是以文本的形式存在,且均具有同屬于多個(gè)類別的特點(diǎn),所以面向文本科技資源多標(biāo)簽分類方法的研究成為科技資源分類方法研究的重要內(nèi)容和熱點(diǎn)趨勢(shì)。為此,本文圍繞國家重點(diǎn)研發(fā)計(jì)劃課題“分布式資源巨系統(tǒng)及資源協(xié)同理論”(課題編號(hào):2017YFB1400301)中提出的“集資源、融產(chǎn)業(yè)、創(chuàng)模式”以及打造科技服務(wù)業(yè)資源體系與資源分享模式目標(biāo),面向課題針對(duì)分散孤立、復(fù)雜多樣科技資源開展跨平臺(tái)資源匯聚、融合,以支撐跨行業(yè)分布式科技資源搜索、分析、匹配、評(píng)價(jià)和優(yōu)化等任務(wù),以課題任務(wù)要求的萬方科技服務(wù)平臺(tái)和寧波市科技信息研究院公共服務(wù)平臺(tái)中的非結(jié)構(gòu)化科技文本資源為數(shù)據(jù)支撐,重點(diǎn)研究支持科技文本資源匯聚、融合的多標(biāo)簽文...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
原始中文科技論文數(shù)據(jù)(部分)
第三章科技文本的預(yù)處理15以針對(duì)含有摘要的科技文本如:論文、專利等,本文直接基于摘要內(nèi)容進(jìn)行分類。對(duì)于不含摘要的科技文本如:新聞等,根據(jù)一篇文章的第一段和最后一段通常對(duì)整篇文本都有著概述作用,同時(shí)每一段的第一句和最后一句通常對(duì)該段有著概述作用,本文將此類文本的第一段、最后一段,以及每段的首句和尾句四部分拼接后的內(nèi)容進(jìn)行分類。如圖3-1所示,短文本化處理的具體流程為:首先對(duì)輸入的長(zhǎng)文本進(jìn)行判斷,若含有摘要?jiǎng)t直接提取摘要內(nèi)容形成短文本,若不含摘要?jiǎng)t提取長(zhǎng)文本的首尾段及各段首尾句內(nèi)容拼接形成短文本。將科技文本轉(zhuǎn)化為短文本之后,還需要對(duì)短文本中除文字之外的一些其他標(biāo)記如:鏈接、表情符號(hào)、圖片、亂碼等噪聲數(shù)據(jù)進(jìn)行處理,以免對(duì)后續(xù)分類效果產(chǎn)生不良影響。本文根據(jù)噪聲特點(diǎn),采用正則表達(dá)式對(duì)其去除。由于正則表達(dá)式去噪簡(jiǎn)單、成熟,本文不再贅述其原理與流程。圖3-2所示為本文的原始數(shù)據(jù)(部分),圖3-3所示為本文短文本化及去燥后的結(jié)果。圖3-2原始中文科技論文數(shù)據(jù)(部分)圖3-3原始中文科技論文數(shù)據(jù)短文本化及去噪后
納疃妊?飛窬??紓?浠?舅枷朧峭ü?莨槔唇餼魴蛄?建模的問題,具體來說就是在每一個(gè)時(shí)刻通過把前一個(gè)時(shí)刻和當(dāng)前時(shí)刻的信息同時(shí)作為輸入,獲得當(dāng)前時(shí)刻的輸出,這樣的方式使得RNN能對(duì)變長(zhǎng)序列進(jìn)行建模。其結(jié)構(gòu)如圖4-1所示,“=”的左邊為其概括形式,右邊為其展開形式,其中0,1,,表示輸入序列,代表t時(shí)刻的輸入,和1分別代表t和t-1時(shí)刻網(wǎng)絡(luò)的輸出向量。其隱藏層的計(jì)算過程如公式(4-1)所示。=(+1+)(4-1)其中,和分別為作用在和1上的權(quán)值矩陣,是偏置向量,為非線性激活函數(shù)。圖4-1RNN示意圖RNN雖然能夠處理變長(zhǎng)序列,但是由于在反向傳播過程中會(huì)出現(xiàn)參數(shù)矩陣連乘的形式,使其存在梯度消失和梯度爆炸的問題,對(duì)于梯度爆炸的問題可以使用梯度裁剪方法來解決,而梯度消失的問題卻很難解決。RNN存在的梯度消失問題,導(dǎo)致其無法有效捕獲長(zhǎng)距離信息,使其處理較長(zhǎng)序列問題效果較差。為了解決該問題,研究者通過增加門結(jié)構(gòu)的方式來改進(jìn)RNN。1997年,Hochreiter[32]等人提出了LSTM,其結(jié)構(gòu)如圖4-2所示。LSTM在RNN的基礎(chǔ)上增加了一個(gè)細(xì)胞狀態(tài)以及3個(gè)門結(jié)構(gòu)。細(xì)胞狀態(tài)用于保存先前的信息,3個(gè)門控分別為遺忘門,輸入門
本文編號(hào):3113153
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
原始中文科技論文數(shù)據(jù)(部分)
第三章科技文本的預(yù)處理15以針對(duì)含有摘要的科技文本如:論文、專利等,本文直接基于摘要內(nèi)容進(jìn)行分類。對(duì)于不含摘要的科技文本如:新聞等,根據(jù)一篇文章的第一段和最后一段通常對(duì)整篇文本都有著概述作用,同時(shí)每一段的第一句和最后一句通常對(duì)該段有著概述作用,本文將此類文本的第一段、最后一段,以及每段的首句和尾句四部分拼接后的內(nèi)容進(jìn)行分類。如圖3-1所示,短文本化處理的具體流程為:首先對(duì)輸入的長(zhǎng)文本進(jìn)行判斷,若含有摘要?jiǎng)t直接提取摘要內(nèi)容形成短文本,若不含摘要?jiǎng)t提取長(zhǎng)文本的首尾段及各段首尾句內(nèi)容拼接形成短文本。將科技文本轉(zhuǎn)化為短文本之后,還需要對(duì)短文本中除文字之外的一些其他標(biāo)記如:鏈接、表情符號(hào)、圖片、亂碼等噪聲數(shù)據(jù)進(jìn)行處理,以免對(duì)后續(xù)分類效果產(chǎn)生不良影響。本文根據(jù)噪聲特點(diǎn),采用正則表達(dá)式對(duì)其去除。由于正則表達(dá)式去噪簡(jiǎn)單、成熟,本文不再贅述其原理與流程。圖3-2所示為本文的原始數(shù)據(jù)(部分),圖3-3所示為本文短文本化及去燥后的結(jié)果。圖3-2原始中文科技論文數(shù)據(jù)(部分)圖3-3原始中文科技論文數(shù)據(jù)短文本化及去噪后
納疃妊?飛窬??紓?浠?舅枷朧峭ü?莨槔唇餼魴蛄?建模的問題,具體來說就是在每一個(gè)時(shí)刻通過把前一個(gè)時(shí)刻和當(dāng)前時(shí)刻的信息同時(shí)作為輸入,獲得當(dāng)前時(shí)刻的輸出,這樣的方式使得RNN能對(duì)變長(zhǎng)序列進(jìn)行建模。其結(jié)構(gòu)如圖4-1所示,“=”的左邊為其概括形式,右邊為其展開形式,其中0,1,,表示輸入序列,代表t時(shí)刻的輸入,和1分別代表t和t-1時(shí)刻網(wǎng)絡(luò)的輸出向量。其隱藏層的計(jì)算過程如公式(4-1)所示。=(+1+)(4-1)其中,和分別為作用在和1上的權(quán)值矩陣,是偏置向量,為非線性激活函數(shù)。圖4-1RNN示意圖RNN雖然能夠處理變長(zhǎng)序列,但是由于在反向傳播過程中會(huì)出現(xiàn)參數(shù)矩陣連乘的形式,使其存在梯度消失和梯度爆炸的問題,對(duì)于梯度爆炸的問題可以使用梯度裁剪方法來解決,而梯度消失的問題卻很難解決。RNN存在的梯度消失問題,導(dǎo)致其無法有效捕獲長(zhǎng)距離信息,使其處理較長(zhǎng)序列問題效果較差。為了解決該問題,研究者通過增加門結(jié)構(gòu)的方式來改進(jìn)RNN。1997年,Hochreiter[32]等人提出了LSTM,其結(jié)構(gòu)如圖4-2所示。LSTM在RNN的基礎(chǔ)上增加了一個(gè)細(xì)胞狀態(tài)以及3個(gè)門結(jié)構(gòu)。細(xì)胞狀態(tài)用于保存先前的信息,3個(gè)門控分別為遺忘門,輸入門
本文編號(hào):3113153
本文鏈接:http://sikaile.net/shoufeilunwen/xixikjs/3113153.html
最近更新
教材專著