基于深度遷移學(xué)習(xí)的數(shù)控系統(tǒng)領(lǐng)域技術(shù)術(shù)語識(shí)別
發(fā)布時(shí)間:2020-10-13 19:38
近年來,隨著工業(yè)4.0、互聯(lián)網(wǎng)+等科技產(chǎn)業(yè)變革范式的提出,科技創(chuàng)新發(fā)展迅速,數(shù)控系統(tǒng)技術(shù)作為一種戰(zhàn)略性技術(shù)無疑屬于國(guó)家重大技術(shù)領(lǐng)域,大力發(fā)展數(shù)控加工技術(shù)是由制造大國(guó)走向制造強(qiáng)國(guó)的重要條件。在此背景下,研究識(shí)別數(shù)控系統(tǒng)領(lǐng)域新興技術(shù)術(shù)語,預(yù)測(cè)領(lǐng)域發(fā)展趨勢(shì),對(duì)于國(guó)家和企業(yè)制定戰(zhàn)略性發(fā)展規(guī)劃具有重大意義。專利文獻(xiàn)是技術(shù)情報(bào)的最新來源,被廣泛的用于新興技術(shù)預(yù)見,專利文獻(xiàn)易于使用,但術(shù)語難以挖掘、抽取難度大,存在缺乏術(shù)語標(biāo)簽的問題,因此如何針對(duì)專利文獻(xiàn)抽取技術(shù)術(shù)語是本文研究的重點(diǎn)。針對(duì)現(xiàn)有研究的不足,本文首先引入深度遷移學(xué)習(xí)的思想,基于命名實(shí)體識(shí)別技術(shù),構(gòu)建了數(shù)控系統(tǒng)領(lǐng)域新興術(shù)語識(shí)別、技術(shù)類別劃分和專利趨勢(shì)分析的整體方案;然后,本文基于語言模型和基于命名實(shí)體識(shí)別模型的遷移學(xué)習(xí)技術(shù)術(shù)語識(shí)別方案,利用成熟的公共領(lǐng)域源數(shù)據(jù),運(yùn)用Bi-LSTM(雙向長(zhǎng)短時(shí)記憶)模型實(shí)現(xiàn)跨領(lǐng)域遷移,有效識(shí)別技術(shù)術(shù)語并過濾高頻非術(shù)語詞串;最后,本文通過構(gòu)建術(shù)語詞向量,選用WMD(詞移距離)技術(shù)計(jì)算文檔相似度,通過K-means對(duì)文檔和技術(shù)術(shù)語劃分技術(shù)類別,聚類結(jié)果以術(shù)語形式呈現(xiàn),更為準(zhǔn)確易懂,可解釋性更強(qiáng);谏鲜霾襟E,本文收集了2013年~2018年數(shù)控系統(tǒng)(CNC)領(lǐng)域?qū)@墨I(xiàn),通過將新聞?lì)I(lǐng)域源數(shù)據(jù)已有知識(shí)遷移到數(shù)控系統(tǒng)領(lǐng)域目標(biāo)數(shù)據(jù),解決了專利文獻(xiàn)缺少標(biāo)注的問題,通過構(gòu)建術(shù)語詞向量和文檔聚類,將數(shù)控系統(tǒng)領(lǐng)域分為硬件化、軟件化、工藝化、網(wǎng)絡(luò)化、智能化五大類。本文結(jié)合專利分析的方法,整合劃分的技術(shù)類別,對(duì)2013年~2018年數(shù)控系統(tǒng)領(lǐng)域發(fā)展動(dòng)向進(jìn)行綜合分析。
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TG659;TP391.1;TP18
【部分圖文】:
圖 2-1 基于深度遷移學(xué)習(xí)的技術(shù)術(shù)語識(shí)別流程2.3 方案設(shè)計(jì)2.3.1 基于深度遷移學(xué)習(xí)的技術(shù)術(shù)語識(shí)別方案基于專利文獻(xiàn)的術(shù)語識(shí)別方案設(shè)計(jì)如圖一藍(lán)色箭頭所示:第一,調(diào)研數(shù)控系統(tǒng)領(lǐng)域科技文獻(xiàn),查閱維基百科對(duì)數(shù)控機(jī)床種類的說明,檢索領(lǐng)域相關(guān)技術(shù)清單,翻閱數(shù)控機(jī)床教科書,聯(lián)合專家輔助制定檢索式,以機(jī)床和數(shù)控系統(tǒng)共現(xiàn)的關(guān)鍵詞為主結(jié)合 IPC 分類號(hào),在 Thomson Innovation 專利數(shù)據(jù)庫中檢索專利文獻(xiàn);第二,提取專利文獻(xiàn)數(shù)據(jù)集中摘要字段,通過抽取摘要關(guān)鍵短語并結(jié)合提取相關(guān)論文關(guān)鍵詞字段的方式構(gòu)建候選標(biāo)簽庫,經(jīng)過與專家研討得到基礎(chǔ)術(shù)語標(biāo)簽庫,編寫代碼實(shí)現(xiàn)專利摘要字段的自動(dòng)標(biāo)注,相比人工全部標(biāo)注大大減少了專家資源的浪費(fèi),
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文體識(shí)別技術(shù)通過捕捉語言風(fēng)格進(jìn)行任務(wù)的學(xué)習(xí),而遷移學(xué)習(xí)通領(lǐng)域或者源任務(wù)和目標(biāo)任務(wù)的相似性進(jìn)行知識(shí)的學(xué)習(xí),因此當(dāng)似性較低時(shí),通過 NER 技術(shù)捕捉句法特征,基于深度學(xué)習(xí)模型映射關(guān)系明確的相似或相同任務(wù)可以實(shí)現(xiàn)跨領(lǐng)域遷移學(xué)習(xí)。同領(lǐng)域有其獨(dú)特語言特點(diǎn),描述方式和知識(shí)結(jié)構(gòu)都有領(lǐng)域特色很好的模型可能并不適用于另一領(lǐng)域?珙I(lǐng)域 NER 任務(wù)遷移的知識(shí)從源領(lǐng)域數(shù)據(jù)遷移到目標(biāo)領(lǐng)域數(shù)據(jù),因此目標(biāo)數(shù)據(jù)必須有數(shù)據(jù)和目標(biāo)數(shù)據(jù)的標(biāo)簽存在映射關(guān)系,則共享模型的全部參數(shù)簽數(shù)量和映射關(guān)系不一致,則只遷移 Bi-LSTM 結(jié)構(gòu)的參數(shù),解共享,每個(gè)任務(wù)單獨(dú)學(xué)習(xí) CRF[23]。
圖 3-2 基于 NER 模型的遷移學(xué)習(xí)框架分析和模型介紹分析體識(shí)別任務(wù)在條件隨機(jī)場(chǎng)層時(shí)預(yù)測(cè)標(biāo)簽的行為實(shí)際上可以理研究去除了傳統(tǒng)命名實(shí)體的抽取,只針對(duì)技術(shù)術(shù)語實(shí)體進(jìn)行識(shí)二分類問題。在機(jī)器學(xué)習(xí)分類案例中,通常使用混淆矩陣標(biāo)來評(píng)價(jià)模型的泛化性能。如表 3-1 所示,混淆矩陣分為 TP、本數(shù)量,TP 表示將正類樣本標(biāo)簽預(yù)測(cè)為正類(即正正,正類表示將負(fù)類樣本標(biāo)簽預(yù)測(cè)為負(fù)類(即負(fù)負(fù),負(fù)類樣本預(yù)測(cè)正確標(biāo)簽預(yù)測(cè)為負(fù)類(即正負(fù),正類樣本預(yù)測(cè)錯(cuò)誤),F(xiàn)P 表示將負(fù)(即負(fù)正,負(fù)類樣本預(yù)測(cè)錯(cuò)誤)。其中,TP、TN 均表示預(yù)測(cè)
【參考文獻(xiàn)】
本文編號(hào):2839620
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TG659;TP391.1;TP18
【部分圖文】:
圖 2-1 基于深度遷移學(xué)習(xí)的技術(shù)術(shù)語識(shí)別流程2.3 方案設(shè)計(jì)2.3.1 基于深度遷移學(xué)習(xí)的技術(shù)術(shù)語識(shí)別方案基于專利文獻(xiàn)的術(shù)語識(shí)別方案設(shè)計(jì)如圖一藍(lán)色箭頭所示:第一,調(diào)研數(shù)控系統(tǒng)領(lǐng)域科技文獻(xiàn),查閱維基百科對(duì)數(shù)控機(jī)床種類的說明,檢索領(lǐng)域相關(guān)技術(shù)清單,翻閱數(shù)控機(jī)床教科書,聯(lián)合專家輔助制定檢索式,以機(jī)床和數(shù)控系統(tǒng)共現(xiàn)的關(guān)鍵詞為主結(jié)合 IPC 分類號(hào),在 Thomson Innovation 專利數(shù)據(jù)庫中檢索專利文獻(xiàn);第二,提取專利文獻(xiàn)數(shù)據(jù)集中摘要字段,通過抽取摘要關(guān)鍵短語并結(jié)合提取相關(guān)論文關(guān)鍵詞字段的方式構(gòu)建候選標(biāo)簽庫,經(jīng)過與專家研討得到基礎(chǔ)術(shù)語標(biāo)簽庫,編寫代碼實(shí)現(xiàn)專利摘要字段的自動(dòng)標(biāo)注,相比人工全部標(biāo)注大大減少了專家資源的浪費(fèi),
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文體識(shí)別技術(shù)通過捕捉語言風(fēng)格進(jìn)行任務(wù)的學(xué)習(xí),而遷移學(xué)習(xí)通領(lǐng)域或者源任務(wù)和目標(biāo)任務(wù)的相似性進(jìn)行知識(shí)的學(xué)習(xí),因此當(dāng)似性較低時(shí),通過 NER 技術(shù)捕捉句法特征,基于深度學(xué)習(xí)模型映射關(guān)系明確的相似或相同任務(wù)可以實(shí)現(xiàn)跨領(lǐng)域遷移學(xué)習(xí)。同領(lǐng)域有其獨(dú)特語言特點(diǎn),描述方式和知識(shí)結(jié)構(gòu)都有領(lǐng)域特色很好的模型可能并不適用于另一領(lǐng)域?珙I(lǐng)域 NER 任務(wù)遷移的知識(shí)從源領(lǐng)域數(shù)據(jù)遷移到目標(biāo)領(lǐng)域數(shù)據(jù),因此目標(biāo)數(shù)據(jù)必須有數(shù)據(jù)和目標(biāo)數(shù)據(jù)的標(biāo)簽存在映射關(guān)系,則共享模型的全部參數(shù)簽數(shù)量和映射關(guān)系不一致,則只遷移 Bi-LSTM 結(jié)構(gòu)的參數(shù),解共享,每個(gè)任務(wù)單獨(dú)學(xué)習(xí) CRF[23]。
圖 3-2 基于 NER 模型的遷移學(xué)習(xí)框架分析和模型介紹分析體識(shí)別任務(wù)在條件隨機(jī)場(chǎng)層時(shí)預(yù)測(cè)標(biāo)簽的行為實(shí)際上可以理研究去除了傳統(tǒng)命名實(shí)體的抽取,只針對(duì)技術(shù)術(shù)語實(shí)體進(jìn)行識(shí)二分類問題。在機(jī)器學(xué)習(xí)分類案例中,通常使用混淆矩陣標(biāo)來評(píng)價(jià)模型的泛化性能。如表 3-1 所示,混淆矩陣分為 TP、本數(shù)量,TP 表示將正類樣本標(biāo)簽預(yù)測(cè)為正類(即正正,正類表示將負(fù)類樣本標(biāo)簽預(yù)測(cè)為負(fù)類(即負(fù)負(fù),負(fù)類樣本預(yù)測(cè)正確標(biāo)簽預(yù)測(cè)為負(fù)類(即正負(fù),正類樣本預(yù)測(cè)錯(cuò)誤),F(xiàn)P 表示將負(fù)(即負(fù)正,負(fù)類樣本預(yù)測(cè)錯(cuò)誤)。其中,TP、TN 均表示預(yù)測(cè)
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 祝捷頻;趙蘊(yùn)華;;基于美國(guó)對(duì)華技術(shù)管制清單的專利分析——以數(shù)控系統(tǒng)領(lǐng)域?yàn)槔齕J];情報(bào)雜志;2014年11期
2 黃曉莉;鄭佳;王瑩;董濤;;基于專利情報(bào)分析的中國(guó)數(shù)控機(jī)床產(chǎn)業(yè)研究[J];情報(bào)雜志;2012年09期
3 劉立;王博;;基于專利情報(bào)分析的數(shù)控機(jī)床產(chǎn)業(yè)研究[J];科技管理研究;2010年15期
4 高蓓;;數(shù)控機(jī)床全球?qū)@暾?qǐng)狀況分析[J];電子知識(shí)產(chǎn)權(quán);2009年11期
本文編號(hào):2839620
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/2839620.html
最近更新
教材專著