基于深度學(xué)習(xí)的新能源汽車領(lǐng)域術(shù)語抽取
發(fā)布時間:2021-11-03 16:41
據(jù)調(diào)查,2013年以來,我國新能源汽車銷量加速上升,本文通過對新能源汽車行業(yè)的深入調(diào)查發(fā)現(xiàn),目前在新能源汽車領(lǐng)域,缺少對領(lǐng)域術(shù)語詞庫構(gòu)建的研究工作。考慮到專利文本具有實(shí)用性和新穎性,是科技信息最有價值的載體之一,任何產(chǎn)業(yè)的革新勢必體現(xiàn)在專利中。所以本文旨在以新能源汽車領(lǐng)域?qū)@麨閿?shù)據(jù)源,進(jìn)行新能源汽車領(lǐng)域術(shù)語抽取,從而建立一個基礎(chǔ)的新能源汽車領(lǐng)域術(shù)語詞庫,為新能源汽車的后續(xù)研究奠定基礎(chǔ)。目前,對特定領(lǐng)域術(shù)語抽取的方法主要是基于語言規(guī)則、統(tǒng)計方法及其組合的方式,而基于傳統(tǒng)方法抽取新能源汽車領(lǐng)域術(shù)語主要存在以下問題,分詞不準(zhǔn)確導(dǎo)致后期文本挖掘噪聲加大,文本表示維度過高導(dǎo)致計算復(fù)雜,對含有嵌套結(jié)構(gòu)的詞語發(fā)現(xiàn)能力不強(qiáng)等問題。針對以上問題,本文提出了基于深度學(xué)習(xí)的新能源汽車領(lǐng)域術(shù)語抽取模型。本文將新能源汽車領(lǐng)域術(shù)語抽取問題轉(zhuǎn)化為序列標(biāo)注問題,并提出了層疊條件隨機(jī)場(Cascaded Conditional Random Fields,CCRF)領(lǐng)域術(shù)語抽取模型和BLSTMAttentionCRF領(lǐng)域術(shù)語抽取模型,分別對新能源汽車專利文本進(jìn)行領(lǐng)域術(shù)語抽取,...
【文章來源】:河北工業(yè)大學(xué)天津市 211工程院校
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
字級別標(biāo)注結(jié)果
基于深度學(xué)習(xí)的新能源汽車領(lǐng)域術(shù)語抽取-32-5.2實(shí)驗(yàn)過程5.2.1數(shù)據(jù)預(yù)處理5.2.1.1基于字級別的預(yù)處理對新能源汽車領(lǐng)域術(shù)語抽取基于字級別的預(yù)處理數(shù)據(jù)主要用于CCRF模型的低層實(shí)驗(yàn),對圖5.1中的文本進(jìn)行字級別處理以后的結(jié)果如圖5.2所示。圖5.2字級別標(biāo)注結(jié)果5.2.1.1基于詞級別的預(yù)處理對新能源汽車領(lǐng)域術(shù)語抽取的詞級別預(yù)處理過程包括分詞,去除停用詞和人工標(biāo)注三個過程。分詞通過分詞工具來完成,本文使用中國科學(xué)院計算技術(shù)研究所提供的ICTCLAS分詞工具。對圖5.1進(jìn)行分詞之后的結(jié)果如圖5.3所示。圖5.3分詞以后的專利數(shù)據(jù)為驗(yàn)證低層條件隨機(jī)場提取的簡單詞詞庫可以提高分詞準(zhǔn)確率,本文對比了加入詞庫和不加入詞庫兩種情況下的分詞結(jié)果,選取專利中的100篇作為實(shí)驗(yàn)語料,
河北工業(yè)大學(xué)碩士學(xué)位論文-33-同樣先由人工進(jìn)行標(biāo)注,然后基于上述兩種情況進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5.2所示:表5.2分詞結(jié)果實(shí)驗(yàn)條件P_準(zhǔn)確率/%R_召回率/%F1值/%加入低層詞庫63.7962.2363.00不加入低層詞庫65.8865.0365.45由實(shí)驗(yàn)結(jié)果可知,加入低層詞庫以后分詞準(zhǔn)確率有明顯提升,正確的分詞結(jié)果將直接影響最終的標(biāo)注結(jié)果。分詞之后,對語料去除停用詞,其中停用詞表在哈工大停用詞表的基礎(chǔ)上,本文根據(jù)領(lǐng)域特殊性將停用詞表擴(kuò)充到1345個,其中部分停用詞表如圖5.4所示。圖5.4停用詞表最后對語料進(jìn)行人工標(biāo)注,為模型的訓(xùn)練提供語料支持,對圖5.2的數(shù)據(jù)進(jìn)行標(biāo)注之后的結(jié)果如圖5.5所示。圖5.5詞級別標(biāo)注結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的微博情緒識別與誘因抽取聯(lián)合模型[J]. 張晨,錢濤,姬東鴻. 計算機(jī)應(yīng)用. 2018(09)
[2]基于自步學(xué)習(xí)的無監(jiān)督屬性選擇算法[J]. 龔永紅,鄭威,吳林,譚馬龍,余浩. 計算機(jī)應(yīng)用. 2018(10)
[3]我國電動汽車產(chǎn)業(yè)專利情報分析與評價研究[J]. 張麗英. 東莞理工學(xué)院學(xué)報. 2018(02)
[4]基于循環(huán)層疊條件隨機(jī)場的評價對象識別[J]. 霍立平. 蘭州理工大學(xué)學(xué)報. 2018(01)
[5]漢語復(fù)句中基于依存關(guān)系與最大熵模型的詞義消歧方法研究[J]. 李源,翟宏森,劉鳳嬌,黃文燦,楊夢川. 計算機(jī)與數(shù)字工程. 2018(01)
[6]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識別[J]. 李麗雙,郭元凱. 中文信息學(xué)報. 2018(01)
[7]基于Bi-LSTM-CRF網(wǎng)絡(luò)的語義槽識別[J]. 徐梓翔,車萬翔,劉挺. 智能計算機(jī)與應(yīng)用. 2017(06)
[8]結(jié)合詞語規(guī)則和SVM模型的軍事命名實(shí)體關(guān)系抽取方法[J]. 高鳳帥,楊化斌. 信息通信. 2017(11)
[9]機(jī)器人自然語言導(dǎo)航的層疊式條件隨機(jī)場模型[J]. 王恒升,李熙印. 計算機(jī)工程與科學(xué). 2017(08)
[10]基于word embedding的短文本特征擴(kuò)展與分類[J]. 孟欣,左萬利. 小型微型計算機(jī)系統(tǒng). 2017(08)
碩士論文
[1]漢語專利術(shù)語抽取及應(yīng)用研究[D]. 王密平.南京大學(xué) 2017
[2]基于改進(jìn)HMM下自動摘要的生成[D]. 吳燦麗.浙江理工大學(xué) 2017
[3]基于領(lǐng)域本體的中文信息抽取研究[D]. 黃思思.華東師范大學(xué) 2016
[4]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[5]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
[6]數(shù)據(jù)挖掘方法在評論分類中的應(yīng)用研究[D]. 李杰駿.廣東工業(yè)大學(xué) 2016
[7]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[8]基于隱馬爾科夫模型在網(wǎng)頁信息抽取中的研究與應(yīng)用[D]. 雙哲.華東師范大學(xué) 2016
[9]基于GATE的司法案件信息抽取方法研究[D]. 宋傳寶.天津大學(xué) 2016
[10]實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究[D]. 劉紹毓.解放軍信息工程大學(xué) 2015
本文編號:3474013
【文章來源】:河北工業(yè)大學(xué)天津市 211工程院校
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
字級別標(biāo)注結(jié)果
基于深度學(xué)習(xí)的新能源汽車領(lǐng)域術(shù)語抽取-32-5.2實(shí)驗(yàn)過程5.2.1數(shù)據(jù)預(yù)處理5.2.1.1基于字級別的預(yù)處理對新能源汽車領(lǐng)域術(shù)語抽取基于字級別的預(yù)處理數(shù)據(jù)主要用于CCRF模型的低層實(shí)驗(yàn),對圖5.1中的文本進(jìn)行字級別處理以后的結(jié)果如圖5.2所示。圖5.2字級別標(biāo)注結(jié)果5.2.1.1基于詞級別的預(yù)處理對新能源汽車領(lǐng)域術(shù)語抽取的詞級別預(yù)處理過程包括分詞,去除停用詞和人工標(biāo)注三個過程。分詞通過分詞工具來完成,本文使用中國科學(xué)院計算技術(shù)研究所提供的ICTCLAS分詞工具。對圖5.1進(jìn)行分詞之后的結(jié)果如圖5.3所示。圖5.3分詞以后的專利數(shù)據(jù)為驗(yàn)證低層條件隨機(jī)場提取的簡單詞詞庫可以提高分詞準(zhǔn)確率,本文對比了加入詞庫和不加入詞庫兩種情況下的分詞結(jié)果,選取專利中的100篇作為實(shí)驗(yàn)語料,
河北工業(yè)大學(xué)碩士學(xué)位論文-33-同樣先由人工進(jìn)行標(biāo)注,然后基于上述兩種情況進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5.2所示:表5.2分詞結(jié)果實(shí)驗(yàn)條件P_準(zhǔn)確率/%R_召回率/%F1值/%加入低層詞庫63.7962.2363.00不加入低層詞庫65.8865.0365.45由實(shí)驗(yàn)結(jié)果可知,加入低層詞庫以后分詞準(zhǔn)確率有明顯提升,正確的分詞結(jié)果將直接影響最終的標(biāo)注結(jié)果。分詞之后,對語料去除停用詞,其中停用詞表在哈工大停用詞表的基礎(chǔ)上,本文根據(jù)領(lǐng)域特殊性將停用詞表擴(kuò)充到1345個,其中部分停用詞表如圖5.4所示。圖5.4停用詞表最后對語料進(jìn)行人工標(biāo)注,為模型的訓(xùn)練提供語料支持,對圖5.2的數(shù)據(jù)進(jìn)行標(biāo)注之后的結(jié)果如圖5.5所示。圖5.5詞級別標(biāo)注結(jié)果
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)的微博情緒識別與誘因抽取聯(lián)合模型[J]. 張晨,錢濤,姬東鴻. 計算機(jī)應(yīng)用. 2018(09)
[2]基于自步學(xué)習(xí)的無監(jiān)督屬性選擇算法[J]. 龔永紅,鄭威,吳林,譚馬龍,余浩. 計算機(jī)應(yīng)用. 2018(10)
[3]我國電動汽車產(chǎn)業(yè)專利情報分析與評價研究[J]. 張麗英. 東莞理工學(xué)院學(xué)報. 2018(02)
[4]基于循環(huán)層疊條件隨機(jī)場的評價對象識別[J]. 霍立平. 蘭州理工大學(xué)學(xué)報. 2018(01)
[5]漢語復(fù)句中基于依存關(guān)系與最大熵模型的詞義消歧方法研究[J]. 李源,翟宏森,劉鳳嬌,黃文燦,楊夢川. 計算機(jī)與數(shù)字工程. 2018(01)
[6]基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識別[J]. 李麗雙,郭元凱. 中文信息學(xué)報. 2018(01)
[7]基于Bi-LSTM-CRF網(wǎng)絡(luò)的語義槽識別[J]. 徐梓翔,車萬翔,劉挺. 智能計算機(jī)與應(yīng)用. 2017(06)
[8]結(jié)合詞語規(guī)則和SVM模型的軍事命名實(shí)體關(guān)系抽取方法[J]. 高鳳帥,楊化斌. 信息通信. 2017(11)
[9]機(jī)器人自然語言導(dǎo)航的層疊式條件隨機(jī)場模型[J]. 王恒升,李熙印. 計算機(jī)工程與科學(xué). 2017(08)
[10]基于word embedding的短文本特征擴(kuò)展與分類[J]. 孟欣,左萬利. 小型微型計算機(jī)系統(tǒng). 2017(08)
碩士論文
[1]漢語專利術(shù)語抽取及應(yīng)用研究[D]. 王密平.南京大學(xué) 2017
[2]基于改進(jìn)HMM下自動摘要的生成[D]. 吳燦麗.浙江理工大學(xué) 2017
[3]基于領(lǐng)域本體的中文信息抽取研究[D]. 黃思思.華東師范大學(xué) 2016
[4]基于雙向LSTMN神經(jīng)網(wǎng)絡(luò)的中文分詞研究分析[D]. 黃積楊.南京大學(xué) 2016
[5]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
[6]數(shù)據(jù)挖掘方法在評論分類中的應(yīng)用研究[D]. 李杰駿.廣東工業(yè)大學(xué) 2016
[7]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[8]基于隱馬爾科夫模型在網(wǎng)頁信息抽取中的研究與應(yīng)用[D]. 雙哲.華東師范大學(xué) 2016
[9]基于GATE的司法案件信息抽取方法研究[D]. 宋傳寶.天津大學(xué) 2016
[10]實(shí)體關(guān)系抽取關(guān)鍵技術(shù)研究[D]. 劉紹毓.解放軍信息工程大學(xué) 2015
本文編號:3474013
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3474013.html
最近更新
教材專著