基于深度學(xué)習(xí)的專利分類方法研究
發(fā)布時(shí)間:2021-10-20 16:46
作為科技載體的專利文本中蘊(yùn)含了豐富的背景、技術(shù)、功能、效應(yīng)等知識(shí)。采用功能-效應(yīng)-專利的檢索方式,就可以借鑒不同領(lǐng)域?qū)@械脑砗头椒?從而打破思維慣性,為產(chǎn)品設(shè)計(jì)者提供類似的專利進(jìn)行參考。目前挖掘?qū)@c效應(yīng)對(duì)應(yīng)關(guān)系的方法以概念圖匹配為主,存在匹配容錯(cuò)性差、實(shí)用性差的問題。近兩年來,用深度學(xué)習(xí)模型解決文本分類問題變得很受關(guān)注,它被證明在特征提取和文本表示方面有著很大的優(yōu)勢(shì)。目前基于循環(huán)神經(jīng)網(wǎng)絡(luò)的分類方法存在梯度消失和語義信息丟失的問題,而注意力機(jī)制能夠給文本中的關(guān)鍵部分分配更多的注意力,突出其重要性。本文提出一種包含多個(gè)基于注意力機(jī)制的雙向LSTM模型(BiLSTMATT)的專利效應(yīng)分類算法。通過分析效應(yīng)在專利中的位置,本文算法將專利文本的摘要、權(quán)利要求說明書、發(fā)明內(nèi)容、具體實(shí)施方式四部分內(nèi)容分別作為BiLSTMATT的原始輸入,學(xué)習(xí)得到的四部分特征以不同的權(quán)重融合作為專利文本特征。將功能作為L(zhǎng)STM模型的原始輸入,訓(xùn)練得到功能特征。然后,將專利文本特征與功能特征進(jìn)行融合作為專利效應(yīng)分類的總體特征,...
【文章來源】:河北工業(yè)大學(xué)天津市 211工程院校
【文章頁數(shù)】:56 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
word2vec訓(xùn)練后得到的詞典
河北工業(yè)大學(xué)碩士學(xué)位論文-31-0.15,0.35,0.3,0.05]]。在其它參數(shù)保持不變的情況下,隱藏層的節(jié)點(diǎn)個(gè)數(shù)n約為120的時(shí)候準(zhǔn)確率最佳。除迭代次數(shù)epoch之外的參數(shù)保持初始值的情況下,隨著迭代次數(shù)的增加,準(zhǔn)確率也隨之增大,但是迭代次數(shù)為20時(shí),準(zhǔn)確率達(dá)到最佳。同理得到學(xué)習(xí)率的最佳取值為0.1。如圖5.1所示,在d3的概率分布下,效果最佳,即摘要、權(quán)利要求說明書、發(fā)明內(nèi)容、具體實(shí)施方式、功能按照0.15,0.1,0.35,0.3,0.1的概率分布時(shí)效果最佳。圖5.1交叉驗(yàn)證調(diào)參結(jié)果圖5.1.3實(shí)驗(yàn)具體設(shè)計(jì)為了檢驗(yàn)本文設(shè)計(jì)的模型對(duì)于專利效應(yīng)分類的效果,本文主要設(shè)計(jì)了3類實(shí)驗(yàn):(1)基于機(jī)器學(xué)習(xí)的分類實(shí)驗(yàn)本文采用經(jīng)典的分類訓(xùn)練算法LR和SVM進(jìn)行實(shí)驗(yàn)。這里通過sklearn庫調(diào)用svm包中的SVC和linear_model包中LogisticRegression分別實(shí)現(xiàn)SVM算法和LR算法。這是因?yàn)镾klearn庫提供了很多的默認(rèn)參數(shù),對(duì)LR和SVM涉及的參數(shù)調(diào)節(jié)相對(duì)較少,并且調(diào)節(jié)起來也方便,適合于進(jìn)行分類方面的研究。其中SVC表示通過實(shí)現(xiàn)二分類的方法進(jìn)行多分類[49]。若n_class是類別的數(shù)量,就必須建立n*n/2個(gè)分類器,而desision_function_shape參數(shù)則允許集成二分類器對(duì)樣本進(jìn)行多分類的操作。
河北工業(yè)大學(xué)碩士學(xué)位論文-35-5.3.2應(yīng)用展示在此采用頁面展示的方式說明以上案例的使用和新專利文本的分析。本文采用Django框架和MySQL數(shù)據(jù)庫實(shí)現(xiàn)算法部分、后臺(tái)數(shù)據(jù)庫部分與前臺(tái)的交互。(1)新專利文本的分析頁面如圖5.2所示,輸入的信息包含專利原名稱、專利號(hào)、摘要、權(quán)利要求說明書、發(fā)明內(nèi)容、具體實(shí)施方式以及專利的功能等內(nèi)容。圖5.2效應(yīng)分析界面輸入需要輸入的文本內(nèi)容,點(diǎn)擊“分析”按鈕,摘要、權(quán)利要求說明書、發(fā)明內(nèi)容、具體實(shí)施方式、專利功能這五部分的文本,就會(huì)調(diào)用后臺(tái)算法自動(dòng)分析出該專利
【參考文獻(xiàn)】:
期刊論文
[1]中文文本特征選擇方法研究綜述[J]. 徐泓洋,楊國(guó)為. 工業(yè)控制計(jì)算機(jī). 2017(11)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J]. 殷亞博,楊文忠,楊慧婷,許超英. 計(jì)算機(jī)工程. 2018(07)
[3]基于word embedding的短文本特征擴(kuò)展與分類[J]. 孟欣,左萬利. 小型微型計(jì)算機(jī)系統(tǒng). 2017(08)
[4]基于加權(quán)word2vec的微博情感分析[J]. 李銳,張謙,劉嘉勇. 通信技術(shù). 2017(03)
[5]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 黃磊,杜昌順. 北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[6]基于主題擴(kuò)展的領(lǐng)域問題分類方法[J]. 張青,呂釗. 計(jì)算機(jī)工程. 2016(09)
[7]基于功能基的專利信息挖掘與自動(dòng)分類實(shí)驗(yàn)研究[J]. 劉龍繁,李彥,侯超異,李文強(qiáng). 四川大學(xué)學(xué)報(bào)(工程科學(xué)版). 2016(05)
[8]基于摘要文本的專利快速自動(dòng)分類方法[J]. 繆建明,賈廣威,張運(yùn)良. 情報(bào)理論與實(shí)踐. 2016(08)
[9]國(guó)際專利分類表中設(shè)計(jì)知識(shí)的提取和利用[J]. 冀瑜,邱清盈,馮培恩,黃浩. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2016(03)
[10]基于知識(shí)粒度的TRIZ在創(chuàng)新設(shè)計(jì)中的應(yīng)用[J]. 劉龍繁,李彥,馬金龍,杜曉嬌,劉紅圍. 機(jī)械工程學(xué)報(bào). 2016(05)
博士論文
[1]專利知識(shí)獲取及其支持概念創(chuàng)新設(shè)計(jì)的方法研究[D]. 王朝霞.浙江大學(xué) 2009
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國(guó)科學(xué)技術(shù)大學(xué) 2017
[2]基于詞分布的文本表示研究[D]. 陳志鵬.蘇州大學(xué) 2017
[3]基于深度神經(jīng)網(wǎng)絡(luò)模型的句子級(jí)文本情感分類研究[D]. 徐瑩瑩.深圳大學(xué) 2016
[4]基于深度學(xué)習(xí)理論與方法的中文專利文本自動(dòng)分類研究[D]. 馬雙剛.江蘇大學(xué) 2016
[5]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
本文編號(hào):3447259
【文章來源】:河北工業(yè)大學(xué)天津市 211工程院校
【文章頁數(shù)】:56 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
word2vec訓(xùn)練后得到的詞典
河北工業(yè)大學(xué)碩士學(xué)位論文-31-0.15,0.35,0.3,0.05]]。在其它參數(shù)保持不變的情況下,隱藏層的節(jié)點(diǎn)個(gè)數(shù)n約為120的時(shí)候準(zhǔn)確率最佳。除迭代次數(shù)epoch之外的參數(shù)保持初始值的情況下,隨著迭代次數(shù)的增加,準(zhǔn)確率也隨之增大,但是迭代次數(shù)為20時(shí),準(zhǔn)確率達(dá)到最佳。同理得到學(xué)習(xí)率的最佳取值為0.1。如圖5.1所示,在d3的概率分布下,效果最佳,即摘要、權(quán)利要求說明書、發(fā)明內(nèi)容、具體實(shí)施方式、功能按照0.15,0.1,0.35,0.3,0.1的概率分布時(shí)效果最佳。圖5.1交叉驗(yàn)證調(diào)參結(jié)果圖5.1.3實(shí)驗(yàn)具體設(shè)計(jì)為了檢驗(yàn)本文設(shè)計(jì)的模型對(duì)于專利效應(yīng)分類的效果,本文主要設(shè)計(jì)了3類實(shí)驗(yàn):(1)基于機(jī)器學(xué)習(xí)的分類實(shí)驗(yàn)本文采用經(jīng)典的分類訓(xùn)練算法LR和SVM進(jìn)行實(shí)驗(yàn)。這里通過sklearn庫調(diào)用svm包中的SVC和linear_model包中LogisticRegression分別實(shí)現(xiàn)SVM算法和LR算法。這是因?yàn)镾klearn庫提供了很多的默認(rèn)參數(shù),對(duì)LR和SVM涉及的參數(shù)調(diào)節(jié)相對(duì)較少,并且調(diào)節(jié)起來也方便,適合于進(jìn)行分類方面的研究。其中SVC表示通過實(shí)現(xiàn)二分類的方法進(jìn)行多分類[49]。若n_class是類別的數(shù)量,就必須建立n*n/2個(gè)分類器,而desision_function_shape參數(shù)則允許集成二分類器對(duì)樣本進(jìn)行多分類的操作。
河北工業(yè)大學(xué)碩士學(xué)位論文-35-5.3.2應(yīng)用展示在此采用頁面展示的方式說明以上案例的使用和新專利文本的分析。本文采用Django框架和MySQL數(shù)據(jù)庫實(shí)現(xiàn)算法部分、后臺(tái)數(shù)據(jù)庫部分與前臺(tái)的交互。(1)新專利文本的分析頁面如圖5.2所示,輸入的信息包含專利原名稱、專利號(hào)、摘要、權(quán)利要求說明書、發(fā)明內(nèi)容、具體實(shí)施方式以及專利的功能等內(nèi)容。圖5.2效應(yīng)分析界面輸入需要輸入的文本內(nèi)容,點(diǎn)擊“分析”按鈕,摘要、權(quán)利要求說明書、發(fā)明內(nèi)容、具體實(shí)施方式、專利功能這五部分的文本,就會(huì)調(diào)用后臺(tái)算法自動(dòng)分析出該專利
【參考文獻(xiàn)】:
期刊論文
[1]中文文本特征選擇方法研究綜述[J]. 徐泓洋,楊國(guó)為. 工業(yè)控制計(jì)算機(jī). 2017(11)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)和KNN的短文本分類算法研究[J]. 殷亞博,楊文忠,楊慧婷,許超英. 計(jì)算機(jī)工程. 2018(07)
[3]基于word embedding的短文本特征擴(kuò)展與分類[J]. 孟欣,左萬利. 小型微型計(jì)算機(jī)系統(tǒng). 2017(08)
[4]基于加權(quán)word2vec的微博情感分析[J]. 李銳,張謙,劉嘉勇. 通信技術(shù). 2017(03)
[5]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 黃磊,杜昌順. 北京化工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(01)
[6]基于主題擴(kuò)展的領(lǐng)域問題分類方法[J]. 張青,呂釗. 計(jì)算機(jī)工程. 2016(09)
[7]基于功能基的專利信息挖掘與自動(dòng)分類實(shí)驗(yàn)研究[J]. 劉龍繁,李彥,侯超異,李文強(qiáng). 四川大學(xué)學(xué)報(bào)(工程科學(xué)版). 2016(05)
[8]基于摘要文本的專利快速自動(dòng)分類方法[J]. 繆建明,賈廣威,張運(yùn)良. 情報(bào)理論與實(shí)踐. 2016(08)
[9]國(guó)際專利分類表中設(shè)計(jì)知識(shí)的提取和利用[J]. 冀瑜,邱清盈,馮培恩,黃浩. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2016(03)
[10]基于知識(shí)粒度的TRIZ在創(chuàng)新設(shè)計(jì)中的應(yīng)用[J]. 劉龍繁,李彥,馬金龍,杜曉嬌,劉紅圍. 機(jī)械工程學(xué)報(bào). 2016(05)
博士論文
[1]專利知識(shí)獲取及其支持概念創(chuàng)新設(shè)計(jì)的方法研究[D]. 王朝霞.浙江大學(xué) 2009
碩士論文
[1]文本表示模型和特征選擇算法研究[D]. 陳磊.中國(guó)科學(xué)技術(shù)大學(xué) 2017
[2]基于詞分布的文本表示研究[D]. 陳志鵬.蘇州大學(xué) 2017
[3]基于深度神經(jīng)網(wǎng)絡(luò)模型的句子級(jí)文本情感分類研究[D]. 徐瑩瑩.深圳大學(xué) 2016
[4]基于深度學(xué)習(xí)理論與方法的中文專利文本自動(dòng)分類研究[D]. 馬雙剛.江蘇大學(xué) 2016
[5]基于Attention-Based LSTM模型的文本分類技術(shù)的研究[D]. 張沖.南京大學(xué) 2016
本文編號(hào):3447259
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3447259.html
最近更新
教材專著