基于Doc2vec的專利與行業(yè)類目映射研究
發(fā)布時間:2022-08-06 18:29
[目的/意義]使用深度學(xué)習(xí)中Doc2vec文本向量化的方法進(jìn)行專利與行業(yè)間類目相似度的計(jì)算,旨在為用計(jì)算機(jī)進(jìn)行類目映射時提供新的方法和思路。[方法/過程]實(shí)驗(yàn)通過《國際專利分類表》的小類及其下級類目大組與《國民經(jīng)濟(jì)行業(yè)分類表》中的小類展開,通過Doc2vec文本向量化和余弦相似度的方法求取三組相似值(專利小類與行業(yè)小類、專利大組與行業(yè)小類、每組專利小類下大組與行業(yè)小類相似度的平均值),并以農(nóng)業(yè)類目為例進(jìn)行解釋說明。[結(jié)果/結(jié)論]通過計(jì)算專利大組與行業(yè)小類相似度平均值的方法進(jìn)行映射更具合理性。
【文章頁數(shù)】:8 頁
【文章目錄】:
0 引言
1 專利與行業(yè)類目映射研究現(xiàn)狀
(1)專家判定法
(2)交叉檢索法
(3)概率分析法
2 工作原理
2.1 獲取數(shù)據(jù)
2.2 數(shù)據(jù)預(yù)處理
2.3 獲取類目特征詞
2.4 文本向量化
2.5 余弦相似度
3 實(shí)驗(yàn)
3.1 NIC農(nóng)業(yè)小類與IPC農(nóng)業(yè)小類相似度計(jì)算結(jié)果
3.2 NIC農(nóng)業(yè)小類與IPC農(nóng)業(yè)大組相似度計(jì)算結(jié)果
3.3 IPC每組農(nóng)業(yè)小類下大組與NIC農(nóng)業(yè)小類相似度平均值
3.4 實(shí)驗(yàn)總結(jié)
4 結(jié)語
【參考文獻(xiàn)】:
期刊論文
[1]基于余弦相似度的加權(quán)K近鄰室內(nèi)定位算法[J]. 黃運(yùn)穩(wěn),陳光,葉建芳. 計(jì)算機(jī)應(yīng)用與軟件. 2019(02)
[2]基于詞向量Doc2vec的雙向LSTM情感分析[J]. 張俊飛,畢志升,吳小玲. 計(jì)算機(jī)與數(shù)字工程. 2018(12)
[3]Python環(huán)境下的文本分詞與詞云制作[J]. 嚴(yán)明,鄭昌興. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(34)
[4]文本向量化表示方法的總結(jié)與分析[J]. 冀宇軒. 電子世界. 2018(22)
[5]基于doc2vec和TF-IDF的相似文本識別[J]. 賀益侗. 電子制作. 2018(18)
[6]基于深度學(xué)習(xí)的慢性肝病CT報告相似度分析[J]. 常炳國,劉清星. 計(jì)算機(jī)應(yīng)用與軟件. 2018(08)
[7]利用Doc2Vec判斷中文專利相似性[J]. 張海超,趙良偉. 情報工程. 2018(02)
[8]基于Word2vec的文檔分類方法[J]. 陳杰,陳彩,梁毅. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(11)
[9]淺談專利分類、行業(yè)分類與商品分類的統(tǒng)一模型[J]. 楊棟,邱曉寧,梁素平,成慧明,曹鵬,張建強(qiáng),嚴(yán)薇,田晶. 中國發(fā)明與專利. 2017(09)
[10]一種基于相似度的專利與產(chǎn)業(yè)類目映射模型——以《國際專利分類》與《國民經(jīng)濟(jì)行業(yè)分類》為例[J]. 田創(chuàng),趙亞娟. 圖書情報工作. 2016(20)
本文編號:3670147
【文章頁數(shù)】:8 頁
【文章目錄】:
0 引言
1 專利與行業(yè)類目映射研究現(xiàn)狀
(1)專家判定法
(2)交叉檢索法
(3)概率分析法
2 工作原理
2.1 獲取數(shù)據(jù)
2.2 數(shù)據(jù)預(yù)處理
2.3 獲取類目特征詞
2.4 文本向量化
2.5 余弦相似度
3 實(shí)驗(yàn)
3.1 NIC農(nóng)業(yè)小類與IPC農(nóng)業(yè)小類相似度計(jì)算結(jié)果
3.2 NIC農(nóng)業(yè)小類與IPC農(nóng)業(yè)大組相似度計(jì)算結(jié)果
3.3 IPC每組農(nóng)業(yè)小類下大組與NIC農(nóng)業(yè)小類相似度平均值
3.4 實(shí)驗(yàn)總結(jié)
4 結(jié)語
【參考文獻(xiàn)】:
期刊論文
[1]基于余弦相似度的加權(quán)K近鄰室內(nèi)定位算法[J]. 黃運(yùn)穩(wěn),陳光,葉建芳. 計(jì)算機(jī)應(yīng)用與軟件. 2019(02)
[2]基于詞向量Doc2vec的雙向LSTM情感分析[J]. 張俊飛,畢志升,吳小玲. 計(jì)算機(jī)與數(shù)字工程. 2018(12)
[3]Python環(huán)境下的文本分詞與詞云制作[J]. 嚴(yán)明,鄭昌興. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2018(34)
[4]文本向量化表示方法的總結(jié)與分析[J]. 冀宇軒. 電子世界. 2018(22)
[5]基于doc2vec和TF-IDF的相似文本識別[J]. 賀益侗. 電子制作. 2018(18)
[6]基于深度學(xué)習(xí)的慢性肝病CT報告相似度分析[J]. 常炳國,劉清星. 計(jì)算機(jī)應(yīng)用與軟件. 2018(08)
[7]利用Doc2Vec判斷中文專利相似性[J]. 張海超,趙良偉. 情報工程. 2018(02)
[8]基于Word2vec的文檔分類方法[J]. 陳杰,陳彩,梁毅. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(11)
[9]淺談專利分類、行業(yè)分類與商品分類的統(tǒng)一模型[J]. 楊棟,邱曉寧,梁素平,成慧明,曹鵬,張建強(qiáng),嚴(yán)薇,田晶. 中國發(fā)明與專利. 2017(09)
[10]一種基于相似度的專利與產(chǎn)業(yè)類目映射模型——以《國際專利分類》與《國民經(jīng)濟(jì)行業(yè)分類》為例[J]. 田創(chuàng),趙亞娟. 圖書情報工作. 2016(20)
本文編號:3670147
本文鏈接:http://sikaile.net/tushudanganlunwen/3670147.html