文本挖掘在專利文獻(xiàn)分析中的應(yīng)用
發(fā)布時(shí)間:2021-05-07 10:39
保護(hù)知識(shí)產(chǎn)權(quán),對(duì)經(jīng)濟(jì)的健康發(fā)展、企業(yè)的做大做強(qiáng)至關(guān)重要。申請(qǐng)專利是保護(hù)知識(shí)產(chǎn)權(quán)的有效措施,專利的數(shù)量和質(zhì)量更是衡量企業(yè)創(chuàng)新能力的重要指標(biāo)。雖然每一篇專利文獻(xiàn)都有其詳細(xì)的IPC分類號(hào),但是專利文獻(xiàn)具有數(shù)量大、增長(zhǎng)快和文本非結(jié)構(gòu)化的特點(diǎn)。傳統(tǒng)的統(tǒng)計(jì)分析方法難以發(fā)現(xiàn)專利文獻(xiàn)中所隱含的大量技術(shù)信息和知識(shí),專利的價(jià)值得不到充分體現(xiàn)。文本挖掘技術(shù)為深度分析專利文獻(xiàn)提供了可能。運(yùn)用文本挖掘的理論和工具來(lái)分析專利文獻(xiàn),可以有效地導(dǎo)航企業(yè)的創(chuàng)新研發(fā),幫助企業(yè)提高創(chuàng)新能力和核心競(jìng)爭(zhēng)力。本文通過(guò)處理和分析專利文獻(xiàn),探討了文本挖掘技術(shù)在專利文獻(xiàn)分析中的應(yīng)用。在碩士研究中選擇文本聚類為切入點(diǎn),針對(duì)傳統(tǒng)的文本相似度計(jì)算方法精度不高的問(wèn)題,提出了一種基于Word2Vec的文本距離計(jì)算公式W2vdist;針對(duì)傳統(tǒng)的聚類算法缺乏穩(wěn)定性和精度的問(wèn)題,本文結(jié)合螢火蟲(chóng)算法和W2vdist,提出了一種融合螢火蟲(chóng)算法和K-Medoids算法的新型算法K-OFA。最后,設(shè)計(jì)實(shí)現(xiàn)了一個(gè)專利文本挖掘系統(tǒng)。本文主要研究成果如下:(1)結(jié)合文本挖掘的理論和方法,探討了文本挖掘技術(shù)在專利文獻(xiàn)分析中...
【文章來(lái)源】:江蘇科技大學(xué)江蘇省
【文章頁(yè)數(shù)】:114 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 論文研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 文本挖掘研究現(xiàn)狀
1.2.2 專利文獻(xiàn)分析研究現(xiàn)狀
1.3 本文的主要?jiǎng)?chuàng)新工作和組織架構(gòu)
第2章 相關(guān)技術(shù)和研究
2.1 文本挖掘
2.1.1 文本挖掘的基本概念
2.1.2 中文文本挖掘的關(guān)鍵技術(shù)
2.2 專利文獻(xiàn)
2.2.1 專利文獻(xiàn)的特征
2.2.2 專利文獻(xiàn)的處理難點(diǎn)
2.3 基于文本挖掘理論的專利分析方法
2.3.1 基于SAO的專利挖掘方法
2.3.2 基于深度學(xué)習(xí)的專利價(jià)值評(píng)估方法
2.3.3 基于LDA主題模型的專利文本分析方法
2.3.4 基于本體的專利技術(shù)功效圖構(gòu)建方法
2.4 本章小結(jié)
第3章 基于詞向量的文本距離度量方式
3.1 常用的距離度量方式
3.2 Word2Vec模型
3.2.1 獨(dú)熱編碼
3.2.2 Word2Vec簡(jiǎn)介
3.2.3 CBOW模型
3.2.4 Skip-gram模型
3.2.5 Word2Vec模型的優(yōu)化
3.3 LDA主題模型
3.4 W2v_dist算法模型構(gòu)建
3.4.1 可行性分析
3.4.2 專利文本集處理和詞向量訓(xùn)練
3.4.3 基于詞向量的主題距離度量
3.4.4 基于主題距離的文本距離度量
3.5 本章小結(jié)
第4章 基于螢火蟲(chóng)算法的文本聚類
4.1 常用文本聚類算法
4.1.1 Agnes算法
4.1.2 Diana算法
4.1.3 K-均值算法
4.1.4 K-中心點(diǎn)算法
4.2 螢火蟲(chóng)算法
4.2.1 螢火蟲(chóng)算法概述
4.2.2 螢火蟲(chóng)算法模型
4.3 K-OFA算法模型構(gòu)建
4.3.1 可行性分析
4.3.2 K-OFA算法總體設(shè)計(jì)
4.3.3 多維標(biāo)度法
4.3.4 螢火蟲(chóng)算法的優(yōu)化
4.3.5 基于優(yōu)化螢火蟲(chóng)算法(OFA)的文本聚類
4.3.6 K-OFA算法實(shí)現(xiàn)
4.4 本章小結(jié)
第5章 實(shí)驗(yàn)與結(jié)果分析
5.1 OFA算法有效性分析
5.1.1 測(cè)試函數(shù)
5.1.2 實(shí)驗(yàn)過(guò)程
5.2 基于K-OFA算法的專利文本聚類
5.2.1 實(shí)驗(yàn)數(shù)據(jù)集
5.2.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
5.2.3 實(shí)驗(yàn)結(jié)果
5.2.4 實(shí)驗(yàn)結(jié)果分析
5.3 本章小結(jié)
第6章 專利文本挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
6.1 系統(tǒng)需求分析
6.1.1 系統(tǒng)總體需求分析
6.1.2 系統(tǒng)角色分析
6.1.3 系統(tǒng)動(dòng)態(tài)執(zhí)行過(guò)程
6.1.4 系統(tǒng)功能分析
6.2 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
6.2.1 系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)
6.2.2 系統(tǒng)層次結(jié)構(gòu)
6.3 系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)
6.3.1 數(shù)據(jù)庫(kù)表關(guān)系設(shè)計(jì)
6.3.2 數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì)
6.4 基于三層架構(gòu)的系統(tǒng)開(kāi)發(fā)過(guò)程
6.4.1 密碼校驗(yàn)
6.4.2 密碼修改
6.4.3 文獻(xiàn)列表顯示
6.4.4 文獻(xiàn)新增
6.4.5 文獻(xiàn)刪除
6.5 系統(tǒng)界面
6.5.1 登錄界面
6.5.2 修改密碼界面
6.5.3 專利文獻(xiàn)表界面
6.5.4 文本分詞界面
6.5.5 數(shù)據(jù)清洗界面
6.6 聚類結(jié)果分析
6.7 本章小結(jié)
第7章 總結(jié)和展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于SAO結(jié)構(gòu)的中文專利實(shí)體關(guān)系抽取[J]. 張永真,呂學(xué)強(qiáng),申閆春,徐麗萍. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(03)
[2]無(wú)人駕駛汽車專利技術(shù)主題分析——基于WI-LDA主題模型[J]. 李昌,伊惠芳,吳紅,冀方燕. 情報(bào)雜志. 2018(12)
[3]綜合詞位置和語(yǔ)義信息的專利文本相似度計(jì)算[J]. 夏冰,李寶安,呂學(xué)強(qiáng). 計(jì)算機(jī)工程與設(shè)計(jì). 2018(10)
[4]基于光流特征與高斯LDA的面部表情識(shí)別算法[J]. 劉濤,周先春,嚴(yán)錫君. 計(jì)算機(jī)科學(xué). 2018(10)
[5]專利技術(shù)信息挖掘研究進(jìn)展[J]. 趙陽(yáng),文庭孝. 圖書(shū)館. 2018(04)
[6]Hadoop平臺(tái)下基于快速搜索與密度峰值查找的聚類算法[J]. 郭友雄,黃添強(qiáng),林玲鵬,黃維. 福建師大福清分校學(xué)報(bào). 2018(02)
[7]雙種群協(xié)同下帶混沌閃爍機(jī)制的螢火蟲(chóng)算法研究[J]. 陳亞峰,張曉明,曹國(guó)清,周澤彧,戴波. 西安交通大學(xué)學(xué)報(bào). 2018(03)
[8]基于領(lǐng)域本體的專利技術(shù)-功效文本挖掘方法——以MOCVD技術(shù)為例[J]. 陸佳偉,慎金花,張更平,楊鋒. 價(jià)值工程. 2018(02)
[9]多模態(tài)函數(shù)聚類后再創(chuàng)種群的并行搜索佳點(diǎn)集螢火蟲(chóng)算法[J]. 方賢,鐵治欣,李敬明,高雄. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(06)
[10]基于寄生行為的雙種群螢火蟲(chóng)算法及其在柴油調(diào)合中的應(yīng)用[J]. 孔祥東,錢(qián)鋒. 華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
博士論文
[1]計(jì)算機(jī)輔助工藝創(chuàng)新知識(shí)獲取方法研究[D]. 王剛鋒.西北工業(yè)大學(xué) 2015
[2]螢火蟲(chóng)優(yōu)化算法研究及應(yīng)用[D]. 郁書(shū)好.合肥工業(yè)大學(xué) 2015
碩士論文
[1]基于Word2vec的中文Web智能問(wèn)答系統(tǒng)的研究與設(shè)計(jì)[D]. 徐成章.電子科技大學(xué) 2018
[2]基于深度學(xué)習(xí)的專利價(jià)值評(píng)估方法研究[D]. 林弘杰.中國(guó)科學(xué)技術(shù)大學(xué) 2018
[3]基于SAO的專利挖掘方法及在工業(yè)機(jī)器人領(lǐng)域的應(yīng)用[D]. 錢(qián)嬌.華南理工大學(xué) 2018
[4]基于語(yǔ)義相似度的中文文本聚類算法研究[D]. 楊開(kāi)平.電子科技大學(xué) 2018
[5]基于電信大數(shù)據(jù)的汽車行業(yè)用戶行為的研究與應(yīng)用[D]. 顧杰.北京郵電大學(xué) 2018
[6]公安部門(mén)互聯(lián)網(wǎng)輿情監(jiān)管系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 李遷.大連海事大學(xué) 2017
[7]基于主題模型的專利文本分析及應(yīng)用研究[D]. 孫寧寧.北京工業(yè)大學(xué) 2017
[8]基于自然語(yǔ)言處理的疑似侵權(quán)專利智能檢索研究[D]. 金健.江蘇大學(xué) 2017
[9]面向中文產(chǎn)品評(píng)論數(shù)據(jù)的情感分析模型設(shè)計(jì)及評(píng)估[D]. 李洋.北京郵電大學(xué) 2017
[10]大數(shù)據(jù)在專利信息分析中的應(yīng)用研究[D]. 劉澎.江蘇科技大學(xué) 2016
本文編號(hào):3173251
【文章來(lái)源】:江蘇科技大學(xué)江蘇省
【文章頁(yè)數(shù)】:114 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 論文研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 文本挖掘研究現(xiàn)狀
1.2.2 專利文獻(xiàn)分析研究現(xiàn)狀
1.3 本文的主要?jiǎng)?chuàng)新工作和組織架構(gòu)
第2章 相關(guān)技術(shù)和研究
2.1 文本挖掘
2.1.1 文本挖掘的基本概念
2.1.2 中文文本挖掘的關(guān)鍵技術(shù)
2.2 專利文獻(xiàn)
2.2.1 專利文獻(xiàn)的特征
2.2.2 專利文獻(xiàn)的處理難點(diǎn)
2.3 基于文本挖掘理論的專利分析方法
2.3.1 基于SAO的專利挖掘方法
2.3.2 基于深度學(xué)習(xí)的專利價(jià)值評(píng)估方法
2.3.3 基于LDA主題模型的專利文本分析方法
2.3.4 基于本體的專利技術(shù)功效圖構(gòu)建方法
2.4 本章小結(jié)
第3章 基于詞向量的文本距離度量方式
3.1 常用的距離度量方式
3.2 Word2Vec模型
3.2.1 獨(dú)熱編碼
3.2.2 Word2Vec簡(jiǎn)介
3.2.3 CBOW模型
3.2.4 Skip-gram模型
3.2.5 Word2Vec模型的優(yōu)化
3.3 LDA主題模型
3.4 W2v_dist算法模型構(gòu)建
3.4.1 可行性分析
3.4.2 專利文本集處理和詞向量訓(xùn)練
3.4.3 基于詞向量的主題距離度量
3.4.4 基于主題距離的文本距離度量
3.5 本章小結(jié)
第4章 基于螢火蟲(chóng)算法的文本聚類
4.1 常用文本聚類算法
4.1.1 Agnes算法
4.1.2 Diana算法
4.1.3 K-均值算法
4.1.4 K-中心點(diǎn)算法
4.2 螢火蟲(chóng)算法
4.2.1 螢火蟲(chóng)算法概述
4.2.2 螢火蟲(chóng)算法模型
4.3 K-OFA算法模型構(gòu)建
4.3.1 可行性分析
4.3.2 K-OFA算法總體設(shè)計(jì)
4.3.3 多維標(biāo)度法
4.3.4 螢火蟲(chóng)算法的優(yōu)化
4.3.5 基于優(yōu)化螢火蟲(chóng)算法(OFA)的文本聚類
4.3.6 K-OFA算法實(shí)現(xiàn)
4.4 本章小結(jié)
第5章 實(shí)驗(yàn)與結(jié)果分析
5.1 OFA算法有效性分析
5.1.1 測(cè)試函數(shù)
5.1.2 實(shí)驗(yàn)過(guò)程
5.2 基于K-OFA算法的專利文本聚類
5.2.1 實(shí)驗(yàn)數(shù)據(jù)集
5.2.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
5.2.3 實(shí)驗(yàn)結(jié)果
5.2.4 實(shí)驗(yàn)結(jié)果分析
5.3 本章小結(jié)
第6章 專利文本挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
6.1 系統(tǒng)需求分析
6.1.1 系統(tǒng)總體需求分析
6.1.2 系統(tǒng)角色分析
6.1.3 系統(tǒng)動(dòng)態(tài)執(zhí)行過(guò)程
6.1.4 系統(tǒng)功能分析
6.2 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
6.2.1 系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)
6.2.2 系統(tǒng)層次結(jié)構(gòu)
6.3 系統(tǒng)數(shù)據(jù)庫(kù)設(shè)計(jì)
6.3.1 數(shù)據(jù)庫(kù)表關(guān)系設(shè)計(jì)
6.3.2 數(shù)據(jù)庫(kù)表結(jié)構(gòu)設(shè)計(jì)
6.4 基于三層架構(gòu)的系統(tǒng)開(kāi)發(fā)過(guò)程
6.4.1 密碼校驗(yàn)
6.4.2 密碼修改
6.4.3 文獻(xiàn)列表顯示
6.4.4 文獻(xiàn)新增
6.4.5 文獻(xiàn)刪除
6.5 系統(tǒng)界面
6.5.1 登錄界面
6.5.2 修改密碼界面
6.5.3 專利文獻(xiàn)表界面
6.5.4 文本分詞界面
6.5.5 數(shù)據(jù)清洗界面
6.6 聚類結(jié)果分析
6.7 本章小結(jié)
第7章 總結(jié)和展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于SAO結(jié)構(gòu)的中文專利實(shí)體關(guān)系抽取[J]. 張永真,呂學(xué)強(qiáng),申閆春,徐麗萍. 計(jì)算機(jī)工程與設(shè)計(jì). 2019(03)
[2]無(wú)人駕駛汽車專利技術(shù)主題分析——基于WI-LDA主題模型[J]. 李昌,伊惠芳,吳紅,冀方燕. 情報(bào)雜志. 2018(12)
[3]綜合詞位置和語(yǔ)義信息的專利文本相似度計(jì)算[J]. 夏冰,李寶安,呂學(xué)強(qiáng). 計(jì)算機(jī)工程與設(shè)計(jì). 2018(10)
[4]基于光流特征與高斯LDA的面部表情識(shí)別算法[J]. 劉濤,周先春,嚴(yán)錫君. 計(jì)算機(jī)科學(xué). 2018(10)
[5]專利技術(shù)信息挖掘研究進(jìn)展[J]. 趙陽(yáng),文庭孝. 圖書(shū)館. 2018(04)
[6]Hadoop平臺(tái)下基于快速搜索與密度峰值查找的聚類算法[J]. 郭友雄,黃添強(qiáng),林玲鵬,黃維. 福建師大福清分校學(xué)報(bào). 2018(02)
[7]雙種群協(xié)同下帶混沌閃爍機(jī)制的螢火蟲(chóng)算法研究[J]. 陳亞峰,張曉明,曹國(guó)清,周澤彧,戴波. 西安交通大學(xué)學(xué)報(bào). 2018(03)
[8]基于領(lǐng)域本體的專利技術(shù)-功效文本挖掘方法——以MOCVD技術(shù)為例[J]. 陸佳偉,慎金花,張更平,楊鋒. 價(jià)值工程. 2018(02)
[9]多模態(tài)函數(shù)聚類后再創(chuàng)種群的并行搜索佳點(diǎn)集螢火蟲(chóng)算法[J]. 方賢,鐵治欣,李敬明,高雄. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(06)
[10]基于寄生行為的雙種群螢火蟲(chóng)算法及其在柴油調(diào)合中的應(yīng)用[J]. 孔祥東,錢(qián)鋒. 華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
博士論文
[1]計(jì)算機(jī)輔助工藝創(chuàng)新知識(shí)獲取方法研究[D]. 王剛鋒.西北工業(yè)大學(xué) 2015
[2]螢火蟲(chóng)優(yōu)化算法研究及應(yīng)用[D]. 郁書(shū)好.合肥工業(yè)大學(xué) 2015
碩士論文
[1]基于Word2vec的中文Web智能問(wèn)答系統(tǒng)的研究與設(shè)計(jì)[D]. 徐成章.電子科技大學(xué) 2018
[2]基于深度學(xué)習(xí)的專利價(jià)值評(píng)估方法研究[D]. 林弘杰.中國(guó)科學(xué)技術(shù)大學(xué) 2018
[3]基于SAO的專利挖掘方法及在工業(yè)機(jī)器人領(lǐng)域的應(yīng)用[D]. 錢(qián)嬌.華南理工大學(xué) 2018
[4]基于語(yǔ)義相似度的中文文本聚類算法研究[D]. 楊開(kāi)平.電子科技大學(xué) 2018
[5]基于電信大數(shù)據(jù)的汽車行業(yè)用戶行為的研究與應(yīng)用[D]. 顧杰.北京郵電大學(xué) 2018
[6]公安部門(mén)互聯(lián)網(wǎng)輿情監(jiān)管系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 李遷.大連海事大學(xué) 2017
[7]基于主題模型的專利文本分析及應(yīng)用研究[D]. 孫寧寧.北京工業(yè)大學(xué) 2017
[8]基于自然語(yǔ)言處理的疑似侵權(quán)專利智能檢索研究[D]. 金健.江蘇大學(xué) 2017
[9]面向中文產(chǎn)品評(píng)論數(shù)據(jù)的情感分析模型設(shè)計(jì)及評(píng)估[D]. 李洋.北京郵電大學(xué) 2017
[10]大數(shù)據(jù)在專利信息分析中的應(yīng)用研究[D]. 劉澎.江蘇科技大學(xué) 2016
本文編號(hào):3173251
本文鏈接:http://sikaile.net/guanlilunwen/keyanlw/3173251.html
最近更新
教材專著