中文專利侵權檢索的研究與實現(xiàn)
發(fā)布時間:2021-02-20 23:39
專利文獻中的技術內(nèi)容占比全球技術的九成以上,是全球最大的技術信息儲存中心。由于市場的推動作用,各個國家近年來的專利數(shù)量呈現(xiàn)爆炸式增長,同時專利侵權訴訟也愈加頻繁。專利所有人為了避免專利侵權以及防止他人侵權自身專利,需要可靠有用的專利侵權檢索系統(tǒng)。目前市場上的主要專利檢索系統(tǒng)基本上是基于布爾檢索模型構建,該模型僅提供關鍵字匹配檢索。因此,研究能夠自動計算專利之間侵權性的檢測算法有著重要的現(xiàn)實意義。本文在分析專利侵權檢測相關概念以及自然語言處理相關工作等基礎上,重點研究基于權利要求書的侵權檢測算法,并且最終設計實現(xiàn)了一套可用的專利侵權檢索系統(tǒng)。為了達到這個目標,本文首先提出了一種基于Word2Vec模型的語義拓展向量空間模型專利侵權檢測算法。該算法能夠充分利用Word2Vec模型中所包含的語義信息,從而解決了傳統(tǒng)向量空間模型表征文本語義信息能力弱的問題,但該算法對包含關系的專利侵權行為不能很好的檢測,所以本文又提出了一種基于句向量的專利侵權檢測算法。該算法對專利權利要求書進行分句,并使用無監(jiān)督句向量生成算法得到句子的向量,通過構建兩篇權利要求書之間的句子相似度矩陣完成對權利要求書侵權程度的...
【文章來源】:中國科學技術大學安徽省 211工程院校 985工程院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
圖3.2語義拓展向量空間模型流程圖??3.2.4?PCA優(yōu)化語義拓展向量空間模型??
圖3.3基于語義拓展向量空間模型的專利侵權檢測算法流程圖??于語義拓展向量空間模型的專利侵權檢測算法核心代碼如下:??入庫文件??port?gensim??port?numpy?as?np??m?skleam.decomposition?import?PCA??用向量空間模型把文本向量化??ll_word為所有特征詞的diet。key為特征詞,value為詞的index??f?vsm(word_tfidf_dict,?all一word):??res一1st?=?[0.0?for?i?in?range(len(all—word))]??for?word?in?word_tfidf_dict.keys():??29??
及召回率高。在系統(tǒng)設計上,應盡可能的保持簡潔的外觀以及保留實用性接口。??4.2.2系統(tǒng)框架圖??系統(tǒng)主要框架如下圖4.1所示,主要包括四個模塊:數(shù)據(jù)預處理模塊、待檢??測專利處理模塊、專利侵權檢測算法計算模塊、用戶模塊。??用戶模塊?數(shù)據(jù)預處理模塊???5???待檢測專利處理模塊??????專利侵權檢測算法計??算模塊??L??-???圖4.1系統(tǒng)框架圖??下面對這四個模塊進行簡要說明:??(1)
【參考文獻】:
期刊論文
[1]基于最大匹配算法的似然導向中文分詞方法[J]. 楊貴軍,徐雪,鳳麗洲,徐玉慧. 統(tǒng)計與信息論壇. 2019(03)
[2]基于統(tǒng)計的中文分詞算法研究[J]. 鄒佳倫,文漢云,王同喜. 電腦知識與技術. 2019(04)
[3]基于TF-IDF算法的文本信息提取[J]. 于韜,王洪巖. 科技視界. 2018(16)
[4]基于領域本體的專利信息檢索研究[J]. 張杰,張海超,翟東升,孫武,陳蕾. 情報科學. 2014(10)
[5]基于SOM的中文專利侵權檢測研究[J]. 武玉英,馬羽翔,翟東升. 情報雜志. 2014(02)
[6]相似專利檢測研究[J]. 周群芳. 現(xiàn)代圖書情報技術. 2012(11)
[7]中文專利侵權檢索模型研究[J]. 馬文姍,趙海寧,翟東升. 情報雜志. 2012(04)
[8]相關系數(shù)含義的理解[J]. 陳永秀. 中國考試. 2011(07)
[9]一種基于文本挖掘的專利相似度測量方法及其應用[J]. 彭繼東,譚宗穎. 情報理論與實踐. 2010(12)
[10]中文專利侵權檢索模型研究[J]. 汪雪鋒,劉玉琴,劉佳. 計算機工程與應用. 2009(09)
碩士論文
[1]基于自然語言處理的疑似侵權專利智能檢索研究[D]. 金健.江蘇大學 2017
[2]中文分詞算法的研究與實現(xiàn)[D]. 秦贊.吉林大學 2016
[3]基于SAO的中文相似專利識別方法及其應用研究[D]. 張海超.北京工業(yè)大學 2015
[4]中文專利侵權檢索模型研究[D]. 馬文姍.北京工業(yè)大學 2012
[5]基于向量空間模型的中文文本相似度算法研究[D]. 陳飛宏.電子科技大學 2011
[6]基于詞典的中文分詞技術研究[D]. 郭瞳康.哈爾濱理工大學 2010
本文編號:3043523
【文章來源】:中國科學技術大學安徽省 211工程院校 985工程院校
【文章頁數(shù)】:75 頁
【學位級別】:碩士
【部分圖文】:
圖3.2語義拓展向量空間模型流程圖??3.2.4?PCA優(yōu)化語義拓展向量空間模型??
圖3.3基于語義拓展向量空間模型的專利侵權檢測算法流程圖??于語義拓展向量空間模型的專利侵權檢測算法核心代碼如下:??入庫文件??port?gensim??port?numpy?as?np??m?skleam.decomposition?import?PCA??用向量空間模型把文本向量化??ll_word為所有特征詞的diet。key為特征詞,value為詞的index??f?vsm(word_tfidf_dict,?all一word):??res一1st?=?[0.0?for?i?in?range(len(all—word))]??for?word?in?word_tfidf_dict.keys():??29??
及召回率高。在系統(tǒng)設計上,應盡可能的保持簡潔的外觀以及保留實用性接口。??4.2.2系統(tǒng)框架圖??系統(tǒng)主要框架如下圖4.1所示,主要包括四個模塊:數(shù)據(jù)預處理模塊、待檢??測專利處理模塊、專利侵權檢測算法計算模塊、用戶模塊。??用戶模塊?數(shù)據(jù)預處理模塊???5???待檢測專利處理模塊??????專利侵權檢測算法計??算模塊??L??-???圖4.1系統(tǒng)框架圖??下面對這四個模塊進行簡要說明:??(1)
【參考文獻】:
期刊論文
[1]基于最大匹配算法的似然導向中文分詞方法[J]. 楊貴軍,徐雪,鳳麗洲,徐玉慧. 統(tǒng)計與信息論壇. 2019(03)
[2]基于統(tǒng)計的中文分詞算法研究[J]. 鄒佳倫,文漢云,王同喜. 電腦知識與技術. 2019(04)
[3]基于TF-IDF算法的文本信息提取[J]. 于韜,王洪巖. 科技視界. 2018(16)
[4]基于領域本體的專利信息檢索研究[J]. 張杰,張海超,翟東升,孫武,陳蕾. 情報科學. 2014(10)
[5]基于SOM的中文專利侵權檢測研究[J]. 武玉英,馬羽翔,翟東升. 情報雜志. 2014(02)
[6]相似專利檢測研究[J]. 周群芳. 現(xiàn)代圖書情報技術. 2012(11)
[7]中文專利侵權檢索模型研究[J]. 馬文姍,趙海寧,翟東升. 情報雜志. 2012(04)
[8]相關系數(shù)含義的理解[J]. 陳永秀. 中國考試. 2011(07)
[9]一種基于文本挖掘的專利相似度測量方法及其應用[J]. 彭繼東,譚宗穎. 情報理論與實踐. 2010(12)
[10]中文專利侵權檢索模型研究[J]. 汪雪鋒,劉玉琴,劉佳. 計算機工程與應用. 2009(09)
碩士論文
[1]基于自然語言處理的疑似侵權專利智能檢索研究[D]. 金健.江蘇大學 2017
[2]中文分詞算法的研究與實現(xiàn)[D]. 秦贊.吉林大學 2016
[3]基于SAO的中文相似專利識別方法及其應用研究[D]. 張海超.北京工業(yè)大學 2015
[4]中文專利侵權檢索模型研究[D]. 馬文姍.北京工業(yè)大學 2012
[5]基于向量空間模型的中文文本相似度算法研究[D]. 陳飛宏.電子科技大學 2011
[6]基于詞典的中文分詞技術研究[D]. 郭瞳康.哈爾濱理工大學 2010
本文編號:3043523
本文鏈接:http://sikaile.net/tushudanganlunwen/3043523.html