中文專利侵權(quán)檢索模型研究
本文選題:中文專利權(quán)利要求書 + 分詞 ; 參考:《北京工業(yè)大學(xué)》2012年碩士論文
【摘要】:隨著社會的發(fā)展進(jìn)步,人們對知識產(chǎn)權(quán)的重視程度大幅度提高,隨之出現(xiàn)的是專利申請數(shù)量劇增,與之相伴隨的還有專利侵權(quán)案件及專利無效宣判案件的擴(kuò)增。這些問題出現(xiàn)的主要原因是目前的信息檢索水平有待提高:信息查全率、查準(zhǔn)率較低,還不能在海量的專利等相關(guān)文獻(xiàn)中將所有與主題相關(guān)的信息全部呈現(xiàn)出來,檢索結(jié)果存在大量無關(guān)信息,這些給用戶造成巨大的干擾。本文在研究信息檢索及專利侵權(quán)研究現(xiàn)狀的基礎(chǔ)上,,利用文本挖掘的思想,系統(tǒng)的對基于中文的專利侵權(quán)檢索模型進(jìn)行構(gòu)建。專利侵權(quán)檢索主要分為兩種類型:規(guī)避侵權(quán)檢索及主動侵權(quán)檢索。規(guī)避侵權(quán)檢索旨在根據(jù)用戶自己的專利(已經(jīng)申請或者未申請)、產(chǎn)品必要技術(shù)特征、研發(fā)方向的技術(shù)特征內(nèi)容,將可能會侵犯的已審批專利檢索出來。主動侵權(quán)檢索旨在根據(jù)用戶自己的專利(已經(jīng)授權(quán))檢索是否有相同的專利被重復(fù)授權(quán)。 本文主要內(nèi)容包括:數(shù)據(jù)獲取及文本預(yù)處理、專利侵權(quán)檢索模型構(gòu)建、系統(tǒng)實現(xiàn)、實驗效果評估及對研究的總結(jié)展望。本研究的專利實驗數(shù)據(jù)由中國國家知識產(chǎn)權(quán)局公布的發(fā)明、實用新型專利組成,通過對專利獨立權(quán)利要求書進(jìn)行一系列的處理操作,從而將疑似侵權(quán)專利呈現(xiàn)出來。在數(shù)據(jù)獲取及文本預(yù)處理部分首先將圖片格式的專利權(quán)利要求書通過OCR工具轉(zhuǎn)換為純文本。其次,總結(jié)歸納轉(zhuǎn)換過程中的字符識別錯誤及格式錯誤,對這些錯誤進(jìn)行糾正。再次,在中科院ICTCLAS分詞系統(tǒng)的基礎(chǔ)上,提出一種適合中文專利權(quán)利要求書的分詞算法,對實驗數(shù)據(jù)進(jìn)行分詞處理。最后根據(jù)需要對可能用到的著錄項、專利文本、分詞結(jié)果等提取出來,保存成XML文本,形成XML數(shù)據(jù)庫。在專利侵權(quán)檢索模型構(gòu)建部分通過對專利侵權(quán)判定原則及專利權(quán)利要求書的特征進(jìn)行分析,提出利用專利必要技術(shù)特征集合覆蓋度計算來代替?zhèn)鹘y(tǒng)的文本向量夾角余弦相似度計算方式,實驗證明該方法具有可行性。除此之外本文還對本體的構(gòu)建、倒排索引的構(gòu)建等進(jìn)行闡述說明。在系統(tǒng)實現(xiàn)及實驗效果評估部分,陳述了系統(tǒng)的實現(xiàn)環(huán)境、主要使用技術(shù)、部分核心代碼及算法的實驗效果。 本文的創(chuàng)新點在于:第一,利用OCR將PDF文件轉(zhuǎn)換為文本文件,并進(jìn)行容錯處理。第二,根據(jù)中文專利權(quán)利要求書特點,進(jìn)行分詞處理,并利用特征詞進(jìn)行特征提取。第三,提出根據(jù)專利必要技術(shù)特征覆蓋度算法進(jìn)行專利侵權(quán)判定的方法。
[Abstract]:With the development and progress of the society, people pay more attention to the intellectual property rights, and the number of patent applications increases dramatically. There are also patent infringement cases and patent invalidation cases. The main reason for these problems is that the current information retrieval level needs to be improved: the information recall rate, and the investigation of the information retrieval rate. The quasi rate is low, and all the information related to the subject can not be presented in a large number of patents and other related documents. There are a lot of unrelated information in the retrieval results, which cause huge interference to the users. On the basis of the research on information retrieval and patent infringement research, this paper uses the idea of text mining and is based on the system. The patent infringement retrieval model is constructed in Chinese. The patent infringement retrieval is divided into two types: the avoidance of tort retrieval and the active tort retrieval. The avoidance of tort retrieval aims at the necessary technical features of the product, the technical features of the R & D, and the possible infringement on the user's own patent (which has been applied or not applied). Active infringement search is aimed at retrieving whether the same patent is duplicated according to the user's patent (authorized).
The main contents of this paper include: data acquisition and text preprocessing, construction of patent infringement retrieval model, system implementation, evaluation of experimental results and summary of research. The patent experiment data of this study are published by the China National Intellectual Property Office, utility model patent group, through a series of patent claims. In the data acquisition and text preprocessing section, the patent claim of picture format is first converted to pure text by OCR tool. Secondly, the character recognition error and format error in the conversion process are summarized and corrected. Again, in the Chinese Academy of Sciences ICTC On the basis of the LAS participle system, a participle algorithm suitable for Chinese patent claims is proposed, which is used to deal with the experimental data. Finally, according to the requirements, the possible cataloguing items, the patent text, the result of the participle are extracted, and the XML text is preserved and the XML data base is formed. The characteristics of the principle of decision and the patent claim are analyzed. It is proposed to use the cover degree calculation of the necessary technical features of the patent to replace the traditional text vector angle cosine similarity calculation method. The experiment proves that the method is feasible. Besides, this paper also expounds the construction of the ontology and the construction of the inverted index. The implementation of the system and the evaluation of the experimental results show the implementation environment of the system, mainly using the technology, some core codes and the experimental results of the algorithm.
The innovation points of this paper are: first, using OCR to convert PDF files into text files and carry out fault-tolerant processing. Second, according to the characteristics of Chinese patent claims, we carry out participle processing and use characteristic words for feature extraction. Third, the method of patent infringement judgment based on patent necessary technical characteristic overlay algorithm is put forward.
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3;G306
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 趙環(huán)宇;張桂平;季鐸;蔡東風(fēng);;專利分類中基于主題的特征權(quán)重計算方法[J];沈陽航空工業(yè)學(xué)院學(xué)報;2009年01期
2 胥桂仙,蘇筱蔚,陳淑艷;中文文本挖掘中的無詞典分詞的算法及其應(yīng)用[J];吉林工學(xué)院學(xué)報(自然科學(xué)版);2002年01期
3 汪雪鋒;劉玉琴;劉佳;;中文專利侵權(quán)檢索模型研究[J];計算機(jī)工程與應(yīng)用;2009年09期
4 胡鶴,劉大有,王生生;Web本體語言的分析與比較[J];計算機(jī)工程;2005年04期
5 郭煒強;戴天;文貴華;;基于領(lǐng)域知識的專利自動分類[J];計算機(jī)工程;2005年23期
6 劉玉琴;桂婕;朱東華;;基于IPC知識結(jié)構(gòu)的專利自動分類方法[J];計算機(jī)工程;2008年03期
7 張虹;;基于自動文本分類的關(guān)鍵詞抽取算法[J];計算機(jī)工程;2009年12期
8 劉玉琴;汪雪鋒;呂琳;;基于權(quán)利要求結(jié)構(gòu)信息的中文專利無效檢索模型[J];計算機(jī)應(yīng)用研究;2008年07期
9 張桂平;劉東生;尹寶生;徐立軍;苗雪雷;;面向?qū)@墨I(xiàn)的中文分詞技術(shù)的研究[J];中文信息學(xué)報;2010年03期
10 翟東升;馬文姍;;中文專利權(quán)利要求書分詞算法研究[J];情報雜志;2011年11期
相關(guān)博士學(xué)位論文 前1條
1 杜文華;本體的構(gòu)建及其在數(shù)字圖書館中的應(yīng)用研究[D];武漢大學(xué);2005年
相關(guān)碩士學(xué)位論文 前3條
1 褚曉雷;基于機(jī)器學(xué)習(xí)的專利分類研究[D];上海交通大學(xué);2008年
2 葉志飛;并行化最小最大模塊化支持向量機(jī)及其在專利分類中的應(yīng)用[D];上海交通大學(xué);2009年
3 岳中原;詞典與統(tǒng)計相結(jié)合的中文分詞的研究[D];武漢理工大學(xué);2010年
本文編號:1856796
本文鏈接:http://sikaile.net/guanlilunwen/keyanlw/1856796.html