天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于LDA模型的專利文本分類及演化研究

發(fā)布時間:2018-10-23 12:03
【摘要】:專利文獻是技術(shù)情報的載體,它的文本中隱藏了大量的技術(shù)情報信息,是技術(shù)情報消息的最佳情報來源。隨著新中國的快速發(fā)展,我國專利的申請數(shù)量已在逐年升高,至2016年已經(jīng)連續(xù)第五年蟬聯(lián)全球?qū)@暾埩恐。因?對于這些海量專利文獻的信息挖掘技術(shù)的研發(fā),已成為國家和企業(yè)研究的共同熱點。LDA模型是典型的概率主題模型,目前已廣泛應用在自然語言處理、數(shù)據(jù)挖掘和人工智能等領(lǐng)域,用來分析文本的分類和演化問題。其中概率主題模型很少應用在專利文本的相關(guān)研究中,故本文在現(xiàn)有專利文本信息挖掘技術(shù)框架的基礎(chǔ)上,采用LDA模型對專利文本進行分類及演化研究,本文具體的研究內(nèi)容如下:(1)首先概述幾種傳統(tǒng)的概率主題模型并對它們作簡要的敘述,再對本文算法應用的LDA模型進行詳細的描述,介紹其的相關(guān)數(shù)學概率分布和參數(shù)推斷算法,最后回顧專利文本中的一些典型的分類算法和演化分析方法。(2)針對傳統(tǒng)專利文本自動分類方法中,使用向量空間模型文本表示方法存在的問題,提出一種基于LDA模型專利文本分類方法。該方法利用LDA主題模型對專利文本語料庫建模,提取專利文本的文檔-主題和主題-特征詞矩陣,達到降維目的和提取文檔間的語義聯(lián)系,引入類的類-主題矩陣,為類進行主題語義拓展,使用主題相似度構(gòu)造層次分類,小類采用KNN分類方法。實驗結(jié)果:與基于向量空間文本表示模型的KNN專利文本分類方法對比,此方法能夠獲得更高的分類評估指數(shù)。(3)運用概率主題模型全面研究專利文獻主題演化,發(fā)現(xiàn)專利技術(shù)發(fā)展趨勢。LDA模型按時間窗口對專利文本建模,困惑度確定最優(yōu)主題,按專利文本結(jié)構(gòu)特性提取主題向量,采用JS散度度量主題之間的關(guān)聯(lián),引入IPC分類號計算技術(shù)主題強度,最后實現(xiàn)主題強度、主題內(nèi)容和技術(shù)主題強度三方面的演化研究。實驗結(jié)果表明該方法可以較好地分析專利技術(shù)隨時間的演化規(guī)律及趨勢。該方法能夠深入挖掘?qū)@墨I的主題,幫助相關(guān)從業(yè)人員了解專利技術(shù)的演化過程及趨勢。
[Abstract]:Patent document is the carrier of technical information, whose text conceals a large amount of technical information and is the best information source of technical information. With the rapid development of New China, the number of patent applications in China has been increasing year by year, and the number of patent applications has been the highest in the world for the fifth consecutive year in 2016. Therefore, the research and development of information mining technology for these massive patent documents has become a common focus of national and enterprise research. LDA model is a typical probabilistic subject model, which has been widely used in natural language processing. Data mining and artificial intelligence are used to analyze the classification and evolution of text. The probabilistic subject model is seldom used in the research of patent text, so this paper uses LDA model to classify and evolve patent text on the basis of the existing technical framework of patent text information mining. The specific contents of this paper are as follows: (1) firstly, several traditional probabilistic subject models are summarized and briefly described, and then the LDA model used in this algorithm is described in detail. The related mathematical probability distribution and parameter inference algorithm are introduced. Finally, some typical classification algorithms and evolutionary analysis methods in patent texts are reviewed. (2) in view of the traditional automatic classification methods for patent texts, This paper presents a patent text classification method based on LDA model, which is based on the problems of vector space model (VSM) text representation. This method uses the LDA topic model to model the patent text corpus, extracts the document topic and theme-feature word matrix of the patent text, achieves the purpose of reducing dimension and extracting the semantic relation between the documents, and introduces the class-topic matrix of the class. In order to extend the topic semantics for the class, the topic similarity degree is used to classify the sublayer, and the KNN classification method is used for the small class. Experimental results: compared with the KNN patent text classification method based on vector space text representation model, this method can obtain a higher classification evaluation index. (3) using probabilistic subject model to study the topic evolution of patent literature. The development trend of patent technology is found. The LDA model models patent text according to time window, determines the optimal subject according to the degree of confusion, extracts the theme vector according to the structural characteristics of patent text, and measures the correlation between the topics by using JS divergence. This paper introduces the IPC taxonomy to calculate the technical topic strength, and finally realizes the evolution of the theme intensity, the theme content and the technical theme intensity. The experimental results show that this method can better analyze the evolution law and trend of patent technology with time. This method can dig into the subject of patent literature and help relevant practitioners to understand the evolution process and trend of patent technology.
【學位授予單位】:江西理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP391.1

【參考文獻】

相關(guān)期刊論文 前10條

1 劉紅光;馬雙剛;劉桂鋒;;基于機器學習的專利文本分類算法研究綜述[J];圖書情報研究;2016年03期

2 劉桂鋒;汪滿容;劉海軍;;基于概率超圖半監(jiān)督學習的專利文本分類方法研究[J];情報雜志;2016年09期

3 繆建明;賈廣威;張運良;;基于摘要文本的專利快速自動分類方法[J];情報理論與實踐;2016年08期

4 祖坤琳;趙銘偉;林鴻飛;;基于有序聚類的專利知識演化研究[J];計算機工程與科學;2016年04期

5 韓紅旗;付媛;朱禮軍;;基于專利IPC分類號的技術(shù)競爭對象的群組分析方法[J];情報工程;2015年04期

6 陳海紅;;多核SVM文本分類研究[J];軟件;2015年05期

7 秦曉慧;樂小虬;;基于LDA主題關(guān)聯(lián)過濾的領(lǐng)域主題演化研究[J];現(xiàn)代圖書情報技術(shù);2015年03期

8 王鵬;高鋮;陳曉美;;基于LDA模型的文本聚類研究[J];情報科學;2015年01期

9 魏景璇;魯燃;張艷輝;;基于動態(tài)閾值和命名實體的雙重過濾話題追蹤[J];計算機應用研究;2015年04期

10 李湘東;張嬌;袁滿;;基于LDA模型的科技期刊主題演化研究[J];情報雜志;2014年07期

相關(guān)會議論文 前1條

1 王會珍;朱靖波;陳文亮;季鐸;張斌;;基于一元語法模型的中文話題追蹤[A];第二屆全國學生計算語言學研討會論文集[C];2004年

,

本文編號:2289173

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2289173.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0671e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com
欧美一级日韩中文字幕| 国产欧美日韩不卡在线视频| 麻豆果冻传媒一二三区| 好吊日视频这里都是精品| 老司机精品视频免费入口| 日韩精品一级一区二区| 国产人妻熟女高跟丝袜| 国产av精品一区二区| 亚洲熟女熟妇乱色一区| 久草热视频这里只有精品| 婷婷基地五月激情五月| 91人妻人澡人人爽人人精品| 国产精品一区二区香蕉视频| 精品久久av一二三区| 丰满少妇高潮一区二区| 亚洲性生活一区二区三区| 亚洲精品一区二区三区免| 欧美午夜色视频国产精品| 国产男女激情在线视频| 黄色国产精品一区二区三区| 国产精品熟女在线视频| 午夜小视频成人免费看| 风韵人妻丰满熟妇老熟女av | 一级欧美一级欧美在线播| 亚洲av在线视频一区| 国产精品一区日韩欧美| 黑色丝袜脚足国产一区二区| 国产亚洲欧美自拍中文自拍| 国产精品一区二区三区日韩av| 欧美一区二区三区五月婷婷| 亚洲中文字幕在线乱码av| 久久一区内射污污内射亚洲| 肥白女人日韩中文视频| 欧美中文字幕一区在线| 欧美日韩少妇精品专区性色| 欧美成人黄色一级视频| 国产精品激情在线观看| 中文字字幕在线中文乱码二区| 国产又黄又爽又粗视频在线| 大香蕉久草网一区二区三区| 日韩女优视频国产一区|