天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

專利熱點(diǎn)挖掘方法研究

發(fā)布時(shí)間:2020-10-18 06:07
   隨著社會(huì)的不斷進(jìn)步,各領(lǐng)域的科技創(chuàng)新取得了空前的成果,大量專利文獻(xiàn)也隨著這些新技術(shù)產(chǎn)生和積累,專利文本的挖掘工作逐漸成為對(duì)技術(shù)發(fā)展的決策制定舉足輕重的必要工作。隨著專利數(shù)量的爆炸式增長(zhǎng),海量的專利數(shù)據(jù)由人工提煉耗時(shí)耗力,甚至已經(jīng)超越了人的處理極限,大量自動(dòng)化挖掘熱點(diǎn)研究話題的智能分析系統(tǒng)應(yīng)運(yùn)而生。然而,傳統(tǒng)的文本挖掘方法大多以單獨(dú)的關(guān)鍵詞來(lái)描述概念,存在著不夠具體、引起歧義以及無(wú)法區(qū)別同義詞造成的主題意義差別等限制,且需要利用先驗(yàn)的專家詞庫(kù)進(jìn)行預(yù)處理,并不能根據(jù)數(shù)據(jù)集本身的特點(diǎn)無(wú)監(jiān)督地實(shí)現(xiàn)關(guān)鍵詞的篩選和排序。本文針對(duì)上述問(wèn)題,將主題模型應(yīng)用在專利熱點(diǎn)挖掘領(lǐng)域,建立起專利熱點(diǎn)挖掘的系統(tǒng)框架,通過(guò)算法設(shè)計(jì)和各種關(guān)鍵技術(shù),以無(wú)監(jiān)督方式實(shí)現(xiàn)了特性損失詞的識(shí)別與消除以及專利熱點(diǎn)的挖掘。具體地,本文的主要貢獻(xiàn)和創(chuàng)新點(diǎn)如下:(1)提出了面向摘要及權(quán)利要求的語(yǔ)義主題發(fā)現(xiàn)及分析方法—基于詞語(yǔ)權(quán)重的隱含狄利克雷模型(Term Weight based Latent Dirichlet Allocation,TW-LDA),通過(guò)引入詞語(yǔ)權(quán)重,以無(wú)監(jiān)督方式實(shí)現(xiàn)了主題發(fā)現(xiàn)及對(duì)特性損失詞的識(shí)別與消除。(2)提出了一種改進(jìn)的基于專利主題向量的聚類算法PTVOM(Patent Topic Vector based OPTICS withMedoids),該算法利用 JS(Jensen-Shannon)距離作為專利的相似度度量,通過(guò)選取專利集中最具代表性的n個(gè)主題,在這n個(gè)主題所在維度對(duì)專利集采用OPTICS算法結(jié)合k-medoids規(guī)則對(duì)專利進(jìn)行聚類。(3)構(gòu)建并實(shí)現(xiàn)了專利熱點(diǎn)挖掘的系統(tǒng)框架,實(shí)現(xiàn)了包含數(shù)據(jù)采集、數(shù)據(jù)提取、數(shù)據(jù)清洗、主題發(fā)現(xiàn)、熱點(diǎn)統(tǒng)計(jì)等步驟的完整分析流程。(4)采用來(lái)自美國(guó)專利與商標(biāo)局(United States Patent and Trademark Office)的實(shí)用新型專利進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的TW-LDA模型和PTVOM算法相比其它常見(jiàn)算法,效果有所提升。最后,我們對(duì)熱點(diǎn)挖掘結(jié)果進(jìn)行了可視化展示。
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.1;G255.53
【部分圖文】:

圖模型,步驟,多項(xiàng)式分布,超參數(shù)


?圖2-3?LDA的圖模型??上述步驟如圖2-3所示,圖中無(wú)填充的點(diǎn)代表隱含變被填充的點(diǎn)代表可觀察??值,矩形代表重復(fù)抽樣過(guò)程。主題分布&是多項(xiàng)式分布,由超參數(shù)為a的Dirichlet??分布產(chǎn)生,詞語(yǔ)分布<pZi,.也是多項(xiàng)式分布,由超參數(shù)為P的Dirichlet分布產(chǎn)生《??'■'J??從LDA的產(chǎn)生過(guò)程可以得出對(duì)應(yīng)的觀測(cè)變量與隱含變量的聯(lián)合概率分布如下:??P(w,z,e\a,^)?=?P{e\a)X[l=1P{zn\e)P(wn\zn>p)?(2-1)??LDA模型的適用范圍十分廣泛,可被應(yīng)用到各個(gè)領(lǐng)域,譬如相似文檔發(fā)現(xiàn)、謅??動(dòng)打標(biāo)簽、個(gè)性化推薦系統(tǒng)、師瓜111^/\¥(^(1扭111<:等等;5鄭世卓等人[313]提_出1*<?_1種根??據(jù)半監(jiān)督的LDA生題模型來(lái)進(jìn)行文本分類,找出一個(gè)主題集當(dāng)作隱性層的知識(shí)集??通過(guò)改進(jìn)Gibbs采樣[311對(duì)主題層進(jìn)行顯式監(jiān)督,獲得的分類效果更佳^祝婷等人??%則在本體引入LDA模型中來(lái)改進(jìn)資源推薦效果,根據(jù)語(yǔ)義相關(guān)度來(lái)度量關(guān)聯(lián)主??題

折線圖,困惑度,主題,后模


perplexity?(Dtest)?=?exp?j-匕這工?)}?(3-21)??我們依次選取了主題數(shù)為20、40、60、80、100,迭代次數(shù)設(shè)置為1000,采用式??(3-21)計(jì)算了對(duì)應(yīng)的困惑度,并畫(huà)出了?主題數(shù)-困惑度”折線圖,如圖3-1所示,可??知當(dāng)主題數(shù)為K?=?60時(shí)困惑度最低。??850??1?1?1?1?1?1?1?1??800?-j??f\?''''??1?\??600?-?-j??\??550??1?1?1?1?1?1?1?1??20?30?40?50?60?70?80?90?100??主題個(gè)數(shù)??圖3-1?TW-LDA模型在不同主題個(gè)數(shù)下'的困惑度結(jié)果??根據(jù)Asuncion的實(shí)驗(yàn)[43],懸Gibbs采樣迭代到一定次數(shù)后模型會(huì)收斂,從而??困惑度(perplexity)會(huì)趨于穩(wěn)定。我們以每100次迭代為保存間隔,依次保存了主題??數(shù)為20、40、60的1000次迭代的中間結(jié)果,弁計(jì)算其困惑度(perplexity),得到圖??3-2,可以看出,模型在前100次迭代中就會(huì)快速收斂,迭代次數(shù)超過(guò)500以后,困??惑度(perplexity)基本不再變化

分布情況,主題,關(guān)鍵詞,分布情況


式(3-22)中correKA)表示主題&和之間的余弦相似度生題間的平均??相似度越小,模型效果越好。我們采用3.4.1節(jié)中的專利集,設(shè)置cc?=?0.5,?p?=?0.1,??訓(xùn)練各迭代500次,實(shí)驗(yàn)結(jié)果如圖34所示。??0.045?I?1?1?1?1?1? ̄—???LDA????TW-LDA??_?A?_(信息熵加權(quán)LDA??〇.〇1霉、?高斯加權(quán)LDA???^0.035?-??¥?\\??革?\\??J?0?03?-??^?V??0.025?-?Y*.\??。
【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 祝婷;秦春秀;馬曉悅;李祖海;;基于本體與LDA主題模型的文本資源推薦方法研究[J];情報(bào)雜志;2015年11期

2 王文帥;杜然;程耀東;陳剛;;一種面向大規(guī)模微博數(shù)據(jù)的話題挖掘方法[J];計(jì)算機(jī)工程與應(yīng)用;2014年22期

3 唐曉波;向坤;;基于LDA模型和微博熱度的熱點(diǎn)挖掘[J];圖書(shū)情報(bào)工作;2014年05期

4 鄭世卓;崔曉燕;;基于半監(jiān)督LDA的文本分類應(yīng)用研究[J];軟件;2014年01期

5 胡阿沛;張靜;雷孝平;張曉宇;;基于文本挖掘的專利技術(shù)主題分析研究綜述[J];情報(bào)雜志;2013年12期

6 范宇;符紅光;文奕;;基于LDA模型的專利信息聚類技術(shù)[J];計(jì)算機(jī)應(yīng)用;2013年S1期

7 焦賽美;;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];瓊州學(xué)院學(xué)報(bào);2011年05期

8 徐戈;王厚峰;;自然語(yǔ)言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期

9 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期

10 張小平;周雪忠;黃厚寬;馮奇;陳世波;焦宏官;;一種改進(jìn)的LDA主題模型[J];北京交通大學(xué)學(xué)報(bào);2010年02期


相關(guān)博士學(xué)位論文 前1條

1 陳虹樞;基于主題模型的專利文本挖掘方法及應(yīng)用研究[D];北京理工大學(xué);2015年



本文編號(hào):2845914

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/tushudanganlunwen/2845914.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶96cf1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com