專利熱點(diǎn)挖掘方法研究
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.1;G255.53
【部分圖文】:
?圖2-3?LDA的圖模型??上述步驟如圖2-3所示,圖中無填充的點(diǎn)代表隱含變被填充的點(diǎn)代表可觀察??值,矩形代表重復(fù)抽樣過程。主題分布&是多項(xiàng)式分布,由超參數(shù)為a的Dirichlet??分布產(chǎn)生,詞語分布<pZi,.也是多項(xiàng)式分布,由超參數(shù)為P的Dirichlet分布產(chǎn)生《??'■'J??從LDA的產(chǎn)生過程可以得出對應(yīng)的觀測變量與隱含變量的聯(lián)合概率分布如下:??P(w,z,e\a,^)?=?P{e\a)X[l=1P{zn\e)P(wn\zn>p)?(2-1)??LDA模型的適用范圍十分廣泛,可被應(yīng)用到各個領(lǐng)域,譬如相似文檔發(fā)現(xiàn)、謅??動打標(biāo)簽、個性化推薦系統(tǒng)、師瓜111^/\¥(^(1扭111<:等等;5鄭世卓等人[313]提_出1*<?_1種根??據(jù)半監(jiān)督的LDA生題模型來進(jìn)行文本分類,找出一個主題集當(dāng)作隱性層的知識集??通過改進(jìn)Gibbs采樣[311對主題層進(jìn)行顯式監(jiān)督,獲得的分類效果更佳^祝婷等人??%則在本體引入LDA模型中來改進(jìn)資源推薦效果,根據(jù)語義相關(guān)度來度量關(guān)聯(lián)主??題
perplexity?(Dtest)?=?exp?j-匕這工?)}?(3-21)??我們依次選取了主題數(shù)為20、40、60、80、100,迭代次數(shù)設(shè)置為1000,采用式??(3-21)計算了對應(yīng)的困惑度,并畫出了?主題數(shù)-困惑度”折線圖,如圖3-1所示,可??知當(dāng)主題數(shù)為K?=?60時困惑度最低。??850??1?1?1?1?1?1?1?1??800?-j??f\?''''??1?\??600?-?-j??\??550??1?1?1?1?1?1?1?1??20?30?40?50?60?70?80?90?100??主題個數(shù)??圖3-1?TW-LDA模型在不同主題個數(shù)下'的困惑度結(jié)果??根據(jù)Asuncion的實(shí)驗(yàn)[43],懸Gibbs采樣迭代到一定次數(shù)后模型會收斂,從而??困惑度(perplexity)會趨于穩(wěn)定。我們以每100次迭代為保存間隔,依次保存了主題??數(shù)為20、40、60的1000次迭代的中間結(jié)果,弁計算其困惑度(perplexity),得到圖??3-2,可以看出,模型在前100次迭代中就會快速收斂,迭代次數(shù)超過500以后,困??惑度(perplexity)基本不再變化
式(3-22)中correKA)表示主題&和之間的余弦相似度生題間的平均??相似度越小,模型效果越好。我們采用3.4.1節(jié)中的專利集,設(shè)置cc?=?0.5,?p?=?0.1,??訓(xùn)練各迭代500次,實(shí)驗(yàn)結(jié)果如圖34所示。??0.045?I?1?1?1?1?1? ̄—???LDA????TW-LDA??_?A?_(信息熵加權(quán)LDA??〇.〇1霉、?高斯加權(quán)LDA???^0.035?-??¥?\\??革?\\??J?0?03?-??^?V??0.025?-?Y*.\??。
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 祝婷;秦春秀;馬曉悅;李祖海;;基于本體與LDA主題模型的文本資源推薦方法研究[J];情報雜志;2015年11期
2 王文帥;杜然;程耀東;陳剛;;一種面向大規(guī)模微博數(shù)據(jù)的話題挖掘方法[J];計算機(jī)工程與應(yīng)用;2014年22期
3 唐曉波;向坤;;基于LDA模型和微博熱度的熱點(diǎn)挖掘[J];圖書情報工作;2014年05期
4 鄭世卓;崔曉燕;;基于半監(jiān)督LDA的文本分類應(yīng)用研究[J];軟件;2014年01期
5 胡阿沛;張靜;雷孝平;張曉宇;;基于文本挖掘的專利技術(shù)主題分析研究綜述[J];情報雜志;2013年12期
6 范宇;符紅光;文奕;;基于LDA模型的專利信息聚類技術(shù)[J];計算機(jī)應(yīng)用;2013年S1期
7 焦賽美;;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];瓊州學(xué)院學(xué)報;2011年05期
8 徐戈;王厚峰;;自然語言處理中主題模型的發(fā)展[J];計算機(jī)學(xué)報;2011年08期
9 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識與技術(shù);2010年15期
10 張小平;周雪忠;黃厚寬;馮奇;陳世波;焦宏官;;一種改進(jìn)的LDA主題模型[J];北京交通大學(xué)學(xué)報;2010年02期
相關(guān)博士學(xué)位論文 前1條
1 陳虹樞;基于主題模型的專利文本挖掘方法及應(yīng)用研究[D];北京理工大學(xué);2015年
本文編號:2845914
本文鏈接:http://sikaile.net/tushudanganlunwen/2845914.html