專利熱點(diǎn)挖掘方法研究
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:TP391.1;G255.53
【部分圖文】:
?圖2-3?LDA的圖模型??上述步驟如圖2-3所示,圖中無(wú)填充的點(diǎn)代表隱含變被填充的點(diǎn)代表可觀察??值,矩形代表重復(fù)抽樣過(guò)程。主題分布&是多項(xiàng)式分布,由超參數(shù)為a的Dirichlet??分布產(chǎn)生,詞語(yǔ)分布<pZi,.也是多項(xiàng)式分布,由超參數(shù)為P的Dirichlet分布產(chǎn)生《??'■'J??從LDA的產(chǎn)生過(guò)程可以得出對(duì)應(yīng)的觀測(cè)變量與隱含變量的聯(lián)合概率分布如下:??P(w,z,e\a,^)?=?P{e\a)X[l=1P{zn\e)P(wn\zn>p)?(2-1)??LDA模型的適用范圍十分廣泛,可被應(yīng)用到各個(gè)領(lǐng)域,譬如相似文檔發(fā)現(xiàn)、謅??動(dòng)打標(biāo)簽、個(gè)性化推薦系統(tǒng)、師瓜111^/\¥(^(1扭111<:等等;5鄭世卓等人[313]提_出1*<?_1種根??據(jù)半監(jiān)督的LDA生題模型來(lái)進(jìn)行文本分類,找出一個(gè)主題集當(dāng)作隱性層的知識(shí)集??通過(guò)改進(jìn)Gibbs采樣[311對(duì)主題層進(jìn)行顯式監(jiān)督,獲得的分類效果更佳^祝婷等人??%則在本體引入LDA模型中來(lái)改進(jìn)資源推薦效果,根據(jù)語(yǔ)義相關(guān)度來(lái)度量關(guān)聯(lián)主??題
perplexity?(Dtest)?=?exp?j-匕這工?)}?(3-21)??我們依次選取了主題數(shù)為20、40、60、80、100,迭代次數(shù)設(shè)置為1000,采用式??(3-21)計(jì)算了對(duì)應(yīng)的困惑度,并畫(huà)出了?主題數(shù)-困惑度”折線圖,如圖3-1所示,可??知當(dāng)主題數(shù)為K?=?60時(shí)困惑度最低。??850??1?1?1?1?1?1?1?1??800?-j??f\?''''??1?\??600?-?-j??\??550??1?1?1?1?1?1?1?1??20?30?40?50?60?70?80?90?100??主題個(gè)數(shù)??圖3-1?TW-LDA模型在不同主題個(gè)數(shù)下'的困惑度結(jié)果??根據(jù)Asuncion的實(shí)驗(yàn)[43],懸Gibbs采樣迭代到一定次數(shù)后模型會(huì)收斂,從而??困惑度(perplexity)會(huì)趨于穩(wěn)定。我們以每100次迭代為保存間隔,依次保存了主題??數(shù)為20、40、60的1000次迭代的中間結(jié)果,弁計(jì)算其困惑度(perplexity),得到圖??3-2,可以看出,模型在前100次迭代中就會(huì)快速收斂,迭代次數(shù)超過(guò)500以后,困??惑度(perplexity)基本不再變化
式(3-22)中correKA)表示主題&和之間的余弦相似度生題間的平均??相似度越小,模型效果越好。我們采用3.4.1節(jié)中的專利集,設(shè)置cc?=?0.5,?p?=?0.1,??訓(xùn)練各迭代500次,實(shí)驗(yàn)結(jié)果如圖34所示。??0.045?I?1?1?1?1?1? ̄—???LDA????TW-LDA??_?A?_(信息熵加權(quán)LDA??〇.〇1霉、?高斯加權(quán)LDA???^0.035?-??¥?\\??革?\\??J?0?03?-??^?V??0.025?-?Y*.\??。
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 祝婷;秦春秀;馬曉悅;李祖海;;基于本體與LDA主題模型的文本資源推薦方法研究[J];情報(bào)雜志;2015年11期
2 王文帥;杜然;程耀東;陳剛;;一種面向大規(guī)模微博數(shù)據(jù)的話題挖掘方法[J];計(jì)算機(jī)工程與應(yīng)用;2014年22期
3 唐曉波;向坤;;基于LDA模型和微博熱度的熱點(diǎn)挖掘[J];圖書(shū)情報(bào)工作;2014年05期
4 鄭世卓;崔曉燕;;基于半監(jiān)督LDA的文本分類應(yīng)用研究[J];軟件;2014年01期
5 胡阿沛;張靜;雷孝平;張曉宇;;基于文本挖掘的專利技術(shù)主題分析研究綜述[J];情報(bào)雜志;2013年12期
6 范宇;符紅光;文奕;;基于LDA模型的專利信息聚類技術(shù)[J];計(jì)算機(jī)應(yīng)用;2013年S1期
7 焦賽美;;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];瓊州學(xué)院學(xué)報(bào);2011年05期
8 徐戈;王厚峰;;自然語(yǔ)言處理中主題模型的發(fā)展[J];計(jì)算機(jī)學(xué)報(bào);2011年08期
9 孫立偉;何國(guó)輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期
10 張小平;周雪忠;黃厚寬;馮奇;陳世波;焦宏官;;一種改進(jìn)的LDA主題模型[J];北京交通大學(xué)學(xué)報(bào);2010年02期
相關(guān)博士學(xué)位論文 前1條
1 陳虹樞;基于主題模型的專利文本挖掘方法及應(yīng)用研究[D];北京理工大學(xué);2015年
本文編號(hào):2845914
本文鏈接:http://sikaile.net/tushudanganlunwen/2845914.html