天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

主題分析方法及其在文獻(xiàn)管理系統(tǒng)上的應(yīng)用

發(fā)布時(shí)間:2022-01-17 21:12
  隨著科技不斷進(jìn)步,科研文獻(xiàn)迅猛增長(zhǎng),新的研究方向不斷涌現(xiàn),如何有效對(duì)科研文獻(xiàn)進(jìn)行分類、管理、分析對(duì)科研人員和科技的發(fā)展都具有重要意義。傳統(tǒng)的科研文獻(xiàn)研究主要集中于文獻(xiàn)主題分析、科研領(lǐng)域社交網(wǎng)絡(luò)分析等,而從科研人員自身需求出發(fā)的研究工作甚少。本文利用機(jī)器學(xué)習(xí)方法來(lái)研究和分析科研文獻(xiàn),從科研人員本身角度出發(fā),以主題模型、集成學(xué)習(xí)為基礎(chǔ),以科研文獻(xiàn)為研究對(duì)象進(jìn)行了研究和分析,設(shè)計(jì)實(shí)現(xiàn)了服務(wù)于科研人員的科研文獻(xiàn)管理系統(tǒng),主要工作如下:1.針對(duì)現(xiàn)有研究極少考慮科研文獻(xiàn)類別不平衡的問(wèn)題,提出了一種類別不平衡科研文獻(xiàn)集成分類方法,該方法將主題模型與集成學(xué)習(xí)方法相結(jié)合,通過(guò)有放回采樣的方式重構(gòu)數(shù)據(jù)集,以及對(duì)多個(gè)弱學(xué)習(xí)器集成的方式提升主題模型的分類性能,并在真實(shí)數(shù)據(jù)集上驗(yàn)證了方法有效性。2.針對(duì)科研人員需花費(fèi)大量時(shí)間和精力去發(fā)現(xiàn)學(xué)術(shù)會(huì)議的熱點(diǎn)或發(fā)展趨勢(shì),提出了一種會(huì)議熱點(diǎn)和發(fā)展趨勢(shì)分析的學(xué)習(xí)方法,該方法將會(huì)議熱點(diǎn)抽象為主題在關(guān)鍵詞上的分布,利用相對(duì)熵捕捉研究熱點(diǎn)隨時(shí)間的發(fā)展趨勢(shì)。通過(guò)對(duì)機(jī)器學(xué)習(xí)領(lǐng)域?qū)W術(shù)會(huì)議NIPS錄用的科研文獻(xiàn)進(jìn)行分析,驗(yàn)證了方法有效性。3.針對(duì)現(xiàn)有文獻(xiàn)管理系統(tǒng)中信息不準(zhǔn)確問(wèn)題,提出了一... 

【文章來(lái)源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:69 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

主題分析方法及其在文獻(xiàn)管理系統(tǒng)上的應(yīng)用


圖2.1?LDA模型??

模型圖,模型,文檔,單詞


?南京大學(xué)研究生畢業(yè)論文???最直觀的方法就是在LDA中加入監(jiān)督信息。??有監(jiān)督的隱狄利克雷模型(supervised?Latent?Dirichlet?Allocation,sLDA)是??在LDA基礎(chǔ)上加入監(jiān)督信息的主題模型。sLDA概率圖模型如圖2.2所示,??〇—--〇——〇??a?dd?Vd,n?Wd,n?pk??\??M?K???a??r],8??圖2.2?sLDA模型??其原理與假設(shè)與LDA模型基本相同,只不過(guò)在LDA模型中為每個(gè)文檔加入了??-個(gè)響應(yīng)變量(Response?Variable),在分類任務(wù)中,這個(gè)響應(yīng)變量即為文檔的標(biāo)簽。??該響應(yīng)變景與單詞Wdin并不直接相連,而是與該單詞的主題Zd_n相關(guān)聯(lián)。??sLDA認(rèn)為一個(gè)預(yù)料庫(kù)屮的每??篇文檔及其響應(yīng)變量的生成過(guò)程如下:??1)生成N,?N?Poisson?,?N為該文檔長(zhǎng)度。??2)生成%,?0d?Dir(:c〇,0d為該文檔在主題上多項(xiàng)式分布。??3)對(duì)于文檔屮的每一個(gè)單詞1^?:??a)生成Zd.n,Z^n-Mu/tinomiaK%),Zd,n為該詞所屬主題;??b)生成wd,n,?p(Wd,n|zd,n,(Pfc),w以為生成的單詞。??4)所有單詞生成結(jié)束后,生成y|z1:w,n,S?GLM(f,ri,6),?y為該文檔點(diǎn)響應(yīng)??變量,其中:??z:=?(1//V))?zn??而響應(yīng)變M?y的分布是一個(gè)廣義線性模型(Generalized?Linear?Model,?GLM):??(rirz)y?—?ACri1?z)??P(y\zi:N^,S)?=?h(y,S)exp{???}??li??

投票法,采樣過(guò)程,數(shù)據(jù)集,策略


?南京大學(xué)研究生畢業(yè)論文???CZZ^I有放回的采樣b_Sam個(gè)樣本^??類別?1?數(shù)????樣后的子數(shù)據(jù)集1??類另??{?采樣后的子數(shù)據(jù)集2??類別3數(shù)雛"…?????」??類別n數(shù)據(jù)集?采樣后的子數(shù)據(jù)集b_Nura??圖2.3均衡集成BEsLDA采樣過(guò)程??果進(jìn)行集成時(shí),采用的集成策略是最簡(jiǎn)中.的投票法,而最后的分類結(jié)果取投票數(shù)??前3名的三個(gè)主題,因此本文的方法最終的輸出結(jié)采是3個(gè)主題標(biāo)簽。??R?一^〇0<\0<?2?^分類結(jié)果1^1??U??〇^1〇????數(shù)據(jù)集1?sLDA_l??0_^?_?f分類結(jié)果2?rJsT^i^l??U?L__〇d°?^^?^最終結(jié)果??數(shù)據(jù)集?2?sLDA_2?^J??????t?籲???響?_秦參?■■??〇!?000-0-?0?f分類結(jié)果1??J?:? ̄4〇-〇?b_Num??數(shù)據(jù)集?b_Num?sLDA_b_Num??閹2.4均衡集成BEsLDA集成過(guò)程??13??

【參考文獻(xiàn)】:
期刊論文
[1]技術(shù)預(yù)見(jiàn)研究熱點(diǎn)的演進(jìn)分析:內(nèi)容挖掘視角[J]. 李牧南.  科研管理. 2018(03)
[2]國(guó)內(nèi)技術(shù)預(yù)見(jiàn)研究卓越機(jī)構(gòu)及研究熱點(diǎn)可視化描繪[J]. 張秀妮,張薇.  競(jìng)爭(zhēng)情報(bào). 2015(03)
[3]近十年(2004~2013)國(guó)際技術(shù)預(yù)見(jiàn)研究的熱點(diǎn)及動(dòng)向分析[J]. 李國(guó)秋,龍怡.  圖書情報(bào)知識(shí). 2014(03)
[4]現(xiàn)實(shí)世界中的主題突發(fā)與其間斷演化發(fā)現(xiàn)(英文)[J]. 湯斯亮,張寅,王翰琪,陳銘,吳飛,莊越挺.  中國(guó)通信. 2013(03)
[5]網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J]. 孫立偉,何國(guó)輝,吳禮發(fā).  電腦知識(shí)與技術(shù). 2010(15)



本文編號(hào):3595447

資料下載
論文發(fā)表

本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3595447.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ce057***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com