主題分析方法及其在文獻管理系統(tǒng)上的應用
發(fā)布時間:2022-01-17 21:12
隨著科技不斷進步,科研文獻迅猛增長,新的研究方向不斷涌現(xiàn),如何有效對科研文獻進行分類、管理、分析對科研人員和科技的發(fā)展都具有重要意義。傳統(tǒng)的科研文獻研究主要集中于文獻主題分析、科研領域社交網絡分析等,而從科研人員自身需求出發(fā)的研究工作甚少。本文利用機器學習方法來研究和分析科研文獻,從科研人員本身角度出發(fā),以主題模型、集成學習為基礎,以科研文獻為研究對象進行了研究和分析,設計實現(xiàn)了服務于科研人員的科研文獻管理系統(tǒng),主要工作如下:1.針對現(xiàn)有研究極少考慮科研文獻類別不平衡的問題,提出了一種類別不平衡科研文獻集成分類方法,該方法將主題模型與集成學習方法相結合,通過有放回采樣的方式重構數據集,以及對多個弱學習器集成的方式提升主題模型的分類性能,并在真實數據集上驗證了方法有效性。2.針對科研人員需花費大量時間和精力去發(fā)現(xiàn)學術會議的熱點或發(fā)展趨勢,提出了一種會議熱點和發(fā)展趨勢分析的學習方法,該方法將會議熱點抽象為主題在關鍵詞上的分布,利用相對熵捕捉研究熱點隨時間的發(fā)展趨勢。通過對機器學習領域學術會議NIPS錄用的科研文獻進行分析,驗證了方法有效性。3.針對現(xiàn)有文獻管理系統(tǒng)中信息不準確問題,提出了一...
【文章來源】:南京大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:69 頁
【學位級別】:碩士
【部分圖文】:
圖2.1?LDA模型??
?南京大學研究生畢業(yè)論文???最直觀的方法就是在LDA中加入監(jiān)督信息。??有監(jiān)督的隱狄利克雷模型(supervised?Latent?Dirichlet?Allocation,sLDA)是??在LDA基礎上加入監(jiān)督信息的主題模型。sLDA概率圖模型如圖2.2所示,??〇—--〇——〇??a?dd?Vd,n?Wd,n?pk??\??M?K???a??r],8??圖2.2?sLDA模型??其原理與假設與LDA模型基本相同,只不過在LDA模型中為每個文檔加入了??-個響應變量(Response?Variable),在分類任務中,這個響應變量即為文檔的標簽。??該響應變景與單詞Wdin并不直接相連,而是與該單詞的主題Zd_n相關聯(lián)。??sLDA認為一個預料庫屮的每??篇文檔及其響應變量的生成過程如下:??1)生成N,?N?Poisson?,?N為該文檔長度。??2)生成%,?0d?Dir(:c〇,0d為該文檔在主題上多項式分布。??3)對于文檔屮的每一個單詞1^?:??a)生成Zd.n,Z^n-Mu/tinomiaK%),Zd,n為該詞所屬主題;??b)生成wd,n,?p(Wd,n|zd,n,(Pfc),w以為生成的單詞。??4)所有單詞生成結束后,生成y|z1:w,n,S?GLM(f,ri,6),?y為該文檔點響應??變量,其中:??z:=?(1//V))?zn??而響應變M?y的分布是一個廣義線性模型(Generalized?Linear?Model,?GLM):??(rirz)y?—?ACri1?z)??P(y\zi:N^,S)?=?h(y,S)exp{???}??li??
?南京大學研究生畢業(yè)論文???CZZ^I有放回的采樣b_Sam個樣本^??類別?1?數????樣后的子數據集1??類另??{?采樣后的子數據集2??類別3數雛"…?????」??類別n數據集?采樣后的子數據集b_Nura??圖2.3均衡集成BEsLDA采樣過程??果進行集成時,采用的集成策略是最簡中.的投票法,而最后的分類結果取投票數??前3名的三個主題,因此本文的方法最終的輸出結采是3個主題標簽。??R?一^〇0<\0<?2?^分類結果1^1??U??〇^1〇????數據集1?sLDA_l??0_^?_?f分類結果2?rJsT^i^l??U?L__〇d°?^^?^最終結果??數據集?2?sLDA_2?^J??????t?籲???響?_秦參?■■??〇!?000-0-?0?f分類結果1??J?:? ̄4〇-〇?b_Num??數據集?b_Num?sLDA_b_Num??閹2.4均衡集成BEsLDA集成過程??13??
【參考文獻】:
期刊論文
[1]技術預見研究熱點的演進分析:內容挖掘視角[J]. 李牧南. 科研管理. 2018(03)
[2]國內技術預見研究卓越機構及研究熱點可視化描繪[J]. 張秀妮,張薇. 競爭情報. 2015(03)
[3]近十年(2004~2013)國際技術預見研究的熱點及動向分析[J]. 李國秋,龍怡. 圖書情報知識. 2014(03)
[4]現(xiàn)實世界中的主題突發(fā)與其間斷演化發(fā)現(xiàn)(英文)[J]. 湯斯亮,張寅,王翰琪,陳銘,吳飛,莊越挺. 中國通信. 2013(03)
[5]網絡爬蟲技術的研究[J]. 孫立偉,何國輝,吳禮發(fā). 電腦知識與技術. 2010(15)
本文編號:3595447
【文章來源】:南京大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:69 頁
【學位級別】:碩士
【部分圖文】:
圖2.1?LDA模型??
?南京大學研究生畢業(yè)論文???最直觀的方法就是在LDA中加入監(jiān)督信息。??有監(jiān)督的隱狄利克雷模型(supervised?Latent?Dirichlet?Allocation,sLDA)是??在LDA基礎上加入監(jiān)督信息的主題模型。sLDA概率圖模型如圖2.2所示,??〇—--〇——〇??a?dd?Vd,n?Wd,n?pk??\??M?K???a??r],8??圖2.2?sLDA模型??其原理與假設與LDA模型基本相同,只不過在LDA模型中為每個文檔加入了??-個響應變量(Response?Variable),在分類任務中,這個響應變量即為文檔的標簽。??該響應變景與單詞Wdin并不直接相連,而是與該單詞的主題Zd_n相關聯(lián)。??sLDA認為一個預料庫屮的每??篇文檔及其響應變量的生成過程如下:??1)生成N,?N?Poisson?,?N為該文檔長度。??2)生成%,?0d?Dir(:c〇,0d為該文檔在主題上多項式分布。??3)對于文檔屮的每一個單詞1^?:??a)生成Zd.n,Z^n-Mu/tinomiaK%),Zd,n為該詞所屬主題;??b)生成wd,n,?p(Wd,n|zd,n,(Pfc),w以為生成的單詞。??4)所有單詞生成結束后,生成y|z1:w,n,S?GLM(f,ri,6),?y為該文檔點響應??變量,其中:??z:=?(1//V))?zn??而響應變M?y的分布是一個廣義線性模型(Generalized?Linear?Model,?GLM):??(rirz)y?—?ACri1?z)??P(y\zi:N^,S)?=?h(y,S)exp{???}??li??
?南京大學研究生畢業(yè)論文???CZZ^I有放回的采樣b_Sam個樣本^??類別?1?數????樣后的子數據集1??類另??{?采樣后的子數據集2??類別3數雛"…?????」??類別n數據集?采樣后的子數據集b_Nura??圖2.3均衡集成BEsLDA采樣過程??果進行集成時,采用的集成策略是最簡中.的投票法,而最后的分類結果取投票數??前3名的三個主題,因此本文的方法最終的輸出結采是3個主題標簽。??R?一^〇0<\0<?2?^分類結果1^1??U??〇^1〇????數據集1?sLDA_l??0_^?_?f分類結果2?rJsT^i^l??U?L__〇d°?^^?^最終結果??數據集?2?sLDA_2?^J??????t?籲???響?_秦參?■■??〇!?000-0-?0?f分類結果1??J?:? ̄4〇-〇?b_Num??數據集?b_Num?sLDA_b_Num??閹2.4均衡集成BEsLDA集成過程??13??
【參考文獻】:
期刊論文
[1]技術預見研究熱點的演進分析:內容挖掘視角[J]. 李牧南. 科研管理. 2018(03)
[2]國內技術預見研究卓越機構及研究熱點可視化描繪[J]. 張秀妮,張薇. 競爭情報. 2015(03)
[3]近十年(2004~2013)國際技術預見研究的熱點及動向分析[J]. 李國秋,龍怡. 圖書情報知識. 2014(03)
[4]現(xiàn)實世界中的主題突發(fā)與其間斷演化發(fā)現(xiàn)(英文)[J]. 湯斯亮,張寅,王翰琪,陳銘,吳飛,莊越挺. 中國通信. 2013(03)
[5]網絡爬蟲技術的研究[J]. 孫立偉,何國輝,吳禮發(fā). 電腦知識與技術. 2010(15)
本文編號:3595447
本文鏈接:http://sikaile.net/kejilunwen/zidonghuakongzhilunwen/3595447.html
最近更新
教材專著