基于科研文檔的主題分析與推薦系統(tǒng)
發(fā)布時(shí)間:2021-03-29 08:18
科研文檔數(shù)據(jù)包含著豐富的科研信息,例如研究?jī)?nèi)容、研究方法等。隨著科研文檔集規(guī)模的日益增大,科研人員從海量的科研文檔中獲取有價(jià)值的信息越來(lái)越困難,急需對(duì)科研文檔中有用的信息進(jìn)行準(zhǔn)確地抽取和有效地組織。經(jīng)過調(diào)研,從主題這一維度對(duì)科研文檔進(jìn)行分析并挖掘主題變化趨勢(shì),有助于科研人員及時(shí)獲取相關(guān)領(lǐng)域的研究動(dòng)態(tài),更方便高效地利用科研資源。本文選擇了經(jīng)典的潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型進(jìn)行主題挖掘,然而LDA模型挖掘出的主題是以詞概率分布的形式展現(xiàn)的,相對(duì)抽象。為了使挖掘到的主題更容易理解,本文調(diào)研并優(yōu)化了主題標(biāo)簽提取技術(shù)。具體實(shí)現(xiàn)為從文檔集中抽取與主題含義最相似的若干句子作為主題標(biāo)簽進(jìn)行展示,并降低句子之間的重復(fù)度使得主題標(biāo)簽的內(nèi)容更加精煉。此外,本文設(shè)計(jì)了相似主題的推薦功能,通過計(jì)算主題詞分布之間的余弦相似度來(lái)衡量主題的相似程度。最后,本文還設(shè)計(jì)了主題熱度的趨勢(shì)分析功能,通過計(jì)算每一年與主題相關(guān)的文檔數(shù)量來(lái)衡量主題的熱度,并通過趨勢(shì)曲線來(lái)表示主題熱度隨年份的變化趨勢(shì)。本文針對(duì)上述需求,進(jìn)行了合理的架構(gòu)設(shè)計(jì)和模塊設(shè)計(jì),設(shè)計(jì)與實(shí)現(xiàn)了一個(gè)基于科研...
【文章來(lái)源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Termite可視化模型
圖 2.4 LDAvis 可視化模型2.5.2 融合外部特征的可視化融合外部特征的主題模型可視化融合了時(shí)間和作者這兩個(gè)屬性。融入時(shí)間屬性的可視化可展示主題隨時(shí)間的演變趨勢(shì),融入作者屬性的可視化可展示文檔作者的興趣分布以及作者之間的興趣關(guān)聯(lián)。
圖 2.5 TIARA 可視化模型此外,Susan 等人提出 Themeriver[53]模型來(lái)展示主題隨時(shí)間的演變趨勢(shì),該模型很好地展示了文檔集的主題隨時(shí)間的變化過程,但沒有具體展示主題的詞項(xiàng)分布。基于以上研究,基于 LDA 主題模型的可視化技術(shù)能從全局上展示文檔、主題、詞項(xiàng)之間的關(guān)系,加上作者和時(shí)間兩種外部特征,主題的可視化變得更加豐富。
【參考文獻(xiàn)】:
期刊論文
[1]基于Web的科研項(xiàng)目管理信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張冉. 電子技術(shù)與軟件工程. 2018(15)
[2]基于LDA主題模型的文獻(xiàn)關(guān)聯(lián)分析及可視化研究[J]. 王麗,鄒麗雪,劉細(xì)文. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(03)
[3]主題領(lǐng)域研究熱點(diǎn)跟蹤及趨勢(shì)預(yù)測(cè)的可視化分析方法研究[J]. 陳勇躍,田文芳,吳金紅. 情報(bào)理論與實(shí)踐. 2017(06)
[4]基于主題模型的檢索結(jié)果聚類應(yīng)用研究[J]. 阮光冊(cè),夏磊. 情報(bào)雜志. 2017(03)
[5]LDA模型在專利文本分類中的應(yīng)用[J]. 廖列法,勒孚剛,朱亞蘭. 現(xiàn)代情報(bào). 2017(03)
[6]基于LDA的主題發(fā)現(xiàn)及演化規(guī)律的可視化研究[J]. 龔磊. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2017(07)
[7]學(xué)科結(jié)構(gòu)與演化可視化分析的內(nèi)容研究[J]. 陳必坤,王曰芬. 圖書情報(bào)工作. 2016(21)
[8]科技情報(bào)分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J]. 關(guān)鵬,王曰芬. 現(xiàn)代圖書情報(bào)技術(shù). 2016(09)
[9]基于文本挖掘的科研項(xiàng)目管理輔助決策系統(tǒng)研究與實(shí)現(xiàn)[J]. 蒙杰,楊生舉,施韶亭. 計(jì)算機(jī)應(yīng)用與軟件. 2016(09)
[10]基于LDA模型的文本相似度研究[J]. 陳攀,楊浩,呂品,王海暉. 計(jì)算機(jī)技術(shù)與發(fā)展. 2016(04)
碩士論文
[1]分布式科研文檔管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 金天凡.華中科技大學(xué) 2014
本文編號(hào):3107245
【文章來(lái)源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Termite可視化模型
圖 2.4 LDAvis 可視化模型2.5.2 融合外部特征的可視化融合外部特征的主題模型可視化融合了時(shí)間和作者這兩個(gè)屬性。融入時(shí)間屬性的可視化可展示主題隨時(shí)間的演變趨勢(shì),融入作者屬性的可視化可展示文檔作者的興趣分布以及作者之間的興趣關(guān)聯(lián)。
圖 2.5 TIARA 可視化模型此外,Susan 等人提出 Themeriver[53]模型來(lái)展示主題隨時(shí)間的演變趨勢(shì),該模型很好地展示了文檔集的主題隨時(shí)間的變化過程,但沒有具體展示主題的詞項(xiàng)分布。基于以上研究,基于 LDA 主題模型的可視化技術(shù)能從全局上展示文檔、主題、詞項(xiàng)之間的關(guān)系,加上作者和時(shí)間兩種外部特征,主題的可視化變得更加豐富。
【參考文獻(xiàn)】:
期刊論文
[1]基于Web的科研項(xiàng)目管理信息系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 張冉. 電子技術(shù)與軟件工程. 2018(15)
[2]基于LDA主題模型的文獻(xiàn)關(guān)聯(lián)分析及可視化研究[J]. 王麗,鄒麗雪,劉細(xì)文. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2018(03)
[3]主題領(lǐng)域研究熱點(diǎn)跟蹤及趨勢(shì)預(yù)測(cè)的可視化分析方法研究[J]. 陳勇躍,田文芳,吳金紅. 情報(bào)理論與實(shí)踐. 2017(06)
[4]基于主題模型的檢索結(jié)果聚類應(yīng)用研究[J]. 阮光冊(cè),夏磊. 情報(bào)雜志. 2017(03)
[5]LDA模型在專利文本分類中的應(yīng)用[J]. 廖列法,勒孚剛,朱亞蘭. 現(xiàn)代情報(bào). 2017(03)
[6]基于LDA的主題發(fā)現(xiàn)及演化規(guī)律的可視化研究[J]. 龔磊. 現(xiàn)代計(jì)算機(jī)(專業(yè)版). 2017(07)
[7]學(xué)科結(jié)構(gòu)與演化可視化分析的內(nèi)容研究[J]. 陳必坤,王曰芬. 圖書情報(bào)工作. 2016(21)
[8]科技情報(bào)分析中LDA主題模型最優(yōu)主題數(shù)確定方法研究[J]. 關(guān)鵬,王曰芬. 現(xiàn)代圖書情報(bào)技術(shù). 2016(09)
[9]基于文本挖掘的科研項(xiàng)目管理輔助決策系統(tǒng)研究與實(shí)現(xiàn)[J]. 蒙杰,楊生舉,施韶亭. 計(jì)算機(jī)應(yīng)用與軟件. 2016(09)
[10]基于LDA模型的文本相似度研究[J]. 陳攀,楊浩,呂品,王海暉. 計(jì)算機(jī)技術(shù)與發(fā)展. 2016(04)
碩士論文
[1]分布式科研文檔管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 金天凡.華中科技大學(xué) 2014
本文編號(hào):3107245
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/3107245.html
最近更新
教材專著