基于語義和引用加權(quán)的文獻(xiàn)主題提取研究
本文關(guān)鍵詞:基于語義和引用加權(quán)的文獻(xiàn)主題提取研究
更多相關(guān)文章: Labeled-LDA模型 引用內(nèi)容 主題提取
【摘要】:[目的 /意義]傳統(tǒng)的文獻(xiàn)主題提取方法主要是通過關(guān)鍵詞、摘要、全文等提取文獻(xiàn)的主題內(nèi)容,使得主題內(nèi)容不全面或存在"噪音",而從文獻(xiàn)內(nèi)容語義出發(fā),結(jié)合引用內(nèi)容提取文獻(xiàn)的主題,能夠更加準(zhǔn)確地提取出多文檔的主題內(nèi)容。[方法 /過程]提出一種面向多文檔的基于語義和引用加權(quán)的科技文獻(xiàn)主題提取算法,利用文獻(xiàn)的引用內(nèi)容和關(guān)鍵詞構(gòu)建Labeled-LDA主題模型,形成文檔-主題概率向量,再根據(jù)K-means聚類方法聚類文檔,提取每類文檔集的主題內(nèi)容。[結(jié)果 /結(jié)論]以Pub Med生物醫(yī)學(xué)數(shù)據(jù)庫中的數(shù)據(jù)作為實驗數(shù)據(jù),測試該方法的可靠性,結(jié)果證明該方法能夠準(zhǔn)確、全面地提取出多文檔的主題內(nèi)容。
【作者單位】: 寧波大學(xué)圖書館與信息中心;浙江大學(xué)公共管理學(xué)院;
【關(guān)鍵詞】: Labeled-LDA模型 引用內(nèi)容 主題提取
【基金】:國家社會科學(xué)基金項目“學(xué)術(shù)型大數(shù)據(jù)知識組織與服務(wù)標(biāo)準(zhǔn)研究”(項目編號:15FTQ002)研究成果之一
【分類號】:G353.1
【正文快照】: 1引言學(xué)術(shù)文獻(xiàn)是知識發(fā)現(xiàn)過程的積累形態(tài),是學(xué)者們獲取知識的主要媒介。信息化時代,電子學(xué)術(shù)文獻(xiàn)的大量增長,促使學(xué)者們提出應(yīng)用主題提取技術(shù)來應(yīng)對信息超載。主題提取技術(shù)是指利用各種算法、技術(shù)提取出反映一篇或一類文獻(xiàn)中心思想的主題詞或主題句。該技術(shù)目前已經(jīng)成為自然語
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 張琪玉;文獻(xiàn)主題的構(gòu)成因素及層次[J];圖書情報知識;1985年01期
2 葉千軍;;文獻(xiàn)主題因素之間關(guān)系與分面分析研究[J];圖書館學(xué)研究;1987年03期
3 尹春生;;圖書文獻(xiàn)主題組配一般規(guī)律[J];圖書館學(xué)通訊;1988年02期
4 曹樹金;文獻(xiàn)主題分析與標(biāo)引的核心技巧和規(guī)則研究[J];圖書情報知識;1989年01期
5 劉延章;關(guān)于文獻(xiàn)主題分析的幾種方法——文獻(xiàn)分類基本方法探討之二[J];河南圖書館學(xué)刊;1989年02期
6 張欣毅;;關(guān)于文獻(xiàn)主題之研究[J];圖書館理論與實踐;1993年01期
7 張欣毅;;關(guān)于文獻(xiàn)主題之研究(續(xù)完)[J];圖書館理論與實踐;1993年02期
8 王常山;;文獻(xiàn)主題的辨識[J];圖書情報知識;1987年03期
9 趙洗塵;漢語文獻(xiàn)主題描述語句的結(jié)構(gòu)[J];情報理論與實踐;1989年04期
10 李鳳滿;高淑玲;;文獻(xiàn)主題提煉芻議[J];圖書館學(xué)研究;1991年05期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 馬秀敏;中國典型管理期刊文獻(xiàn)主題發(fā)現(xiàn)與演化分析[D];大連理工大學(xué);2011年
,本文編號:571996
本文鏈接:http://sikaile.net/tushudanganlunwen/571996.html