基于文獻(xiàn)相似度的系統(tǒng)評價(jià)引文篩選系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-04-03 23:37
系統(tǒng)評價(jià)是循證醫(yī)學(xué)非常重要的證據(jù)基礎(chǔ),它對于臨床治療、診斷測試和風(fēng)險(xiǎn)分析等都具有重要的參考價(jià)值。篩選參考文獻(xiàn)是系統(tǒng)評價(jià)一個(gè)的步驟,通常需要至少兩名專家進(jìn)行人工審閱。由于醫(yī)學(xué)文獻(xiàn)數(shù)量的快速增長和醫(yī)學(xué)數(shù)據(jù)庫搜索引擎的特異度較差等問題,使得篩選參考文獻(xiàn)成為了一個(gè)耗時(shí)耗力的過程。許多研究表明使用自動(dòng)文本分類技術(shù)可以極大減少專家人工審閱文獻(xiàn)的工作量。本文提出了一種基于文獻(xiàn)相似度的系統(tǒng)評價(jià)引文篩選算法。該算法針對現(xiàn)階段基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類算法存在的數(shù)據(jù)集不均衡和結(jié)合主動(dòng)學(xué)習(xí)的機(jī)器學(xué)習(xí)分類算法訓(xùn)練初期數(shù)據(jù)不足等問題,通過使用文獻(xiàn)的標(biāo)題、摘要和出版類型等信息來計(jì)算文獻(xiàn)之間的相似度,根據(jù)專家的文獻(xiàn)篩選情況和文獻(xiàn)之間相似度對文獻(xiàn)進(jìn)行優(yōu)先級的排序以達(dá)到加速引文篩選過程的目的。本文使用LDA(Latent Dirichlet allocation)主題模型分別構(gòu)建了標(biāo)題和摘要的特征向量,使用詞袋模型構(gòu)建出版類型的特征向量,通過計(jì)算特征向量之間的余弦值來衡量文獻(xiàn)之間的相似度。為了驗(yàn)證本文算法的有效性,本文基于Cochrane圖書館(Cochrane Library)提供的數(shù)據(jù)構(gòu)建了十個(gè)主題的系統(tǒng)評價(jià)引文集...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
方案一示意圖
電子科技大學(xué)碩士學(xué)位論文12供訓(xùn)練的難度。方案二的設(shè)計(jì)方式如圖2-2所示。圖2-2方案二示意圖方案三是使用二叉樹的結(jié)構(gòu),每一個(gè)節(jié)點(diǎn)都是一個(gè)分類器,每一層的分類器完成一個(gè)類比的數(shù)據(jù)與其他類別數(shù)據(jù)的分類問題[53]。如果有N種類別的數(shù)據(jù),則需要構(gòu)建N-1個(gè)分類器。這個(gè)方案的優(yōu)點(diǎn)是分類器的數(shù)目較少且訓(xùn)練的數(shù)據(jù)量也比較少。缺點(diǎn)是如果某一個(gè)節(jié)點(diǎn)的分類器訓(xùn)練出錯(cuò),那么之后的其他的節(jié)點(diǎn)的分類器也會(huì)收到影響導(dǎo)致一系列的連鎖反應(yīng)。并且使用這種結(jié)構(gòu)會(huì)極大的增加訓(xùn)練時(shí)間,因?yàn)橄乱粋(gè)分類的訓(xùn)練需要等待上一個(gè)分類器訓(xùn)練完成才能進(jìn)行。這幾種方案都是將一個(gè)多分類問題拆分成多個(gè)二分類問題以實(shí)現(xiàn)多分類任務(wù)。但是在實(shí)際應(yīng)用中,如果樣本分類數(shù)量的不斷增加,分類器的訓(xùn)練復(fù)雜度和計(jì)算量也會(huì)不斷增加。因此怎樣減少訓(xùn)練的復(fù)雜度和計(jì)算量是在實(shí)際應(yīng)用中需要著重考慮的問題。方案三的設(shè)計(jì)方式如圖2-3所示。圖2-3方案三示意圖支持向量機(jī)模型的優(yōu)點(diǎn)是它避免了當(dāng)前的統(tǒng)計(jì)方法的從歸納到演繹的過程。
電子科技大學(xué)碩士學(xué)位論文12供訓(xùn)練的難度。方案二的設(shè)計(jì)方式如圖2-2所示。圖2-2方案二示意圖方案三是使用二叉樹的結(jié)構(gòu),每一個(gè)節(jié)點(diǎn)都是一個(gè)分類器,每一層的分類器完成一個(gè)類比的數(shù)據(jù)與其他類別數(shù)據(jù)的分類問題[53]。如果有N種類別的數(shù)據(jù),則需要構(gòu)建N-1個(gè)分類器。這個(gè)方案的優(yōu)點(diǎn)是分類器的數(shù)目較少且訓(xùn)練的數(shù)據(jù)量也比較少。缺點(diǎn)是如果某一個(gè)節(jié)點(diǎn)的分類器訓(xùn)練出錯(cuò),那么之后的其他的節(jié)點(diǎn)的分類器也會(huì)收到影響導(dǎo)致一系列的連鎖反應(yīng)。并且使用這種結(jié)構(gòu)會(huì)極大的增加訓(xùn)練時(shí)間,因?yàn)橄乱粋(gè)分類的訓(xùn)練需要等待上一個(gè)分類器訓(xùn)練完成才能進(jìn)行。這幾種方案都是將一個(gè)多分類問題拆分成多個(gè)二分類問題以實(shí)現(xiàn)多分類任務(wù)。但是在實(shí)際應(yīng)用中,如果樣本分類數(shù)量的不斷增加,分類器的訓(xùn)練復(fù)雜度和計(jì)算量也會(huì)不斷增加。因此怎樣減少訓(xùn)練的復(fù)雜度和計(jì)算量是在實(shí)際應(yīng)用中需要著重考慮的問題。方案三的設(shè)計(jì)方式如圖2-3所示。圖2-3方案三示意圖支持向量機(jī)模型的優(yōu)點(diǎn)是它避免了當(dāng)前的統(tǒng)計(jì)方法的從歸納到演繹的過程。
【參考文獻(xiàn)】:
期刊論文
[1]信息系統(tǒng)中的角色權(quán)限管理設(shè)計(jì)[J]. 朱軍紅,唐明根,張小玲. 中國管理信息化. 2019(23)
[2]基于Python與flask工具搭建可高效開發(fā)的實(shí)用型MVC框架[J]. 牛作東,李捍東. 計(jì)算機(jī)應(yīng)用與軟件. 2019(07)
[3]無監(jiān)督學(xué)習(xí)、GAN和強(qiáng)化學(xué)習(xí)將構(gòu)建機(jī)器學(xué)習(xí)的未來[J]. Al Gharakhanian,張含陽. 機(jī)器人產(chǎn)業(yè). 2017(02)
[4]MVC模式在Web管理信息系統(tǒng)中的應(yīng)用[J]. 徐春雨. 福建電腦. 2014(04)
[5]基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類模型研究[J]. 陳立孚,周寧,李丹. 現(xiàn)代圖書情報(bào)技術(shù). 2005(10)
碩士論文
[1]基于監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)優(yōu)化問題求解研究[D]. 李佳.電子科技大學(xué) 2019
本文編號(hào):3117298
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
方案一示意圖
電子科技大學(xué)碩士學(xué)位論文12供訓(xùn)練的難度。方案二的設(shè)計(jì)方式如圖2-2所示。圖2-2方案二示意圖方案三是使用二叉樹的結(jié)構(gòu),每一個(gè)節(jié)點(diǎn)都是一個(gè)分類器,每一層的分類器完成一個(gè)類比的數(shù)據(jù)與其他類別數(shù)據(jù)的分類問題[53]。如果有N種類別的數(shù)據(jù),則需要構(gòu)建N-1個(gè)分類器。這個(gè)方案的優(yōu)點(diǎn)是分類器的數(shù)目較少且訓(xùn)練的數(shù)據(jù)量也比較少。缺點(diǎn)是如果某一個(gè)節(jié)點(diǎn)的分類器訓(xùn)練出錯(cuò),那么之后的其他的節(jié)點(diǎn)的分類器也會(huì)收到影響導(dǎo)致一系列的連鎖反應(yīng)。并且使用這種結(jié)構(gòu)會(huì)極大的增加訓(xùn)練時(shí)間,因?yàn)橄乱粋(gè)分類的訓(xùn)練需要等待上一個(gè)分類器訓(xùn)練完成才能進(jìn)行。這幾種方案都是將一個(gè)多分類問題拆分成多個(gè)二分類問題以實(shí)現(xiàn)多分類任務(wù)。但是在實(shí)際應(yīng)用中,如果樣本分類數(shù)量的不斷增加,分類器的訓(xùn)練復(fù)雜度和計(jì)算量也會(huì)不斷增加。因此怎樣減少訓(xùn)練的復(fù)雜度和計(jì)算量是在實(shí)際應(yīng)用中需要著重考慮的問題。方案三的設(shè)計(jì)方式如圖2-3所示。圖2-3方案三示意圖支持向量機(jī)模型的優(yōu)點(diǎn)是它避免了當(dāng)前的統(tǒng)計(jì)方法的從歸納到演繹的過程。
電子科技大學(xué)碩士學(xué)位論文12供訓(xùn)練的難度。方案二的設(shè)計(jì)方式如圖2-2所示。圖2-2方案二示意圖方案三是使用二叉樹的結(jié)構(gòu),每一個(gè)節(jié)點(diǎn)都是一個(gè)分類器,每一層的分類器完成一個(gè)類比的數(shù)據(jù)與其他類別數(shù)據(jù)的分類問題[53]。如果有N種類別的數(shù)據(jù),則需要構(gòu)建N-1個(gè)分類器。這個(gè)方案的優(yōu)點(diǎn)是分類器的數(shù)目較少且訓(xùn)練的數(shù)據(jù)量也比較少。缺點(diǎn)是如果某一個(gè)節(jié)點(diǎn)的分類器訓(xùn)練出錯(cuò),那么之后的其他的節(jié)點(diǎn)的分類器也會(huì)收到影響導(dǎo)致一系列的連鎖反應(yīng)。并且使用這種結(jié)構(gòu)會(huì)極大的增加訓(xùn)練時(shí)間,因?yàn)橄乱粋(gè)分類的訓(xùn)練需要等待上一個(gè)分類器訓(xùn)練完成才能進(jìn)行。這幾種方案都是將一個(gè)多分類問題拆分成多個(gè)二分類問題以實(shí)現(xiàn)多分類任務(wù)。但是在實(shí)際應(yīng)用中,如果樣本分類數(shù)量的不斷增加,分類器的訓(xùn)練復(fù)雜度和計(jì)算量也會(huì)不斷增加。因此怎樣減少訓(xùn)練的復(fù)雜度和計(jì)算量是在實(shí)際應(yīng)用中需要著重考慮的問題。方案三的設(shè)計(jì)方式如圖2-3所示。圖2-3方案三示意圖支持向量機(jī)模型的優(yōu)點(diǎn)是它避免了當(dāng)前的統(tǒng)計(jì)方法的從歸納到演繹的過程。
【參考文獻(xiàn)】:
期刊論文
[1]信息系統(tǒng)中的角色權(quán)限管理設(shè)計(jì)[J]. 朱軍紅,唐明根,張小玲. 中國管理信息化. 2019(23)
[2]基于Python與flask工具搭建可高效開發(fā)的實(shí)用型MVC框架[J]. 牛作東,李捍東. 計(jì)算機(jī)應(yīng)用與軟件. 2019(07)
[3]無監(jiān)督學(xué)習(xí)、GAN和強(qiáng)化學(xué)習(xí)將構(gòu)建機(jī)器學(xué)習(xí)的未來[J]. Al Gharakhanian,張含陽. 機(jī)器人產(chǎn)業(yè). 2017(02)
[4]MVC模式在Web管理信息系統(tǒng)中的應(yīng)用[J]. 徐春雨. 福建電腦. 2014(04)
[5]基于機(jī)器學(xué)習(xí)的自動(dòng)文本分類模型研究[J]. 陳立孚,周寧,李丹. 現(xiàn)代圖書情報(bào)技術(shù). 2005(10)
碩士論文
[1]基于監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)優(yōu)化問題求解研究[D]. 李佳.電子科技大學(xué) 2019
本文編號(hào):3117298
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3117298.html
最近更新
教材專著