基于集成學習的OA期刊論文元數(shù)據(jù)提取方法研究
發(fā)布時間:2017-12-18 18:02
本文關(guān)鍵詞:基于集成學習的OA期刊論文元數(shù)據(jù)提取方法研究
更多相關(guān)文章: 論文元數(shù)據(jù) 元數(shù)據(jù)提取 統(tǒng)計機器學習 集成學習
【摘要】:在建設(shè)圖書館數(shù)字資源庫時,,需要利用互聯(lián)網(wǎng)上的開放存取(Open Access,OA)期刊論文作為圖書館數(shù)字資源庫建設(shè)的信息源,利用論文元數(shù)據(jù)信息可以提高論文在圖書館數(shù)字資源庫中檢索的準確率和檢索速度。因此,如何準確和快速地提取OA期刊論文的元數(shù)據(jù)是實現(xiàn)圖書館數(shù)字資源庫建設(shè)的關(guān)鍵。本文在對國內(nèi)外論文元數(shù)據(jù)提取方法綜合研究分析基礎(chǔ)上,結(jié)合集成學習的思想,從個體學習器的結(jié)論合成和個體生成方法兩方面出發(fā),對論文元數(shù)據(jù)提取方法進行了研究。 首先,針對現(xiàn)有的單一元數(shù)據(jù)提取模型提取精度和泛化能力不高的問題,從集成學習的個體學習器結(jié)論合成方面考慮,提出一種基于貝葉斯融合的論文元數(shù)據(jù)提取方法;鶎觽體學習器分別采用HMM、SVM和CRF三種機器學習算法,對訓練集學習生成提取模型,利用已生成的模型提取論文元數(shù)據(jù)并計算提取的樣本屬于每個元數(shù)據(jù)類別的后驗概率,并對每個模型的后驗概率加權(quán)計算,結(jié)合貝葉斯理論對產(chǎn)生的后驗概率融合決策,最終提取論文的元數(shù)據(jù)。 其次,從集成學習個體學習器生成方面考慮,提出一種基于元學習的論文元數(shù)據(jù)提取方法。先是提出一種基分類器構(gòu)造方法,按照期刊類別構(gòu)建不同的基層訓練集,通過基層SVM學習這些構(gòu)造好的訓練集生成基分類器,增大了集成學習中基層分類器之間的差異性;元層SVM通過對基分類器的學習結(jié)果進行再學習生成元分類器,元分類器綜合決策基分類器的輸出結(jié)果,從而得到最終的提取結(jié)果,提高論文元數(shù)據(jù)模型的提取精度和泛化能力。 最后,對本文提出的方法進行實驗驗證,實驗結(jié)果表明,本文所提的方法提高了論文元數(shù)據(jù)提取的精度,具有較好的泛化能力,同時結(jié)合研究成果對今后的研究工作進行了展望。
【學位授予單位】:燕山大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP391.1;G250.76
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前7條
1 孔浩;楊勇;王國胤;;基于多分類器融合的語音識別方法研究[J];重慶郵電大學學報(自然科學版);2011年04期
2 周順先;林亞平;王耀南;易葉青;;基于二階隱馬爾可夫模型的文本信息抽取[J];電子學報;2007年11期
3 張付志;侯娜;劉慧;馬玉靜;;一種基于啟發(fā)式搜索的論文元數(shù)據(jù)提取算法[J];計算機應用與軟件;2009年09期
4 張銘;銀平;鄧志鴻;楊冬青;;SVM+BiHMM:基于統(tǒng)計方法的元數(shù)據(jù)抽取混合模型[J];軟件學報;2008年02期
5 趙琦;劉建華;馮浩然;;從ACE會議看信息抽取技術(shù)的發(fā)展趨勢[J];現(xiàn)代圖書情報技術(shù);2008年03期
6 劉云中,林亞平,陳治平;基于隱馬爾可夫模型的文本信息抽取[J];系統(tǒng)仿真學報;2004年03期
7 邱清盈;鄭國民;馮培恩;武建偉;;基于正則表達式的專利信息提取方法研究[J];中國機械工程;2007年19期
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 李瑩;文本病歷信息抽取方法研究[D];浙江大學;2009年
本文編號:1305083
本文鏈接:http://sikaile.net/wenshubaike/xingzhengshiwu/1305083.html
最近更新
教材專著