基于條件隨機(jī)場(chǎng)的科研論文信息分層抽取
本文關(guān)鍵詞:基于條件隨機(jī)場(chǎng)的科研論文信息分層抽取
更多相關(guān)文章: 信息抽取 條件隨機(jī)場(chǎng) 分層
【摘要】:在利用條件隨機(jī)場(chǎng)進(jìn)行信息抽取時(shí),單純基于詞或基于塊的方法,不能充分利用上下文信息在恰當(dāng)粒度上進(jìn)行切分和抽取,因此提出了一種基于條件隨機(jī)場(chǎng)的科研論文信息分層抽取方法,利用分隔符、換行符、行首字符等格式信息,結(jié)合條件隨機(jī)場(chǎng)的特征函數(shù),將文本切分成文本行、塊或單個(gè)的詞等恰當(dāng)?shù)膶哟?再采用L-BFGS算法學(xué)習(xí)模型參數(shù)并進(jìn)行特定文本域的抽取。實(shí)驗(yàn)結(jié)果表明,該方法的抽取性能優(yōu)于基于詞或塊的條件隨機(jī)場(chǎng)模型的信息抽取方法。
【作者單位】: 重慶大學(xué)計(jì)算機(jī)學(xué)院;
【關(guān)鍵詞】: 信息抽取 條件隨機(jī)場(chǎng) 分層
【基金】:重慶市科委自然科學(xué)基金計(jì)劃資助項(xiàng)目(2007BB2372) 中國(guó)博士后科學(xué)基金資助項(xiàng)目(20070420711)
【分類號(hào)】:TP391.1
【正文快照】: 隨著大量科研論文的出現(xiàn),從中精確地抽取論文頭部信息和引文信息顯得十分重要?蒲姓撐念^部和引文信息包括論文標(biāo)題、作者、單位、摘要、關(guān)鍵字、期刊名和頁(yè)碼等域的信息。通過(guò)獲取科研論文的這些信息,不僅可以有效地組織和管理這些論文,提高用戶檢索論文的效率,而且還能夠
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前2條
1 李朝光,張銘,鄧志鴻,楊冬青,唐世渭;論文元數(shù)據(jù)信息的自動(dòng)抽取[J];計(jì)算機(jī)工程與應(yīng)用;2002年21期
2 郭志鑫;;基于本體的文檔引文元數(shù)據(jù)信息抽取[J];微計(jì)算機(jī)信息;2006年18期
【共引文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前8條
1 李小斌;;一種從HTML頁(yè)面到RDF文檔的轉(zhuǎn)化方法[J];電腦與信息技術(shù);2006年04期
2 郭志鑫;金海;陳漢華;;SemreX中基于語(yǔ)義的文檔參考文獻(xiàn)元數(shù)據(jù)信息提取[J];計(jì)算機(jī)研究與發(fā)展;2006年08期
3 孫哲,張銘,唐世渭;基于Berkeley DB的文獻(xiàn)檢索設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2003年13期
4 周明建,高濟(jì),李飛;基于本體論的Web信息抽取[J];計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào);2004年04期
5 王雷;陳治平;李志成;;基于文本分塊的多模板隱馬爾可夫模型的文本信息抽取[J];山東大學(xué)學(xué)報(bào)(理學(xué)版);2006年03期
6 嚴(yán)s,
本文編號(hào):841042
本文鏈接:http://sikaile.net/wenshubaike/gxjt/841042.html