基于特征和隱馬爾可夫模型的文本信息抽取

發(fā)布時間：2018-01-19 05:14

本文關(guān)鍵詞： 文本分塊特征提取隱馬爾可夫模型　出處：《河南科技大學(xué)學(xué)報(自然科學(xué)版)》2008年02期 　論文類型：期刊論文

【摘要】：基于文本分塊提出一種新的文本信息抽取技術(shù),該技術(shù)利用文本的語義特征和結(jié)構(gòu)特征,抽取具有特征的狀態(tài),以此結(jié)果為基礎(chǔ),進(jìn)一步運用改進(jìn)的隱馬爾可夫模型,抽取剩余的無特征狀態(tài)。對美國CMU大學(xué)CORA搜索引擎研制組提供的數(shù)據(jù)集中的100篇進(jìn)行測試,結(jié)果顯示精確度和召回率比基于單詞和傳統(tǒng)隱馬爾可夫模型的方法都有所提高,并進(jìn)一步提高了效率。
[Abstract]:This paper proposes a new text information extraction technique based on text partitioning, which utilizes the semantic and structural features of the text to extract the characteristic states, and based on the results. Using the improved hidden Markov model to extract the remaining non-feature state, we tested 100 pieces of data set provided by the CORA search engine development team of CMU University in the United States. The results show that the accuracy and recall rate are higher than those based on word and traditional hidden Markov models, and the efficiency is further improved.
【作者單位】：河南交通職業(yè)技術(shù)學(xué)院河南交通職業(yè)技術(shù)學(xué)院河南交通職業(yè)技術(shù)學(xué)院吉林大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院
【基金】：吉林省科技發(fā)展計劃項目(20050527)
【分類號】：TP391.1
【正文快照】： 0前言目前的電子資源含有大量的有用信息,但是欠結(jié)構(gòu)化,不能為傳統(tǒng)的數(shù)據(jù)庫型查詢系統(tǒng)所利用。針對這一問題,出現(xiàn)了信息抽取技術(shù)。信息抽取(Information Extraction)是指從文本中自動抽取相關(guān)的或特定類型的信息。信息抽取包括規(guī)則法、統(tǒng)計法以及規(guī)則和統(tǒng)計相結(jié)合的方法等。

【共引文獻(xiàn)】

相關(guān)期刊論文前3條

1 李蕾;周延泉;王菁華;;基于全信息的中文信息抽取系統(tǒng)及應(yīng)用[J];北京郵電大學(xué)學(xué)報;2005年06期

2 郭慶琳,樊孝忠;基于NLU的智能搜索和信息提取技術(shù)的研究[J];計算機(jī)應(yīng)用研究;2004年02期

3 鄧尚民;孫玉偉;;信息抽取系統(tǒng)的研究現(xiàn)狀[J];現(xiàn)代圖書情報技術(shù);2006年03期

相關(guān)博士學(xué)位論文前1條

1 楊爾弘;突發(fā)事件信息提取研究[D];北京語言大學(xué);2005年

相關(guān)碩士學(xué)位論文前6條

1 溫銳;中文命名實體識別及其關(guān)系抽取研究[D];蘇州大學(xué);2005年

2 楊蓓虹;基于企業(yè)協(xié)作信息網(wǎng)平臺的信息檢索系統(tǒng)的設(shè)計與實現(xiàn)[D];蘇州大學(xué);2005年

3 姜濤;蛋白質(zhì)相互作用信息提取算法研究[D];西北工業(yè)大學(xué);2006年

4 徐超;基于種子自擴(kuò)展的命名實體關(guān)系抽取方法的研究[D];華中師范大學(xué);2006年

5 王穎;應(yīng)用于中文人名搜索引擎的Web信息提取技術(shù)研究[D];蘭州大學(xué);2006年

6 王ZMr，

本文編號：1442784

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1442784.html

上一篇：中文垂直搜索技術(shù)的研究與實現(xiàn)
下一篇：我國全媒體平臺辟謠實踐及應(yīng)用分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于特征和隱馬爾可夫模型的文本信息抽取