基于特征和隱馬爾可夫模型的文本信息抽取
本文關(guān)鍵詞: 文本分塊 特征提取 隱馬爾可夫模型 出處:《河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版)》2008年02期 論文類(lèi)型:期刊論文
【摘要】:基于文本分塊提出一種新的文本信息抽取技術(shù),該技術(shù)利用文本的語(yǔ)義特征和結(jié)構(gòu)特征,抽取具有特征的狀態(tài),以此結(jié)果為基礎(chǔ),進(jìn)一步運(yùn)用改進(jìn)的隱馬爾可夫模型,抽取剩余的無(wú)特征狀態(tài)。對(duì)美國(guó)CMU大學(xué)CORA搜索引擎研制組提供的數(shù)據(jù)集中的100篇進(jìn)行測(cè)試,結(jié)果顯示精確度和召回率比基于單詞和傳統(tǒng)隱馬爾可夫模型的方法都有所提高,并進(jìn)一步提高了效率。
[Abstract]:This paper proposes a new text information extraction technique based on text partitioning, which utilizes the semantic and structural features of the text to extract the characteristic states, and based on the results. Using the improved hidden Markov model to extract the remaining non-feature state, we tested 100 pieces of data set provided by the CORA search engine development team of CMU University in the United States. The results show that the accuracy and recall rate are higher than those based on word and traditional hidden Markov models, and the efficiency is further improved.
【作者單位】: 河南交通職業(yè)技術(shù)學(xué)院 河南交通職業(yè)技術(shù)學(xué)院 河南交通職業(yè)技術(shù)學(xué)院 吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院
【基金】:吉林省科技發(fā)展計(jì)劃項(xiàng)目(20050527)
【分類(lèi)號(hào)】:TP391.1
【正文快照】: 0前言目前的電子資源含有大量的有用信息,但是欠結(jié)構(gòu)化,不能為傳統(tǒng)的數(shù)據(jù)庫(kù)型查詢系統(tǒng)所利用。針對(duì)這一問(wèn)題,出現(xiàn)了信息抽取技術(shù)。信息抽取(Information Extraction)是指從文本中自動(dòng)抽取相關(guān)的或特定類(lèi)型的信息。信息抽取包括規(guī)則法、統(tǒng)計(jì)法以及規(guī)則和統(tǒng)計(jì)相結(jié)合的方法等。
【共引文獻(xiàn)】
相關(guān)期刊論文 前3條
1 李蕾;周延泉;王菁華;;基于全信息的中文信息抽取系統(tǒng)及應(yīng)用[J];北京郵電大學(xué)學(xué)報(bào);2005年06期
2 郭慶琳,樊孝忠;基于NLU的智能搜索和信息提取技術(shù)的研究[J];計(jì)算機(jī)應(yīng)用研究;2004年02期
3 鄧尚民;孫玉偉;;信息抽取系統(tǒng)的研究現(xiàn)狀[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2006年03期
相關(guān)博士學(xué)位論文 前1條
1 楊爾弘;突發(fā)事件信息提取研究[D];北京語(yǔ)言大學(xué);2005年
相關(guān)碩士學(xué)位論文 前6條
1 溫銳;中文命名實(shí)體識(shí)別及其關(guān)系抽取研究[D];蘇州大學(xué);2005年
2 楊蓓虹;基于企業(yè)協(xié)作信息網(wǎng)平臺(tái)的信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];蘇州大學(xué);2005年
3 姜濤;蛋白質(zhì)相互作用信息提取算法研究[D];西北工業(yè)大學(xué);2006年
4 徐超;基于種子自擴(kuò)展的命名實(shí)體關(guān)系抽取方法的研究[D];華中師范大學(xué);2006年
5 王穎;應(yīng)用于中文人名搜索引擎的Web信息提取技術(shù)研究[D];蘭州大學(xué);2006年
6 王ZMr,
本文編號(hào):1442784
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/1442784.html