不規(guī)則文本中商品名稱識別的特征選擇
發(fā)布時間:2018-02-14 10:44
本文關(guān)鍵詞: 商品名稱 不規(guī)則文本 最大熵模型 詞的分布式表示 出處:《計算機工程與科學(xué)》2016年10期 論文類型:期刊論文
【摘要】:傳統(tǒng)的命名實體識別任務(wù)多見于人名、地名、機構(gòu)名這些普通的命名實體,且大多采用規(guī)則文本進行研究。隨著電子商務(wù)和互聯(lián)網(wǎng)廣告的不斷發(fā)展,如何從用戶的各種不規(guī)則的上下文信息中自動識別出商品名稱這一特殊的命名實體成為了一個需要解決的問題。為了解決這一問題,建立了一個最大熵模型用于識別論壇發(fā)帖這種不規(guī)則文本中的商品名稱,并探討了多種特征對于識別效果的影響。這些特征不僅包括傳統(tǒng)命名實體識別方法中所使用的局部特征和布朗聚類特征,還包括詞的分布式表示這種比較新穎的特征。這些特征按照各種不同的方式進行組合作為模型的輸入。在CPROD01評測數(shù)據(jù)集上的實驗結(jié)果表明,布朗聚類特征能夠有效地提高商品名稱識別系統(tǒng)的準(zhǔn)確性。
[Abstract]:With the development of E - commerce and Internet advertising , how to identify commodity names from irregular context information of users is a problem that needs to be solved . In order to solve this problem , a maximum entropy model is established to identify the commodity names in the irregular text of the forum .
【作者單位】: 海軍工程大學(xué)理學(xué)院;中國科學(xué)院武漢文獻情報中心;
【基金】:國家自然科學(xué)基金(61402516)
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前1條
1 陸銘;康雨潔;俞能海;;簡約語法規(guī)則和最大熵模型相結(jié)合的混合實體識別[J];小型微型計算機系統(tǒng);2012年03期
【共引文獻】
相關(guān)期刊論文 前2條
1 楊美妮;何濤;沈靜;張建軍;;不規(guī)則文本中商品名稱識別的特征選擇[J];計算機工程與科學(xué);2016年10期
2 曾凱;佘X;;不完備信息系統(tǒng)的容差鄰域熵和屬性選擇[J];小型微型計算機系統(tǒng);2014年05期
【二級參考文獻】
相關(guān)期刊論文 前4條
1 俞鴻魁;張華平;劉群;呂學(xué)強;施水才;;基于層疊隱馬爾可夫模型的中文命名實體識別[J];通信學(xué)報;2006年02期
2 王睿,張潔,張由儀,于y,
本文編號:1510527
本文鏈接:http://sikaile.net/jingjilunwen/dianzishangwulunwen/1510527.html
最近更新
教材專著