本體與條件隨機(jī)場(chǎng)結(jié)合的涉農(nóng)商品名稱抽取與類別標(biāo)注
發(fā)布時(shí)間:2019-08-09 10:22
【摘要】:傳統(tǒng)的基于條件隨機(jī)場(chǎng)(CRF)的信息抽取方法在進(jìn)行涉農(nóng)商品名稱抽取與類別標(biāo)注時(shí),需要大量的訓(xùn)練語(yǔ)料,標(biāo)注工作量大,且抽取精度不高。為解決該問(wèn)題,提出了一種基于農(nóng)業(yè)本體與CRF相結(jié)合的涉農(nóng)商品名稱抽取與類別標(biāo)注方法,將涉農(nóng)商品名稱的自動(dòng)抽取與分類看作序列標(biāo)注的任務(wù)。首先是原始數(shù)據(jù)的分詞處理和詞、詞性、地理屬性、本體概念特征選擇;然后,采用改進(jìn)的擬牛頓算法訓(xùn)練CRF模型參數(shù),用維特比算法實(shí)現(xiàn)解碼,共完成4組對(duì)比實(shí)驗(yàn),識(shí)別出7種類別,并將CRF和隱馬爾可夫模型(HMM)、最大熵馬爾可夫模型(MEMM)通過(guò)實(shí)驗(yàn)進(jìn)行比較;最后,將CRF應(yīng)用于農(nóng)產(chǎn)品供求趨勢(shì)分析。結(jié)合合適的特征模板,本體概念的加入使CRF開(kāi)放測(cè)試的總體準(zhǔn)確率提高10.20%,召回率提高59.78%,F值提高37.17%,證明了本體與CRF結(jié)合方法在涉農(nóng)商品名稱和類別抽取中的可行性和有效性,可以促進(jìn)農(nóng)產(chǎn)品供求對(duì)接。
【圖文】:
簞羋磯鉲煞蚰P?MaximumEntropyMarkovModel,MEMM)進(jìn)行比較,同時(shí)用于農(nóng)產(chǎn)品供求趨勢(shì)的分析。表明農(nóng)業(yè)本體與CRF相結(jié)合進(jìn)行涉農(nóng)商品名稱抽取與類別標(biāo)注方法的有效性。1農(nóng)業(yè)本體與CRF1.1農(nóng)業(yè)本體本體是關(guān)于概念體系的明確的、形式化的規(guī)范說(shuō)明[13],農(nóng)業(yè)本體是專業(yè)性的本體,表示的知識(shí)都是針對(duì)農(nóng)業(yè)學(xué)科領(lǐng)域,提供了關(guān)于該領(lǐng)域中概念的詞表以及概念之間的關(guān)系[14-15]。概念層次是本體的骨架,主要反映概念之間的父類子類關(guān)系。文中使用阿里巴巴農(nóng)業(yè)(https://www.1688.com/)概念層次體系,結(jié)構(gòu)如圖1所示,該分類體系有4個(gè)層次,包括218個(gè)葉子節(jié)點(diǎn),目前已有超過(guò)170萬(wàn)個(gè)農(nóng)業(yè)供求信息映射到該分類體系中,因此基本可以涵蓋各種農(nóng)產(chǎn)品供求類型,具有很強(qiáng)的覆蓋性。利用本體中的父子類概念知識(shí)表示詞所對(duì)應(yīng)的概念,賦予詞以語(yǔ)義。生鮮水果作為蘋(píng)果、草莓的父類概念,可用生鮮水果描述蘋(píng)果、草莓;種植業(yè)作為生鮮水果、農(nóng)作物種子種苗的父類概念,使用種植業(yè)來(lái)描述生鮮水果、農(nóng)作物種子種苗,也可使用種植業(yè)來(lái)描述蘋(píng)果、草莓、蔬菜種子種苗等,進(jìn)一步增強(qiáng)知識(shí)泛化能力。圖1農(nóng)業(yè)本體概念層次樹(shù)Fig.1Concepthierarchiesofagriculturalontology1.2條件隨機(jī)場(chǎng)CRF是用來(lái)標(biāo)注和劃分序列結(jié)構(gòu)數(shù)據(jù)的概率化的無(wú)向圖模型[4],具有表達(dá)元素長(zhǎng)距離依賴性和交疊性特征的能力,在模型中可包含眾多領(lǐng)域知識(shí)[16]。1.2.1CRF模型對(duì)于給定的輸出標(biāo)記序列y=(y1,y2,…,yn)和輸入觀察序列x=(x1,x2,…,xn),CRF通過(guò)定義條件概念p(y|x,λ)來(lái)描述模型。圖2表示CRF鏈?zhǔn)浇Y(jié)構(gòu)。圖2CRF鏈?zhǔn)浇Y(jié)構(gòu)Fig.2CRFchainstructureCRF定義的條件概率公式為:p(y|x,λ)=1Z(x)exp(∑n
,也可使用種植業(yè)來(lái)描述蘋(píng)果、草莓、蔬菜種子種苗等,進(jìn)一步增強(qiáng)知識(shí)泛化能力。圖1農(nóng)業(yè)本體概念層次樹(shù)Fig.1Concepthierarchiesofagriculturalontology1.2條件隨機(jī)場(chǎng)CRF是用來(lái)標(biāo)注和劃分序列結(jié)構(gòu)數(shù)據(jù)的概率化的無(wú)向圖模型[4],具有表達(dá)元素長(zhǎng)距離依賴性和交疊性特征的能力,在模型中可包含眾多領(lǐng)域知識(shí)[16]。1.2.1CRF模型對(duì)于給定的輸出標(biāo)記序列y=(y1,y2,…,yn)和輸入觀察序列x=(x1,x2,…,xn),CRF通過(guò)定義條件概念p(y|x,λ)來(lái)描述模型。圖2表示CRF鏈?zhǔn)浇Y(jié)構(gòu)。圖2CRF鏈?zhǔn)浇Y(jié)構(gòu)Fig.2CRFchainstructureCRF定義的條件概率公式為:p(y|x,λ)=1Z(x)exp(∑ni=1∑jλj·fj(yi-1,yi,x,i))(1)其中:x為觀察序列;y為標(biāo)記序列;λ=(λ1,λ2,…,λn)為權(quán)重向量;λj為特征函數(shù)的權(quán)重;fj(yi-1,yi,x,i)為對(duì)應(yīng)整個(gè)觀察序列x,標(biāo)記位于i和i-1的特征函數(shù);分母Z(x)為歸一化因子(保證所有可能的狀態(tài)序列概率之和為1),公式如下:Z(x)=∑yexp(∑ni=1∑jλj·fj(yi-1,,yi,x,i))(2)1.2.2參數(shù)訓(xùn)練CRF的參數(shù)訓(xùn)練過(guò)程是在訓(xùn)練數(shù)據(jù)集上基于對(duì)數(shù)似然函數(shù)的最大化進(jìn)行[17-18],設(shè)一個(gè)標(biāo)注過(guò)的數(shù)據(jù)序列集D={(x1,y1),(x2,y2),…,(xn,yn)},ps
本文編號(hào):2524736
【圖文】:
簞羋磯鉲煞蚰P?MaximumEntropyMarkovModel,MEMM)進(jìn)行比較,同時(shí)用于農(nóng)產(chǎn)品供求趨勢(shì)的分析。表明農(nóng)業(yè)本體與CRF相結(jié)合進(jìn)行涉農(nóng)商品名稱抽取與類別標(biāo)注方法的有效性。1農(nóng)業(yè)本體與CRF1.1農(nóng)業(yè)本體本體是關(guān)于概念體系的明確的、形式化的規(guī)范說(shuō)明[13],農(nóng)業(yè)本體是專業(yè)性的本體,表示的知識(shí)都是針對(duì)農(nóng)業(yè)學(xué)科領(lǐng)域,提供了關(guān)于該領(lǐng)域中概念的詞表以及概念之間的關(guān)系[14-15]。概念層次是本體的骨架,主要反映概念之間的父類子類關(guān)系。文中使用阿里巴巴農(nóng)業(yè)(https://www.1688.com/)概念層次體系,結(jié)構(gòu)如圖1所示,該分類體系有4個(gè)層次,包括218個(gè)葉子節(jié)點(diǎn),目前已有超過(guò)170萬(wàn)個(gè)農(nóng)業(yè)供求信息映射到該分類體系中,因此基本可以涵蓋各種農(nóng)產(chǎn)品供求類型,具有很強(qiáng)的覆蓋性。利用本體中的父子類概念知識(shí)表示詞所對(duì)應(yīng)的概念,賦予詞以語(yǔ)義。生鮮水果作為蘋(píng)果、草莓的父類概念,可用生鮮水果描述蘋(píng)果、草莓;種植業(yè)作為生鮮水果、農(nóng)作物種子種苗的父類概念,使用種植業(yè)來(lái)描述生鮮水果、農(nóng)作物種子種苗,也可使用種植業(yè)來(lái)描述蘋(píng)果、草莓、蔬菜種子種苗等,進(jìn)一步增強(qiáng)知識(shí)泛化能力。圖1農(nóng)業(yè)本體概念層次樹(shù)Fig.1Concepthierarchiesofagriculturalontology1.2條件隨機(jī)場(chǎng)CRF是用來(lái)標(biāo)注和劃分序列結(jié)構(gòu)數(shù)據(jù)的概率化的無(wú)向圖模型[4],具有表達(dá)元素長(zhǎng)距離依賴性和交疊性特征的能力,在模型中可包含眾多領(lǐng)域知識(shí)[16]。1.2.1CRF模型對(duì)于給定的輸出標(biāo)記序列y=(y1,y2,…,yn)和輸入觀察序列x=(x1,x2,…,xn),CRF通過(guò)定義條件概念p(y|x,λ)來(lái)描述模型。圖2表示CRF鏈?zhǔn)浇Y(jié)構(gòu)。圖2CRF鏈?zhǔn)浇Y(jié)構(gòu)Fig.2CRFchainstructureCRF定義的條件概率公式為:p(y|x,λ)=1Z(x)exp(∑n
,也可使用種植業(yè)來(lái)描述蘋(píng)果、草莓、蔬菜種子種苗等,進(jìn)一步增強(qiáng)知識(shí)泛化能力。圖1農(nóng)業(yè)本體概念層次樹(shù)Fig.1Concepthierarchiesofagriculturalontology1.2條件隨機(jī)場(chǎng)CRF是用來(lái)標(biāo)注和劃分序列結(jié)構(gòu)數(shù)據(jù)的概率化的無(wú)向圖模型[4],具有表達(dá)元素長(zhǎng)距離依賴性和交疊性特征的能力,在模型中可包含眾多領(lǐng)域知識(shí)[16]。1.2.1CRF模型對(duì)于給定的輸出標(biāo)記序列y=(y1,y2,…,yn)和輸入觀察序列x=(x1,x2,…,xn),CRF通過(guò)定義條件概念p(y|x,λ)來(lái)描述模型。圖2表示CRF鏈?zhǔn)浇Y(jié)構(gòu)。圖2CRF鏈?zhǔn)浇Y(jié)構(gòu)Fig.2CRFchainstructureCRF定義的條件概率公式為:p(y|x,λ)=1Z(x)exp(∑ni=1∑jλj·fj(yi-1,yi,x,i))(1)其中:x為觀察序列;y為標(biāo)記序列;λ=(λ1,λ2,…,λn)為權(quán)重向量;λj為特征函數(shù)的權(quán)重;fj(yi-1,yi,x,i)為對(duì)應(yīng)整個(gè)觀察序列x,標(biāo)記位于i和i-1的特征函數(shù);分母Z(x)為歸一化因子(保證所有可能的狀態(tài)序列概率之和為1),公式如下:Z(x)=∑yexp(∑ni=1∑jλj·fj(yi-1,,yi,x,i))(2)1.2.2參數(shù)訓(xùn)練CRF的參數(shù)訓(xùn)練過(guò)程是在訓(xùn)練數(shù)據(jù)集上基于對(duì)數(shù)似然函數(shù)的最大化進(jìn)行[17-18],設(shè)一個(gè)標(biāo)注過(guò)的數(shù)據(jù)序列集D={(x1,y1),(x2,y2),…,(xn,yn)},ps
本文編號(hào):2524736
本文鏈接:http://sikaile.net/kejilunwen/ruanjiangongchenglunwen/2524736.html
最近更新
教材專著