面向知識(shí)圖譜擴(kuò)充的非結(jié)構(gòu)化文本知識(shí)抽取研究
發(fā)布時(shí)間:2021-07-12 19:01
隨著人工智能技術(shù)的快速發(fā)展,認(rèn)知智能的重要性越來越凸顯。特別地,知識(shí)圖譜作為認(rèn)知智能重要的技術(shù)手段,在搜索引擎、智能應(yīng)用等場(chǎng)景日益展現(xiàn)其突破瓶頸的能力。然而,受限于知識(shí)覆蓋率較低等問題,當(dāng)前知識(shí)圖譜難以廣泛地在各個(gè)領(lǐng)域推廣使用;ヂ(lián)網(wǎng)上存在豐富的非結(jié)構(gòu)化文本,可以作為提升知識(shí)圖譜覆蓋率的重要知識(shí)來源。從非結(jié)構(gòu)化文本抽取知識(shí)一直是自然語言處理研究中的難點(diǎn)和熱點(diǎn)問題。已有的抽取方法或存在誤差傳播或包含人工特征選擇的問題,使其具有一定的局限性,并且會(huì)為后期的知識(shí)圖譜擴(kuò)充帶來許多額外的工作。基于以上背景,本論文主要針對(duì)知識(shí)圖譜擴(kuò)充的需求,研究以非結(jié)構(gòu)化文本為對(duì)象的知識(shí)抽取方法,即從非結(jié)構(gòu)化文本中抽取結(jié)構(gòu)形式為{頭實(shí)體,關(guān)系,尾實(shí)體}的知識(shí)三元組。傳統(tǒng)的方法采用分步抽取的方式,面臨著人工設(shè)計(jì)特征過于復(fù)雜、誤差傳播和信息冗余等問題。因此,綜合考慮實(shí)體與關(guān)系的聯(lián)合抽取方式成為新趨勢(shì),但其面對(duì)三元組構(gòu)件重疊問題抽取效果仍不佳。為解決上述問題,本文的研究工作主要包括兩部分:首先,本文提出了一種基于標(biāo)記策略的多層語義結(jié)構(gòu)的知識(shí)抽取方法。該方法是一種新的聯(lián)合抽取方法,可協(xié)助解決知識(shí)構(gòu)建的重疊問題。具體而言,...
【文章來源】:湘潭大學(xué)湖南省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
互聯(lián)網(wǎng)上存在的不同結(jié)構(gòu)的文本數(shù)據(jù)
的重要且必要的途徑。非結(jié)構(gòu)化文本靈活性強(qiáng)且沒有明確的指示性標(biāo)志,從非結(jié)構(gòu)化文本中抽取知識(shí)是一個(gè)難點(diǎn)問題。幸運(yùn)的是隨著深度學(xué)習(xí)的發(fā)展,從非結(jié)構(gòu)化文本中抽取知識(shí)的困難也所緩解。越來越多工作者致力于利用深度學(xué)習(xí)方法研究非結(jié)構(gòu)化文本的知識(shí)抽齲所說的知識(shí),通?梢员幻枋鰹槿M形式{頭實(shí)體,關(guān)系,尾實(shí)體}。為了擴(kuò)充知識(shí)圖譜,從非結(jié)構(gòu)化文本中抽取知識(shí),具體是指在知識(shí)圖譜中定義好的關(guān)系集合的約束下,從文本中抽取滿足關(guān)系的知識(shí),頭實(shí)體和尾實(shí)體都是由文本中的詞語組成,而關(guān)系詞本身不要求出現(xiàn)在語句中。如圖1.2所示,文本是“同為美國(guó)總統(tǒng)特朗普的女兒,蒂芙尼和伊萬卡差別很大”,該文本中可以抽取的三元組包括:{特朗普,父母-女兒,伊萬卡},{特朗普,父母-女兒,蒂芙尼},{伊萬卡,姐妹,蒂芙尼}以及{美國(guó),國(guó)家-總統(tǒng),特朗普}。圖1.2面向非結(jié)構(gòu)化文本抽取知識(shí)三元組傳統(tǒng)的三元組知識(shí)抽取采用分步走的方式,即將抽取三元組任務(wù)分為兩個(gè)子任務(wù):命名實(shí)體識(shí)別和關(guān)系抽齲早期的工作有Zelenko等人[4]和Chan等人[5],他們是先抽取實(shí)體再預(yù)測(cè)所有實(shí)體間的關(guān)系。由于分步的方法弱化了實(shí)體和關(guān)系間的聯(lián)系,并且實(shí)體識(shí)別的誤差會(huì)一直傳播到關(guān)系分類階段,F(xiàn)在流行一種聯(lián)合抽取關(guān)系和實(shí)體的方式,可以充分利用實(shí)體與關(guān)系的語義信息,改善了傳統(tǒng)抽取方法的現(xiàn)狀。LiandJi[6],Matthew[7],Ren[8]等通過人工設(shè)計(jì)的特征將抽取實(shí)體和關(guān)系兩步結(jié)合在一起,但是人工設(shè)計(jì)的特征會(huì)帶來許多額外的工作。Zeng等人[9]提出PCNN模型,通過參數(shù)共享的方式聯(lián)合抽取實(shí)體和關(guān)系,其依舊存在誤差傳播的問題。Miwaand
18文本中可以抽取出知識(shí)三元組,因此我們認(rèn)為輸入句子中的每一個(gè)詞都對(duì)應(yīng)著一些語義標(biāo)簽,該標(biāo)簽包含著三元組信息。其中,我們以標(biāo)簽“O”表示詞是和三元組無關(guān)的詞。除了標(biāo)簽“O”外,其它的標(biāo)簽都由三部分信息組成:詞在實(shí)體中的位置信息,詞對(duì)應(yīng)的關(guān)系類型,詞的關(guān)系角色。我們采用“BIES”四種符號(hào)表示詞語在實(shí)體中的位置情況,其中“B”表示詞語在實(shí)體的開頭,“I”表示該詞在實(shí)體的中間,“E”表示詞語在實(shí)體的結(jié)束位置,“S”則表示當(dāng)前詞就是一個(gè)完整的實(shí)體。圖3.1是本章節(jié)提出的標(biāo)記策略說明,知識(shí)抽取結(jié)果通常以三元組的形式表示:{實(shí)體1,關(guān)系類型,實(shí)體2}。關(guān)系類型信息是基于預(yù)定義的關(guān)系類型集合得到,而關(guān)系角色是指當(dāng)前詞對(duì)應(yīng)著三元組的哪一個(gè)實(shí)體。圖中“CP”是關(guān)系類型“國(guó)家-總統(tǒng)”的縮寫,而“PD”是關(guān)系類型“父母-女兒”的縮寫。此處我們用數(shù)字1表示該詞對(duì)應(yīng)著“頭實(shí)體”,用數(shù)字2表示該詞屬于“尾實(shí)體”;谏鲜龇绞蕉x的標(biāo)簽個(gè)數(shù)為:Nt=2*4*|R|+1,其中|R|是指預(yù)定義關(guān)系類型的個(gè)數(shù)。圖3.1解決三元組重疊的特殊標(biāo)記策略由于每行標(biāo)簽序列只允許每個(gè)詞有單獨(dú)的標(biāo)記,重疊三元組(如圖1.2中{美國(guó),國(guó)家-總統(tǒng),特朗普}與{特朗普,父母-女兒,蒂芙尼}存在重疊的實(shí)體“特朗普”)不能全部被標(biāo)記。因此為解決重疊三元組問題,本文將聯(lián)合抽取三元組的任務(wù)轉(zhuǎn)換成一個(gè)多序列標(biāo)記問題,即一個(gè)句子可以存在多個(gè)標(biāo)記序列,一定程度上解決重疊三元組問題。圖3.2是展示了生成多行標(biāo)簽序列結(jié)果的示例。如圖所示,輸入句子包含四個(gè)三元組:{特朗普,父母-女兒,伊萬卡},{特朗普,父母-女兒,蒂芙尼}和{美國(guó),國(guó)家-總統(tǒng),特朗普},{伊萬卡,姐妹,蒂芙尼},其中“父母-女兒”和“國(guó)家-總統(tǒng)”是預(yù)定義的關(guān)系類型。單詞“特朗普”,“美
【參考文獻(xiàn)】:
期刊論文
[1]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學(xué)報(bào). 2011(06)
本文編號(hào):3280478
【文章來源】:湘潭大學(xué)湖南省
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
互聯(lián)網(wǎng)上存在的不同結(jié)構(gòu)的文本數(shù)據(jù)
的重要且必要的途徑。非結(jié)構(gòu)化文本靈活性強(qiáng)且沒有明確的指示性標(biāo)志,從非結(jié)構(gòu)化文本中抽取知識(shí)是一個(gè)難點(diǎn)問題。幸運(yùn)的是隨著深度學(xué)習(xí)的發(fā)展,從非結(jié)構(gòu)化文本中抽取知識(shí)的困難也所緩解。越來越多工作者致力于利用深度學(xué)習(xí)方法研究非結(jié)構(gòu)化文本的知識(shí)抽齲所說的知識(shí),通?梢员幻枋鰹槿M形式{頭實(shí)體,關(guān)系,尾實(shí)體}。為了擴(kuò)充知識(shí)圖譜,從非結(jié)構(gòu)化文本中抽取知識(shí),具體是指在知識(shí)圖譜中定義好的關(guān)系集合的約束下,從文本中抽取滿足關(guān)系的知識(shí),頭實(shí)體和尾實(shí)體都是由文本中的詞語組成,而關(guān)系詞本身不要求出現(xiàn)在語句中。如圖1.2所示,文本是“同為美國(guó)總統(tǒng)特朗普的女兒,蒂芙尼和伊萬卡差別很大”,該文本中可以抽取的三元組包括:{特朗普,父母-女兒,伊萬卡},{特朗普,父母-女兒,蒂芙尼},{伊萬卡,姐妹,蒂芙尼}以及{美國(guó),國(guó)家-總統(tǒng),特朗普}。圖1.2面向非結(jié)構(gòu)化文本抽取知識(shí)三元組傳統(tǒng)的三元組知識(shí)抽取采用分步走的方式,即將抽取三元組任務(wù)分為兩個(gè)子任務(wù):命名實(shí)體識(shí)別和關(guān)系抽齲早期的工作有Zelenko等人[4]和Chan等人[5],他們是先抽取實(shí)體再預(yù)測(cè)所有實(shí)體間的關(guān)系。由于分步的方法弱化了實(shí)體和關(guān)系間的聯(lián)系,并且實(shí)體識(shí)別的誤差會(huì)一直傳播到關(guān)系分類階段,F(xiàn)在流行一種聯(lián)合抽取關(guān)系和實(shí)體的方式,可以充分利用實(shí)體與關(guān)系的語義信息,改善了傳統(tǒng)抽取方法的現(xiàn)狀。LiandJi[6],Matthew[7],Ren[8]等通過人工設(shè)計(jì)的特征將抽取實(shí)體和關(guān)系兩步結(jié)合在一起,但是人工設(shè)計(jì)的特征會(huì)帶來許多額外的工作。Zeng等人[9]提出PCNN模型,通過參數(shù)共享的方式聯(lián)合抽取實(shí)體和關(guān)系,其依舊存在誤差傳播的問題。Miwaand
18文本中可以抽取出知識(shí)三元組,因此我們認(rèn)為輸入句子中的每一個(gè)詞都對(duì)應(yīng)著一些語義標(biāo)簽,該標(biāo)簽包含著三元組信息。其中,我們以標(biāo)簽“O”表示詞是和三元組無關(guān)的詞。除了標(biāo)簽“O”外,其它的標(biāo)簽都由三部分信息組成:詞在實(shí)體中的位置信息,詞對(duì)應(yīng)的關(guān)系類型,詞的關(guān)系角色。我們采用“BIES”四種符號(hào)表示詞語在實(shí)體中的位置情況,其中“B”表示詞語在實(shí)體的開頭,“I”表示該詞在實(shí)體的中間,“E”表示詞語在實(shí)體的結(jié)束位置,“S”則表示當(dāng)前詞就是一個(gè)完整的實(shí)體。圖3.1是本章節(jié)提出的標(biāo)記策略說明,知識(shí)抽取結(jié)果通常以三元組的形式表示:{實(shí)體1,關(guān)系類型,實(shí)體2}。關(guān)系類型信息是基于預(yù)定義的關(guān)系類型集合得到,而關(guān)系角色是指當(dāng)前詞對(duì)應(yīng)著三元組的哪一個(gè)實(shí)體。圖中“CP”是關(guān)系類型“國(guó)家-總統(tǒng)”的縮寫,而“PD”是關(guān)系類型“父母-女兒”的縮寫。此處我們用數(shù)字1表示該詞對(duì)應(yīng)著“頭實(shí)體”,用數(shù)字2表示該詞屬于“尾實(shí)體”;谏鲜龇绞蕉x的標(biāo)簽個(gè)數(shù)為:Nt=2*4*|R|+1,其中|R|是指預(yù)定義關(guān)系類型的個(gè)數(shù)。圖3.1解決三元組重疊的特殊標(biāo)記策略由于每行標(biāo)簽序列只允許每個(gè)詞有單獨(dú)的標(biāo)記,重疊三元組(如圖1.2中{美國(guó),國(guó)家-總統(tǒng),特朗普}與{特朗普,父母-女兒,蒂芙尼}存在重疊的實(shí)體“特朗普”)不能全部被標(biāo)記。因此為解決重疊三元組問題,本文將聯(lián)合抽取三元組的任務(wù)轉(zhuǎn)換成一個(gè)多序列標(biāo)記問題,即一個(gè)句子可以存在多個(gè)標(biāo)記序列,一定程度上解決重疊三元組問題。圖3.2是展示了生成多行標(biāo)簽序列結(jié)果的示例。如圖所示,輸入句子包含四個(gè)三元組:{特朗普,父母-女兒,伊萬卡},{特朗普,父母-女兒,蒂芙尼}和{美國(guó),國(guó)家-總統(tǒng),特朗普},{伊萬卡,姐妹,蒂芙尼},其中“父母-女兒”和“國(guó)家-總統(tǒng)”是預(yù)定義的關(guān)系類型。單詞“特朗普”,“美
【參考文獻(xiàn)】:
期刊論文
[1]開放式文本信息抽取[J]. 趙軍,劉康,周光有,蔡黎. 中文信息學(xué)報(bào). 2011(06)
本文編號(hào):3280478
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3280478.html
最近更新
教材專著