漢藏跨語言旅游領(lǐng)域關(guān)系抽取及知識(shí)庫構(gòu)建原型系統(tǒng)研究
發(fā)布時(shí)間:2021-01-13 23:00
互聯(lián)網(wǎng)的快速發(fā)展,使得網(wǎng)絡(luò)中涌現(xiàn)出越來越多的漢文旅游網(wǎng)站,為游客提供豐富的旅游信息。但漢文旅游網(wǎng)站信息龐雜,人們很難從海量無結(jié)構(gòu)的文本中快速準(zhǔn)確地了解景點(diǎn)全面的信息。相比之下,藏文旅游領(lǐng)域數(shù)據(jù)十分匱乏。如何借助資源豐富語言的知識(shí)輔助藏文旅游領(lǐng)域知識(shí)庫構(gòu)建,以及在資源豐富語言中如何從海量、多源、無結(jié)構(gòu)數(shù)據(jù)中抽取旅游領(lǐng)域知識(shí)具有重要的研究?jī)r(jià)值。針對(duì)以上問題,本文主要進(jìn)行了漢藏跨語言旅游領(lǐng)域的關(guān)系抽取與知識(shí)庫構(gòu)建研究,主要工作如下:(1)針對(duì)目前網(wǎng)絡(luò)資源中藏文景點(diǎn)語料匱乏,不易直接獲取藏文景點(diǎn)知識(shí)的問題,本文借助資源豐富的漢文旅游語料進(jìn)行屬性關(guān)系抽取,獲取全面的景點(diǎn)知識(shí),然后將漢文知識(shí)遷移到藏文旅游領(lǐng)域。在對(duì)大量漢文旅游文本的特點(diǎn)進(jìn)行分析的基礎(chǔ)上,采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-term Memory,BiLSTM)模型對(duì)藏族地區(qū)旅游景點(diǎn)文本進(jìn)行關(guān)系抽取。在該模型中,為了豐富詞向量的語義表示能力,本文在詞向量模型中融合了詞性特征和位置特征,通過對(duì)比實(shí)驗(yàn)表明融合多特征信息的詞向量表示方法比傳統(tǒng)詞向量表示方法的結(jié)果有大幅度提升。其中,對(duì)于“臨近關(guān)系”和“...
【文章來源】:中央民族大學(xué)北京市 211工程院校 985工程院校
【文章頁數(shù)】:108 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?LSTM結(jié)構(gòu)圖??首先計(jì)算遺忘門ft,經(jīng)過Sigmoid函數(shù)處理后,ft中每一維的取值都在0到1??
將經(jīng)過預(yù)處理(分句、分詞、詞性標(biāo)注)的旅游文本作為待輸入語料庫(CorpusDate),采用基于Word2Vec_模型進(jìn)行聯(lián)合訓(xùn)練,最終向量模型(Ci_VecModel)以及詞性向量模型(Xi_VecModel)。??位置向量。通過計(jì)算句子中每個(gè)詞語到目標(biāo)實(shí)體的距離,使得同一個(gè)不同的實(shí)例關(guān)系也可以很好的區(qū)分,具體實(shí)現(xiàn)是:對(duì)于一個(gè)長(zhǎng)度為I的句序列中的每一個(gè)詞語s,,其距離實(shí)體el和實(shí)體e2的相對(duì)距離i-b,其中i表示當(dāng)前詞語在句子中的索引下標(biāo),^和^分別是實(shí)體el和2的索引下標(biāo),負(fù)數(shù)即表示當(dāng)前詞語位于實(shí)體詞前。如2-7圖所示,句子“
中d表示位置向量的維度。最終,句子中每個(gè)詞語的位置向量表示為pVFfpVihPVc],??其中卩^和pvi2分別表示句子中第i個(gè)詞語到實(shí)體el和實(shí)體e2的相對(duì)距離的向??量表不。??-5??I?;??恰嗅曲德寺(e1)?建于?16世紀(jì)末,屬?格魯派(e2)?<,??t?|??1??圖2-7距離向量示例??2.4.2基于BiLSTM的旅游領(lǐng)域關(guān)系抽取模型??本文研宄的旅游領(lǐng)域關(guān)系抽取模型的詞向量表示除了關(guān)注詞語特征外,還依??次融合了詞語的詞性特征和位置特征;基于BiLSTM特征融合的旅游領(lǐng)域關(guān)系抽??取模型如圖2-8所示。??
本文編號(hào):2975703
【文章來源】:中央民族大學(xué)北京市 211工程院校 985工程院校
【文章頁數(shù)】:108 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1?LSTM結(jié)構(gòu)圖??首先計(jì)算遺忘門ft,經(jīng)過Sigmoid函數(shù)處理后,ft中每一維的取值都在0到1??
將經(jīng)過預(yù)處理(分句、分詞、詞性標(biāo)注)的旅游文本作為待輸入語料庫(CorpusDate),采用基于Word2Vec_模型進(jìn)行聯(lián)合訓(xùn)練,最終向量模型(Ci_VecModel)以及詞性向量模型(Xi_VecModel)。??位置向量。通過計(jì)算句子中每個(gè)詞語到目標(biāo)實(shí)體的距離,使得同一個(gè)不同的實(shí)例關(guān)系也可以很好的區(qū)分,具體實(shí)現(xiàn)是:對(duì)于一個(gè)長(zhǎng)度為I的句序列中的每一個(gè)詞語s,,其距離實(shí)體el和實(shí)體e2的相對(duì)距離i-b,其中i表示當(dāng)前詞語在句子中的索引下標(biāo),^和^分別是實(shí)體el和2的索引下標(biāo),負(fù)數(shù)即表示當(dāng)前詞語位于實(shí)體詞前。如2-7圖所示,句子“
中d表示位置向量的維度。最終,句子中每個(gè)詞語的位置向量表示為pVFfpVihPVc],??其中卩^和pvi2分別表示句子中第i個(gè)詞語到實(shí)體el和實(shí)體e2的相對(duì)距離的向??量表不。??-5??I?;??恰嗅曲德寺(e1)?建于?16世紀(jì)末,屬?格魯派(e2)?<,??t?|??1??圖2-7距離向量示例??2.4.2基于BiLSTM的旅游領(lǐng)域關(guān)系抽取模型??本文研宄的旅游領(lǐng)域關(guān)系抽取模型的詞向量表示除了關(guān)注詞語特征外,還依??次融合了詞語的詞性特征和位置特征;基于BiLSTM特征融合的旅游領(lǐng)域關(guān)系抽??取模型如圖2-8所示。??
本文編號(hào):2975703
本文鏈接:http://sikaile.net/wenyilunwen/yuyanxuelw/2975703.html
最近更新
教材專著