面向領(lǐng)域的實體識別與關(guān)系抽取設(shè)計與實現(xiàn)
發(fā)布時間:2021-04-14 05:58
隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)的激增,互聯(lián)網(wǎng)中的數(shù)據(jù)包含的信息也開始爆炸式的增長。如何快捷準(zhǔn)確的從海量數(shù)據(jù)中抽取知識,并將提取的知識應(yīng)用到各個領(lǐng)域成為當(dāng)下研究的熱點。目前對于英文隱含關(guān)系的抽取和實體識別有很多研究成果,但中文的研究卻十分欠缺。為此,本文針對中文研究設(shè)計了命名實體識別和關(guān)系抽取的模型。傳統(tǒng)基于特征的方法較為成熟,且提升空間有限,為了進一步提升模型的自動化和性能,本文著重研究了基于統(tǒng)計機器學(xué)習(xí)和基于深度學(xué)習(xí)的命名實體識別模型和關(guān)系抽取模型。本文模型以先進的詞向量技術(shù)作為基礎(chǔ),以傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)的理論為指導(dǎo),分析、訓(xùn)練、比較了模型的表現(xiàn)效果。本文主要工作包括如下幾個方面:1.傳統(tǒng)層疊馬爾可夫的命名實體識別需要人工總結(jié)實體領(lǐng)域命名實體的構(gòu)成規(guī)律。本文結(jié)合詞向量技術(shù),讓模型學(xué)習(xí)命名實體的構(gòu)成規(guī)律,增加算法的自動化程度,減少算法對先驗知識的依賴,使該算法有更為通用的使用場景,提高其跨領(lǐng)域的使用。2.在關(guān)系抽取任務(wù)中,結(jié)合多種的詞向量、深度學(xué)習(xí)理論構(gòu)建模型。使用transformer,解決一詞多義問題。并使用絕對位置嵌入和相對位置嵌入解決網(wǎng)絡(luò)對語序信息的捕捉。3.構(gòu)建了文本分析...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學(xué)位級別】:碩士
【部分圖文】:
Skip-gram模型的預(yù)測
樣的一句話“wherecanIbuyapple.”中,以“buy”作為中心詞,且背 2 時,連續(xù)詞袋模型關(guān)心的是,給定背景詞“where”、“can”、“I”和“詞“buy”的條件概率,也就是公式 2-6 的內(nèi)容。(` `b uy∣" `` W here" , ``c an" , ``I " , ``a pple " ).詞袋模型的上下文詞語有很多個,所以將這些背景的詞向量取平用類似于跳子模型的方法來計算連續(xù)詞袋模型關(guān)注的條件概率。 div 和 diu 分別表示詞典中第 i 個的詞語的背景詞和中心中心詞cw 在詞典中第 c 個詞語,背景詞1 2, ,mo ow w 在詞典中位,那么給定背景詞生成中心詞的條件概率是公式 2-7 所展示的內(nèi)1 21 21exp ( )2( , , ) .1exp ( )∣ + + + + mmc o oc o oi o omw w wu v vu v v圖 2-2 cbow 模型的預(yù)測
其中“<電子”,“電子科”,“子科技”,“科技大”,“技大學(xué)”和“大學(xué)>”都 n=3 的子詞,“<電子科技大學(xué)>”是特殊的子詞,它將整個詞語當(dāng)作子詞,但要區(qū)分的是他的向量不同于“電子科技大學(xué)”的詞向量,而只是作為子詞的向。在 fastText 的訓(xùn)練過程中,對于每個單詞都將它所有 n 在 3 到 6 的子詞和殊子詞的用來表示詞語。令某個詞語切割出來的子詞集和記為w,假設(shè)詞典詞語 g 的向量為gz ,則當(dāng)詞語 w 在跳字模型中時,他作為中心詞的向量wv ,表為公式 2-10 所示。. ww ggv z(2-1因為在計算此詞向量時,fastText 還有子詞向量的計算,所以在參數(shù)一致訓(xùn)語料相同的情況下 fastText 的時間復(fù)雜度比 Word2vec 要高上不少。但是通過tText 訓(xùn)練得到的詞向量信息更多,另外對于一些出現(xiàn)次數(shù)很少的詞語甚至于圖 2-3 子詞的提取示例
本文編號:3136800
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學(xué)位級別】:碩士
【部分圖文】:
Skip-gram模型的預(yù)測
樣的一句話“wherecanIbuyapple.”中,以“buy”作為中心詞,且背 2 時,連續(xù)詞袋模型關(guān)心的是,給定背景詞“where”、“can”、“I”和“詞“buy”的條件概率,也就是公式 2-6 的內(nèi)容。(` `b uy∣" `` W here" , ``c an" , ``I " , ``a pple " ).詞袋模型的上下文詞語有很多個,所以將這些背景的詞向量取平用類似于跳子模型的方法來計算連續(xù)詞袋模型關(guān)注的條件概率。 div 和 diu 分別表示詞典中第 i 個的詞語的背景詞和中心中心詞cw 在詞典中第 c 個詞語,背景詞1 2, ,mo ow w 在詞典中位,那么給定背景詞生成中心詞的條件概率是公式 2-7 所展示的內(nèi)1 21 21exp ( )2( , , ) .1exp ( )∣ + + + + mmc o oc o oi o omw w wu v vu v v圖 2-2 cbow 模型的預(yù)測
其中“<電子”,“電子科”,“子科技”,“科技大”,“技大學(xué)”和“大學(xué)>”都 n=3 的子詞,“<電子科技大學(xué)>”是特殊的子詞,它將整個詞語當(dāng)作子詞,但要區(qū)分的是他的向量不同于“電子科技大學(xué)”的詞向量,而只是作為子詞的向。在 fastText 的訓(xùn)練過程中,對于每個單詞都將它所有 n 在 3 到 6 的子詞和殊子詞的用來表示詞語。令某個詞語切割出來的子詞集和記為w,假設(shè)詞典詞語 g 的向量為gz ,則當(dāng)詞語 w 在跳字模型中時,他作為中心詞的向量wv ,表為公式 2-10 所示。. ww ggv z(2-1因為在計算此詞向量時,fastText 還有子詞向量的計算,所以在參數(shù)一致訓(xùn)語料相同的情況下 fastText 的時間復(fù)雜度比 Word2vec 要高上不少。但是通過tText 訓(xùn)練得到的詞向量信息更多,另外對于一些出現(xiàn)次數(shù)很少的詞語甚至于圖 2-3 子詞的提取示例
本文編號:3136800
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3136800.html
最近更新
教材專著