面向企業(yè)圖譜的實(shí)體鏈接技術(shù)的研究
發(fā)布時(shí)間:2021-07-06 12:28
在這個(gè)信息爆炸的時(shí)代,網(wǎng)上蘊(yùn)含著海量的有價(jià)值的企業(yè)信息,但是這些信息大多分散在不同的網(wǎng)站,這就導(dǎo)致這些數(shù)據(jù)缺乏層次性和邏輯性,不同網(wǎng)站的數(shù)據(jù)集之間很難實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)關(guān)聯(lián),所以對(duì)信息的智能化和規(guī)范化處理顯得尤為重要。本文研究的實(shí)體鏈接技術(shù)主要是解決實(shí)體的多樣性、歧義性、缺失性三方面的問(wèn)題。根據(jù)有監(jiān)督實(shí)體鏈接算法的三個(gè)步驟:命名實(shí)體識(shí)別、候選實(shí)體的生成和候選實(shí)體消歧,設(shè)計(jì)了一個(gè)實(shí)體鏈接系統(tǒng),并利用該系統(tǒng)成功構(gòu)建了一個(gè)企業(yè)領(lǐng)域的知識(shí)圖譜。論文的具體工作可以歸納如下:(1)選擇維基百科中文版、百度百科和互動(dòng)百科作為背景知識(shí)庫(kù)來(lái)構(gòu)建多源知識(shí)庫(kù),使用基于Att-BiLSTM-CRF中文命名實(shí)體識(shí)別模型來(lái)獲得實(shí)體指稱,提出了一種結(jié)合上下文匹配策略和知識(shí)庫(kù)信息檢索策略的實(shí)體指稱擴(kuò)展方法,最后生成了一個(gè)具備高召回率和高準(zhǔn)確率的候選實(shí)體集合。(2)提出了兩種融合神經(jīng)網(wǎng)絡(luò)和余弦相似度的候選實(shí)體排序算法,提出了空實(shí)體判定方法。設(shè)計(jì)不同場(chǎng)景對(duì)比實(shí)驗(yàn),結(jié)果表明,選擇融合CNN和余弦相似度的候選實(shí)體排序算法,并添加空實(shí)體判定方法得到的候選實(shí)體消歧算法效果最優(yōu)。(3)結(jié)合上述候選實(shí)體生成算法和候選實(shí)體排序算法作為本文...
【文章來(lái)源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
“馬云”的新聞一則
東南大學(xué)碩士學(xué)位論文8圖2-2阿里巴巴集團(tuán)創(chuàng)始人“馬云”的百度百科頁(yè)面圖2-3百度百科知識(shí)庫(kù)中所有名為“馬云”的實(shí)體2.1.2實(shí)體鏈接的算法分類實(shí)體鏈接技術(shù)主要是解決實(shí)體的多樣性、歧義性、缺失性三方面的問(wèn)題。多樣性是指實(shí)體可能存在多種形式,比如縮寫、中英文、全稱、昵稱等。歧義性是指文本中出現(xiàn)的實(shí)體可能指代多個(gè)標(biāo)準(zhǔn)實(shí)體,但是這些標(biāo)準(zhǔn)實(shí)體之間不存在關(guān)系,會(huì)造成歧義。缺失性是指如果知識(shí)庫(kù)中不存在實(shí)體的相關(guān)信息,需要對(duì)這種情況進(jìn)行處理。目前實(shí)體鏈接的算法主要分為兩種:無(wú)監(jiān)督的基于字典或相似度的實(shí)體鏈接的算法,有監(jiān)督的基于機(jī)器學(xué)習(xí)的實(shí)體鏈接的算法[30]。2.1.2.1無(wú)監(jiān)督的實(shí)體鏈接的算法如果實(shí)體中僅包含實(shí)體本身無(wú)其他冗余信息或?qū)嶓w形式單一且有跡可循時(shí),通常使用無(wú)監(jiān)督的實(shí)體鏈接的算法。將問(wèn)題轉(zhuǎn)為單實(shí)體鏈接的問(wèn)題,計(jì)算文本相似度,選擇相關(guān)性最大的實(shí)體作為結(jié)果。2.1.2.2有監(jiān)督的實(shí)體鏈接算法如果實(shí)體形式不規(guī)范,數(shù)據(jù)復(fù)雜,需要結(jié)合額外的信息來(lái)進(jìn)行判斷時(shí),通常使用有監(jiān)督的實(shí)體鏈接的算法,將問(wèn)題轉(zhuǎn)為分類問(wèn)題或排序問(wèn)題。實(shí)體鏈接的核心問(wèn)題就是實(shí)體指稱的候選實(shí)體排序問(wèn)題。其中最著名的有監(jiān)督的實(shí)體鏈接的算法是排序?qū)W習(xí)算法。排序?qū)W習(xí)[31](LearningtoRank,簡(jiǎn)稱L2R),它采用機(jī)器學(xué)習(xí)算法,通過(guò)訓(xùn)練模型來(lái)解決排序問(wèn)題。其達(dá)到的效果是:給定一組文檔,對(duì)任意查詢請(qǐng)求給出反映文檔相關(guān)
東南大學(xué)碩士學(xué)位論文8圖2-2阿里巴巴集團(tuán)創(chuàng)始人“馬云”的百度百科頁(yè)面圖2-3百度百科知識(shí)庫(kù)中所有名為“馬云”的實(shí)體2.1.2實(shí)體鏈接的算法分類實(shí)體鏈接技術(shù)主要是解決實(shí)體的多樣性、歧義性、缺失性三方面的問(wèn)題。多樣性是指實(shí)體可能存在多種形式,比如縮寫、中英文、全稱、昵稱等。歧義性是指文本中出現(xiàn)的實(shí)體可能指代多個(gè)標(biāo)準(zhǔn)實(shí)體,但是這些標(biāo)準(zhǔn)實(shí)體之間不存在關(guān)系,會(huì)造成歧義。缺失性是指如果知識(shí)庫(kù)中不存在實(shí)體的相關(guān)信息,需要對(duì)這種情況進(jìn)行處理。目前實(shí)體鏈接的算法主要分為兩種:無(wú)監(jiān)督的基于字典或相似度的實(shí)體鏈接的算法,有監(jiān)督的基于機(jī)器學(xué)習(xí)的實(shí)體鏈接的算法[30]。2.1.2.1無(wú)監(jiān)督的實(shí)體鏈接的算法如果實(shí)體中僅包含實(shí)體本身無(wú)其他冗余信息或?qū)嶓w形式單一且有跡可循時(shí),通常使用無(wú)監(jiān)督的實(shí)體鏈接的算法。將問(wèn)題轉(zhuǎn)為單實(shí)體鏈接的問(wèn)題,計(jì)算文本相似度,選擇相關(guān)性最大的實(shí)體作為結(jié)果。2.1.2.2有監(jiān)督的實(shí)體鏈接算法如果實(shí)體形式不規(guī)范,數(shù)據(jù)復(fù)雜,需要結(jié)合額外的信息來(lái)進(jìn)行判斷時(shí),通常使用有監(jiān)督的實(shí)體鏈接的算法,將問(wèn)題轉(zhuǎn)為分類問(wèn)題或排序問(wèn)題。實(shí)體鏈接的核心問(wèn)題就是實(shí)體指稱的候選實(shí)體排序問(wèn)題。其中最著名的有監(jiān)督的實(shí)體鏈接的算法是排序?qū)W習(xí)算法。排序?qū)W習(xí)[31](LearningtoRank,簡(jiǎn)稱L2R),它采用機(jī)器學(xué)習(xí)算法,通過(guò)訓(xùn)練模型來(lái)解決排序問(wèn)題。其達(dá)到的效果是:給定一組文檔,對(duì)任意查詢請(qǐng)求給出反映文檔相關(guān)
【參考文獻(xiàn)】:
期刊論文
[1]基于Neo4j圖數(shù)據(jù)庫(kù)的課程體系知識(shí)圖譜系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 肖慶都,屈亮亮,侯霞. 電腦知識(shí)與技術(shù). 2017(36)
[2]基于重啟隨機(jī)游走的實(shí)體識(shí)別與鏈接方法[J]. 譚詠梅,鄭迪,劉姝雯,呂學(xué)強(qiáng). 北京郵電大學(xué)學(xué)報(bào). 2017(06)
[3]基于Web的問(wèn)答系統(tǒng)綜述[J]. 李舟軍,李水華. 計(jì)算機(jī)科學(xué). 2017(06)
[4]基于詞向量的實(shí)體鏈接方法[J]. 齊愛芹,徐蔚然. 數(shù)據(jù)采集與處理. 2017(03)
[5]知識(shí)圖譜的發(fā)展與構(gòu)建[J]. 李濤,王次臣,李華康. 南京理工大學(xué)學(xué)報(bào). 2017(01)
[6]一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法[J]. 汪沛,線巖團(tuán),郭劍毅,文永華,陳瑋,王紅斌. 智能系統(tǒng)學(xué)報(bào). 2016(03)
[7]知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(03)
[8]國(guó)外知識(shí)圖譜的應(yīng)用研究現(xiàn)狀分析[J]. 楊思洛,韓瑞珍. 情報(bào)資料工作. 2013(06)
[9]排序?qū)W習(xí)中的Ranking SVM算法研究[J]. 丁偉民. 科技視界. 2013(30)
[10]本體構(gòu)建方法及構(gòu)建工具研究[J]. 于斌斌. 邊疆經(jīng)濟(jì)與文化. 2012(12)
碩士論文
[1]實(shí)體鏈接方法研究及信息安全領(lǐng)域?qū)嶓w鏈接系統(tǒng)實(shí)現(xiàn)[D]. 王猛.鄭州大學(xué) 2018
[2]基于搜索引擎擴(kuò)展信息的實(shí)體鏈接研究[D]. 何穎.合肥工業(yè)大學(xué) 2018
[3]特定領(lǐng)域?qū)嶓w鏈接系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 張廣鵬.哈爾濱工業(yè)大學(xué) 2018
[4]基于網(wǎng)絡(luò)百科的中文實(shí)體鏈接研究[D]. 袁金偉.西南交通大學(xué) 2017
本文編號(hào):3268243
【文章來(lái)源】:東南大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
“馬云”的新聞一則
東南大學(xué)碩士學(xué)位論文8圖2-2阿里巴巴集團(tuán)創(chuàng)始人“馬云”的百度百科頁(yè)面圖2-3百度百科知識(shí)庫(kù)中所有名為“馬云”的實(shí)體2.1.2實(shí)體鏈接的算法分類實(shí)體鏈接技術(shù)主要是解決實(shí)體的多樣性、歧義性、缺失性三方面的問(wèn)題。多樣性是指實(shí)體可能存在多種形式,比如縮寫、中英文、全稱、昵稱等。歧義性是指文本中出現(xiàn)的實(shí)體可能指代多個(gè)標(biāo)準(zhǔn)實(shí)體,但是這些標(biāo)準(zhǔn)實(shí)體之間不存在關(guān)系,會(huì)造成歧義。缺失性是指如果知識(shí)庫(kù)中不存在實(shí)體的相關(guān)信息,需要對(duì)這種情況進(jìn)行處理。目前實(shí)體鏈接的算法主要分為兩種:無(wú)監(jiān)督的基于字典或相似度的實(shí)體鏈接的算法,有監(jiān)督的基于機(jī)器學(xué)習(xí)的實(shí)體鏈接的算法[30]。2.1.2.1無(wú)監(jiān)督的實(shí)體鏈接的算法如果實(shí)體中僅包含實(shí)體本身無(wú)其他冗余信息或?qū)嶓w形式單一且有跡可循時(shí),通常使用無(wú)監(jiān)督的實(shí)體鏈接的算法。將問(wèn)題轉(zhuǎn)為單實(shí)體鏈接的問(wèn)題,計(jì)算文本相似度,選擇相關(guān)性最大的實(shí)體作為結(jié)果。2.1.2.2有監(jiān)督的實(shí)體鏈接算法如果實(shí)體形式不規(guī)范,數(shù)據(jù)復(fù)雜,需要結(jié)合額外的信息來(lái)進(jìn)行判斷時(shí),通常使用有監(jiān)督的實(shí)體鏈接的算法,將問(wèn)題轉(zhuǎn)為分類問(wèn)題或排序問(wèn)題。實(shí)體鏈接的核心問(wèn)題就是實(shí)體指稱的候選實(shí)體排序問(wèn)題。其中最著名的有監(jiān)督的實(shí)體鏈接的算法是排序?qū)W習(xí)算法。排序?qū)W習(xí)[31](LearningtoRank,簡(jiǎn)稱L2R),它采用機(jī)器學(xué)習(xí)算法,通過(guò)訓(xùn)練模型來(lái)解決排序問(wèn)題。其達(dá)到的效果是:給定一組文檔,對(duì)任意查詢請(qǐng)求給出反映文檔相關(guān)
東南大學(xué)碩士學(xué)位論文8圖2-2阿里巴巴集團(tuán)創(chuàng)始人“馬云”的百度百科頁(yè)面圖2-3百度百科知識(shí)庫(kù)中所有名為“馬云”的實(shí)體2.1.2實(shí)體鏈接的算法分類實(shí)體鏈接技術(shù)主要是解決實(shí)體的多樣性、歧義性、缺失性三方面的問(wèn)題。多樣性是指實(shí)體可能存在多種形式,比如縮寫、中英文、全稱、昵稱等。歧義性是指文本中出現(xiàn)的實(shí)體可能指代多個(gè)標(biāo)準(zhǔn)實(shí)體,但是這些標(biāo)準(zhǔn)實(shí)體之間不存在關(guān)系,會(huì)造成歧義。缺失性是指如果知識(shí)庫(kù)中不存在實(shí)體的相關(guān)信息,需要對(duì)這種情況進(jìn)行處理。目前實(shí)體鏈接的算法主要分為兩種:無(wú)監(jiān)督的基于字典或相似度的實(shí)體鏈接的算法,有監(jiān)督的基于機(jī)器學(xué)習(xí)的實(shí)體鏈接的算法[30]。2.1.2.1無(wú)監(jiān)督的實(shí)體鏈接的算法如果實(shí)體中僅包含實(shí)體本身無(wú)其他冗余信息或?qū)嶓w形式單一且有跡可循時(shí),通常使用無(wú)監(jiān)督的實(shí)體鏈接的算法。將問(wèn)題轉(zhuǎn)為單實(shí)體鏈接的問(wèn)題,計(jì)算文本相似度,選擇相關(guān)性最大的實(shí)體作為結(jié)果。2.1.2.2有監(jiān)督的實(shí)體鏈接算法如果實(shí)體形式不規(guī)范,數(shù)據(jù)復(fù)雜,需要結(jié)合額外的信息來(lái)進(jìn)行判斷時(shí),通常使用有監(jiān)督的實(shí)體鏈接的算法,將問(wèn)題轉(zhuǎn)為分類問(wèn)題或排序問(wèn)題。實(shí)體鏈接的核心問(wèn)題就是實(shí)體指稱的候選實(shí)體排序問(wèn)題。其中最著名的有監(jiān)督的實(shí)體鏈接的算法是排序?qū)W習(xí)算法。排序?qū)W習(xí)[31](LearningtoRank,簡(jiǎn)稱L2R),它采用機(jī)器學(xué)習(xí)算法,通過(guò)訓(xùn)練模型來(lái)解決排序問(wèn)題。其達(dá)到的效果是:給定一組文檔,對(duì)任意查詢請(qǐng)求給出反映文檔相關(guān)
【參考文獻(xiàn)】:
期刊論文
[1]基于Neo4j圖數(shù)據(jù)庫(kù)的課程體系知識(shí)圖譜系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 肖慶都,屈亮亮,侯霞. 電腦知識(shí)與技術(shù). 2017(36)
[2]基于重啟隨機(jī)游走的實(shí)體識(shí)別與鏈接方法[J]. 譚詠梅,鄭迪,劉姝雯,呂學(xué)強(qiáng). 北京郵電大學(xué)學(xué)報(bào). 2017(06)
[3]基于Web的問(wèn)答系統(tǒng)綜述[J]. 李舟軍,李水華. 計(jì)算機(jī)科學(xué). 2017(06)
[4]基于詞向量的實(shí)體鏈接方法[J]. 齊愛芹,徐蔚然. 數(shù)據(jù)采集與處理. 2017(03)
[5]知識(shí)圖譜的發(fā)展與構(gòu)建[J]. 李濤,王次臣,李華康. 南京理工大學(xué)學(xué)報(bào). 2017(01)
[6]一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法[J]. 汪沛,線巖團(tuán),郭劍毅,文永華,陳瑋,王紅斌. 智能系統(tǒng)學(xué)報(bào). 2016(03)
[7]知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(03)
[8]國(guó)外知識(shí)圖譜的應(yīng)用研究現(xiàn)狀分析[J]. 楊思洛,韓瑞珍. 情報(bào)資料工作. 2013(06)
[9]排序?qū)W習(xí)中的Ranking SVM算法研究[J]. 丁偉民. 科技視界. 2013(30)
[10]本體構(gòu)建方法及構(gòu)建工具研究[J]. 于斌斌. 邊疆經(jīng)濟(jì)與文化. 2012(12)
碩士論文
[1]實(shí)體鏈接方法研究及信息安全領(lǐng)域?qū)嶓w鏈接系統(tǒng)實(shí)現(xiàn)[D]. 王猛.鄭州大學(xué) 2018
[2]基于搜索引擎擴(kuò)展信息的實(shí)體鏈接研究[D]. 何穎.合肥工業(yè)大學(xué) 2018
[3]特定領(lǐng)域?qū)嶓w鏈接系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 張廣鵬.哈爾濱工業(yè)大學(xué) 2018
[4]基于網(wǎng)絡(luò)百科的中文實(shí)體鏈接研究[D]. 袁金偉.西南交通大學(xué) 2017
本文編號(hào):3268243
本文鏈接:http://sikaile.net/kejilunwen/shengwushengchang/3268243.html
最近更新
教材專著