事件知識圖譜平臺設(shè)計及實現(xiàn)
發(fā)布時間:2021-08-31 04:53
知識圖譜是以實體作為頂點,實體間關(guān)聯(lián)作為邊,描述靜態(tài)知識,但現(xiàn)實世界中知識是動態(tài)變化的,記敘文是記錄動態(tài)知識的主要載體。針對記敘文的知識化抽取,本文設(shè)計并實現(xiàn)了一個事件知識圖譜平臺,能夠?qū)⒅R從非結(jié)構(gòu)化文本形式轉(zhuǎn)化成以事件為單元的圖譜形式,描述現(xiàn)實世界中事物之間的關(guān)聯(lián)。事件知識圖譜平臺由數(shù)據(jù)采集平臺、圖譜構(gòu)建平臺、并行計算平臺及標注平臺組成。數(shù)據(jù)采集平臺負責從互聯(lián)網(wǎng)中獲取指定事件相關(guān)的新聞文本、追蹤熱點事件、自動更新數(shù)據(jù)。圖譜構(gòu)建平臺將事件信息從文本形式轉(zhuǎn)化為圖譜形式。并行計算平臺提供并行計算能力,承載圖譜構(gòu)建過程中的計算任務。標注平臺為標注人員和行業(yè)專家提供規(guī)則制定和樣本標注作業(yè)平臺,確保平臺能夠適應不同的業(yè)務場景。平臺的主要工作流程分為文本數(shù)據(jù)采集、元事件抽取及融合、事件知識圖譜構(gòu)建及可視化。首先通過數(shù)據(jù)采集平臺獲取事件相關(guān)文本,再利用自然語言處理技術(shù)分析文本,從中抽取元事件信息,然后對元事件信息進行整理和融合,最后將事件組織為圖譜形式,完成事件知識圖譜構(gòu)建,實現(xiàn)將知識轉(zhuǎn)化為以事件為核心的圖譜形式。本文的研究成果包括以下四點:(1)針對數(shù)據(jù)采集時可能出現(xiàn)搜索不準確導致結(jié)果中出現(xiàn)無關(guān)...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學位級別】:碩士
【部分圖文】:
隱馬爾可夫模型結(jié)構(gòu)示意圖
電子科技大學碩士學位論文2.2.3 word2vectorword2vector 是一種將詞或者字轉(zhuǎn)換為向量表示的工具。詞向量之間余弦距離的表示詞之間的相似性:余弦值越大,兩個向量在空間中夾角越小,兩個詞詞義越接近;余弦值越小,兩個向量在空間中夾角越大,兩個詞的詞義越疏遠。和傳統(tǒng)的統(tǒng)計特征相比,word2vector 解決了詞向量高維稀疏的問題,同時能夠利用詞向量相似性表示語義相似性。這一轉(zhuǎn)換為文本進行語義計算奠定了基礎(chǔ),也促進了神經(jīng)網(wǎng)絡在自然語言處理領(lǐng)域的應用。根據(jù)語言模型的不同,分為連續(xù)詞袋模型(Continuous Bag-of-Word Model,CBOW)和“Skip-gram”模型[35],前者是用語境來預測目標單詞,后者是用中心單詞來預測語境。訓練 word2vector 時還有兩種優(yōu)化方法:層次 softmax 和負采樣。word2vector 模型結(jié)構(gòu)如圖 2-2 所示,圖中 C(wt)表示詞 wt對應的向量。
第二章 相關(guān)理論與技術(shù)基礎(chǔ) 2.1 令無向圖 G {V ,E},v v VY Y ( ) ,Y 中的元素與無向圖中X 為觀測序列,Y 為狀態(tài)序列。在 X 已知的情況下,如果Y 中任爾可夫性,即~v w v wP( Y |X ,Y , w v) = P( Y |X ,Y , w v) P (Y | X )是一個條件隨機場。其中 w~v,表示在無向圖中,(點。鏈條件隨機場(Linear Chain Conditional Random Field)是條件1 2{ , ,...,}n X X X表示觀測值, 1 2, ,...,nY Y Y Y表示隱藏狀態(tài)值,一對應。在線性條件隨機場的概率轉(zhuǎn)換圖中,最大團節(jié)點數(shù)為節(jié)點。結(jié)構(gòu)如圖 2-3 所示。
【參考文獻】:
期刊論文
[1]基于電商數(shù)據(jù)的產(chǎn)品知識圖譜構(gòu)建研究[J]. 丁晟春,侯琳琳,王穎. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(03)
[2]基于LSTM網(wǎng)絡的序列標注中文分詞法[J]. 任智慧,徐浩煜,封松林,周晗,施俊. 計算機應用研究. 2017(05)
[3]知識表示學習研究進展[J]. 劉知遠,孫茂松,林衍凱,謝若冰. 計算機研究與發(fā)展. 2016(02)
[4]知識圖譜的技術(shù)實現(xiàn)流程及相關(guān)應用[J]. 曹倩,趙一鳴. 情報理論與實踐. 2015(12)
[5]知識組織中知識粒度化表示和規(guī)范化研究[J]. 徐緒堪,房道偉,蔣勛,蘇新寧. 圖書情報知識. 2014(06)
[6]開放式信息抽取研究進展[J]. 楊博,蔡東風,楊華. 中文信息學報. 2014(04)
[7]基于密度的改進BIRCH聚類算法[J]. 韋相. 計算機工程與應用. 2013(10)
[8]一種基于密度的聚類算法實現(xiàn)[J]. 段明秀,唐超琳. 吉首大學學報(自然科學版). 2013(01)
[9]網(wǎng)格聚類算法研究[J]. 李愛華,尹斐斐. 科技致富向?qū)? 2012(23)
[10]數(shù)據(jù)挖掘中聚類算法研究進展[J]. 周濤,陸惠玲. 計算機工程與應用. 2012(12)
碩士論文
[1]一種改進的COBWEB算法研究[D]. 于洋.哈爾濱工程大學 2010
[2]基于最大熵模型的漢語詞性標注研究[D]. 張磊.大連理工大學 2008
本文編號:3374232
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:86 頁
【學位級別】:碩士
【部分圖文】:
隱馬爾可夫模型結(jié)構(gòu)示意圖
電子科技大學碩士學位論文2.2.3 word2vectorword2vector 是一種將詞或者字轉(zhuǎn)換為向量表示的工具。詞向量之間余弦距離的表示詞之間的相似性:余弦值越大,兩個向量在空間中夾角越小,兩個詞詞義越接近;余弦值越小,兩個向量在空間中夾角越大,兩個詞的詞義越疏遠。和傳統(tǒng)的統(tǒng)計特征相比,word2vector 解決了詞向量高維稀疏的問題,同時能夠利用詞向量相似性表示語義相似性。這一轉(zhuǎn)換為文本進行語義計算奠定了基礎(chǔ),也促進了神經(jīng)網(wǎng)絡在自然語言處理領(lǐng)域的應用。根據(jù)語言模型的不同,分為連續(xù)詞袋模型(Continuous Bag-of-Word Model,CBOW)和“Skip-gram”模型[35],前者是用語境來預測目標單詞,后者是用中心單詞來預測語境。訓練 word2vector 時還有兩種優(yōu)化方法:層次 softmax 和負采樣。word2vector 模型結(jié)構(gòu)如圖 2-2 所示,圖中 C(wt)表示詞 wt對應的向量。
第二章 相關(guān)理論與技術(shù)基礎(chǔ) 2.1 令無向圖 G {V ,E},v v VY Y ( ) ,Y 中的元素與無向圖中X 為觀測序列,Y 為狀態(tài)序列。在 X 已知的情況下,如果Y 中任爾可夫性,即~v w v wP( Y |X ,Y , w v) = P( Y |X ,Y , w v) P (Y | X )是一個條件隨機場。其中 w~v,表示在無向圖中,(點。鏈條件隨機場(Linear Chain Conditional Random Field)是條件1 2{ , ,...,}n X X X表示觀測值, 1 2, ,...,nY Y Y Y表示隱藏狀態(tài)值,一對應。在線性條件隨機場的概率轉(zhuǎn)換圖中,最大團節(jié)點數(shù)為節(jié)點。結(jié)構(gòu)如圖 2-3 所示。
【參考文獻】:
期刊論文
[1]基于電商數(shù)據(jù)的產(chǎn)品知識圖譜構(gòu)建研究[J]. 丁晟春,侯琳琳,王穎. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(03)
[2]基于LSTM網(wǎng)絡的序列標注中文分詞法[J]. 任智慧,徐浩煜,封松林,周晗,施俊. 計算機應用研究. 2017(05)
[3]知識表示學習研究進展[J]. 劉知遠,孫茂松,林衍凱,謝若冰. 計算機研究與發(fā)展. 2016(02)
[4]知識圖譜的技術(shù)實現(xiàn)流程及相關(guān)應用[J]. 曹倩,趙一鳴. 情報理論與實踐. 2015(12)
[5]知識組織中知識粒度化表示和規(guī)范化研究[J]. 徐緒堪,房道偉,蔣勛,蘇新寧. 圖書情報知識. 2014(06)
[6]開放式信息抽取研究進展[J]. 楊博,蔡東風,楊華. 中文信息學報. 2014(04)
[7]基于密度的改進BIRCH聚類算法[J]. 韋相. 計算機工程與應用. 2013(10)
[8]一種基于密度的聚類算法實現(xiàn)[J]. 段明秀,唐超琳. 吉首大學學報(自然科學版). 2013(01)
[9]網(wǎng)格聚類算法研究[J]. 李愛華,尹斐斐. 科技致富向?qū)? 2012(23)
[10]數(shù)據(jù)挖掘中聚類算法研究進展[J]. 周濤,陸惠玲. 計算機工程與應用. 2012(12)
碩士論文
[1]一種改進的COBWEB算法研究[D]. 于洋.哈爾濱工程大學 2010
[2]基于最大熵模型的漢語詞性標注研究[D]. 張磊.大連理工大學 2008
本文編號:3374232
本文鏈接:http://sikaile.net/kejilunwen/sousuoyinqinglunwen/3374232.html
最近更新
教材專著